A medida que la tecnología evoluciona y avanza, los líderes buscan constantemente evaluar y asimilar soluciones que generen valor comercial. En muchas áreas funcionales, las nuevas tecnologías agregan avances incrementales en eficiencia. Periódicamente, aparece una tecnología que crea un cambio tectónico en el paisaje que cambia notablemente la naturaleza de la competencia. Bill Gates dijo: "La gente sobreestima el cambio tecnológico que sucederá en dos años y subestima el cambio en diez años". Un ojo escéptico hacia la innovación es prudente. Enterrar la cabeza en la arena es una receta para la obsolescencia.

"La gente sobreestima el cambio tecnológico que ocurrirá en dos años y subestima el cambio en diez".

-Bill Gates

La mayoría de las industrias tienen un plan de datos. No hay escasez de paneles, métricas, OKR, etc. que miden cada movimiento dentro y fuera de un negocio. La inteligencia artificial y el aprendizaje automático prometen aumentar exponencialmente la disponibilidad de estos datos y su utilidad en aplicaciones comerciales. Reducido a su forma más simple, los datos son un registro histórico. Lo que sucedió, cuánto sucedió, cuándo sucedió, todas estas son preguntas que pueden responderse con montañas de datos y convertirse en información útil.

Medir y cuantificar eventos, acciones, interacciones, etc. es lo que consume la mayor parte de la atención dentro de las industrias. Con las actividades de transmisión de dispositivos conectados en tiempo real, nuestra capacidad de rastrear actividades de la vida diaria se está acelerando rápidamente. La promesa de toda esta medición es la capacidad de hacer predicciones sobre el futuro, basadas en eventos históricos. Estos eventos pueden haber tenido lugar hace años, o en el último milisegundo. Como organización, el grado en que las unidades de negocios pueden aprovechar este universo de medición en constante expansión se ha convertido en la medida del éxito. La mayoría de las empresas tienen una estrategia para los datos. Si no lo hacen, seguramente se deslizarán lentamente hacia la oscuridad.

Sin embargo, existe una reserva de información sin explotar que la mayoría de las empresas no han comenzado a explotar; la voz humana Escribir la comunicación en un teclado, ya sea en una computadora o dispositivo móvil, es en realidad una función secundaria. Usamos estos dispositivos de entrada para comunicarnos principalmente porque la capacidad de usar nuestra voz y "decir" nuestras intenciones a una computadora se ha desarrollado mucho más lentamente y es mucho más complicada que usar nuestras manos. Hay muchas razones para esto, la explicación más simple es que es difícil.

La cantidad de información capturada en la voz humana es asombrosa. Investigadores como la Dra. Rita Singh en Carnegie Mellon son capaces de hacer predicciones precisas a partir de la voz sobre todo, desde las características físicas del hablante (altura, peso, estructura facial y edad, por ejemplo) hasta su origen socioeconómico, nivel de ingresos e incluso el estado de su salud física y mental. .

Esto puede sonar como ciencia ficción (¡una frase que en sí misma se está volviendo menos útil!), pero los investigadores la utilizan hoy en día para abordar problemas importantes. Por ejemplo, "Aplastar" o realizar una llamada de socorro falsa a los servicios gubernamentales o de emergencia. En algunos casos, esta “broma” puede causar daños graves y, como mínimo, una enorme pérdida de recursos. El trabajo del Dr. Singh ha permitido perfilar e identificar a los responsables de estos hechos.

Estrategia de voz para seguros

Además de la disección científica de la señal de voz, ha habido avances recientes en el procesamiento del lenguaje natural que han catapultado el campo del reconocimiento y la comprensión del habla. En 2018, los ingenieros de Google lanzaron un entrenado biblioteca de idiomas conocida como BERT. Este conjunto de conocimientos de base de aprendizaje automático se lanzó como tecnología de código abierto que permite a los investigadores de todo el mundo crear sus propias capas y avanzar en el campo mucho más rápido que los modelos anteriores.

Cualquiera que haya utilizado Amazon Alexa, Google Assistant o Siri de Apple ha experimentado las limitaciones actuales de la comprensión del lenguaje natural o NLU. Comprender el habla y convertirlo en texto utilizable (o medidas representativas) es el primer obstáculo para una interacción más humana con una computadora. Dar cuenta de dialectos, acentos, modismos, etc., es mucho más complejo y cuantos más datos recolectamos, más cerca están los sistemas de alcanzar niveles humanos de comprensión del lenguaje.

Conseguir que un programa de computadora comprenda el contexto también ha sido increíblemente complicado. Una cosa es simplemente traducir la palabra hablada en texto. Colocar ese texto en el contexto en el que fue diseñado es aún más desafiante. Hay literalmente miles de millones de combinaciones que forman nuestro léxico conversacional. Investigadores como los de Google han sido fundamentales para acercarnos al mapeo de estas combinaciones. Se necesita un tiempo considerable para refinar y hacer que sea utilizable. Si las máquinas hacen predicciones sobre sus intenciones en función de su discurso y pueden hacerlo con precisión el 80% del tiempo, ¿es un éxito?

Como la mayoría de las respuestas a las preguntas de IA, depende. Si su modelo pide calcetines en un sitio web de comercio electrónico, ese nivel de precisión podría estar bien. Sin embargo, si su aplicación está pilotando un vehículo con vidas humanas en peligro, querrá un grado de precisión casi perfecto. Para acercarse a los niveles humanos de conversación, una computadora debe hacerlo bien más del 90% del tiempo. La diferencia entre el 80-90% de precisión es en realidad la diferencia entre utilizable y prácticamente ininteligible.

El potencial comercial de la tecnología de voz no se limita a los comandos de identificación e interpretación. Ping An, compañía de seguros de vida de China, gasta miles de millones de dólares cada año para perfeccionar las tecnologías de voz para aplicaciones en servicios financieros y atención médica. La compañía afirma tener una precisión del 80% en la detección del engaño en los solicitantes que solicitan productos financieros. Ampliando el trabajo de los investigadores, Ping An espera desarrollar sistemas de procesamiento de voz que puedan diagnosticar problemas de salud simplemente escuchando el habla y analizando la señal. Dejando a un lado las implicaciones éticas y de privacidad, la automatización de los servicios humanos a la población individual más grande del planeta tiene enormes beneficios potenciales.

Clearspeed y estrategia de voz

At Clearspeed, también hemos descubierto algo asombroso enterrado en la voz: somos capaces de identificar el riesgo. El caso de uso original fue en el ejército para salvar vidas, asegurándose de que los soldados contratados por las fuerzas aliadas probablemente no exigieran una ataque verde sobre azul. Y hoy en día, las organizaciones utilizan la tecnología como una alerta de muchas maneras: identificando la identidad real frente a la sintética, un problema masivo en los servicios financieros, contratando guardabosques en lugar de cazadores furtivos o asegurándose de que la persona a la que ha pasado 3 meses entrevistando no lo sea. un agente extranjero o no ha sido despedido previamente por mala conducta - datos que una verificación de antecedentes rara vez revelará. Otros casos de uso incluyen atención médica, solicitudes de préstamos, fraude de seguros y muchos otros. Se trata de usar la voz para crear confianza y despejar a las personas lo más rápido posible para que los expertos puedan concentrarse en los pocos que potencialmente presentan un alto riesgo para la organización.

La voz humana acaba de comenzar a explorarse para aplicaciones comerciales. Ya sea que se use para diagnóstico, creación de perfiles, seguridad o precisión, existen usos casi infinitos para la tecnología de voz en toda la economía. Al igual que otras áreas de la tecnología, las corporaciones estarán ansiosas por cosechar los beneficios de la investigación y los avances tecnológicos. Además de una estrategia para datos, los ejecutivos con más visión de futuro también incorporarán una visión estratégica para el análisis de voz, visión por computadora y otras tecnologías sensoriales/de percepción que surjan.

¿Qué está haciendo su organización para aprovechar la riqueza de la voz? Únase a la conversación y comente a continuación.