“Hoy, cuando la gente quiere hablar con un asistente digital, piensa en dos cosas: qué quiero hacer y cómo debo formular mi orden para lograrlo”, dice Subramanya, que es muy antinatural. Existe una enorme carga cognitiva cuando la gente habla con asistentes digitales. La conversación natural es una forma de eliminar la carga cognitiva. »

Para que las conversaciones con el Asistente sean más naturales, es necesario mejorar la resolución de referencia: la capacidad de asociar una frase con una entidad específica. Por ejemplo, si dices «Configura un temporizador para 10 minutos» y luego dices «Cámbialo a 12 minutos», un asistente de voz debe entender y resolver a qué te refieres cuando dices «eso».

Los nuevos modelos NLU se basan en tecnología de aprendizaje automático, en particular representaciones de codificadores bidireccionales de transformadores o BERT. Google introdujo esta técnica en 2018 y la aplicó inicialmente a la búsqueda de Google. La tecnología de comprensión temprana del lenguaje se utilizó para deconstruir cada palabra en una oración por sí misma. Sin embargo, BERT procesa la relación entre todas las palabras de la frase, mejorando así la capacidad de identificar el contexto.

Un ejemplo de cómo BERT ha mejorado la búsqueda (como se indica aquí) es buscar «estacionamiento en una colina sin acera». Anteriormente, los resultados incluían colinas con bordillos. Después de que se activó BERT, la búsqueda de Google ofreció un sitio web que pedía a los conductores que apuntasen con las ruedas hacia la acera. Sin embargo, BERT no estuvo exento de problemas. Los estudios realizados por investigadores de Google han demostrado que el modelo contiene frases relacionadas con discapacidades negativas del lenguaje, lo que significa que la empresa debe ser más cautelosa con los proyectos de procesamiento del lenguaje natural.

Imagen del artículo

Con los modelos BERT que ahora se utilizan para temporizadores y alarmas, Subramanya dice que el Asistente ahora puede responder a solicitudes relacionadas, como los ajustes anteriores, con una precisión cercana al 100 por ciento. Sin embargo, esta comprensión superior del contexto aún no funciona en todas partes. Según Google, se está trabajando lentamente para proporcionar los modelos actualizados para otras tareas, como recordatorios y control de dispositivos domésticos inteligentes.

William Wang, director del grupo de procesamiento del lenguaje natural de la UC Santa Bárbara, dice que las mejoras realizadas por Google son radicales, especialmente porque aplicar el modelo BERT para comprender el lenguaje hablado «no es muy sencillo».

«Todo en el procesamiento del lenguaje natural ha cambiado desde 2018 con la introducción de este modelo BERT por parte de Google», dice Wang. “BERT realmente entiende lo que se sigue naturalmente de una oración a otra y cómo es la relación entre las oraciones. Aprenderá una representación contextual de la palabra, las frases y también las oraciones. Entonces, en comparación con el trabajo anterior antes de 2018, esto es mucho más poderoso. «

La mayoría de estas mejoras pueden deberse a temporizadores y alarmas, pero volverse ver una mejora general en la capacidad del asistente de voz para comprender el contexto en general. Por ejemplo, si pregunta sobre el clima en Nueva York y luego pregunta: «¿Cuál es el edificio más alto allí?» y «¿Quién lo construyó?» El asistente sigue proporcionando respuestas y sabe a qué ciudad se refiere. Esto no es exactamente nuevo, pero la actualización hace que el asistente sea aún más experto en resolver estos acertijos contextuales.

Nombres de los profesores asistentes

Video: Google

El asistente ahora puede comprender mejor los nombres únicos. Si ha intentado llamar o enviar mensajes de texto a alguien con un nombre inusual, es muy probable que haya sido necesario varios intentos o que no haya funcionado en absoluto porque el Asistente de Google no conocía la pronunciación correcta.