• Homepage
  • >
  • Noticias
  • >
  • Google El reconocimiento de voz saltará a espacios públicos

Google El reconocimiento de voz saltará a espacios públicos

Google El reconocimiento de voz saltará a espacios públicos

Google El reconocimiento de voz saltará a espacios públicos. Siempre nos da vergüenza hablar con la máquina, pero cambia gracias al “discurso silencioso”, una tecnología que nos permite leer el discurso antes de que emita un sonido. Cathy Pearl, directora de Google Conversation Design, habla sobre ello.

Obtener dispositivos incluidos cuando hablamos contigo es muy complicado. Kathy Pearl ha estado trabajando por más de 20 años. “Cuando comenzamos, el reconocimiento de voz se limitaba a los sistemas telefónicos automatizados, básicamente, las compañías que automatizan tareas y ahorran dinero son más caras porque permiten que los clientes hablen con las computadoras en lugar de las personas”. El Director de Diseño de Conversaciones de Google, cuando iba a decirle que hablaríamos por teléfono celular y él nos entendería (relativamente).

Un mes después de la entrevista realizada en Madrid durante la conferencia Experience Fighters Innovation, la controversia se ha ido. Google confirmó que el 0.2% de las conversaciones entre usuarios y asistentes virtuales fueron escuchadas por “expertos en idiomas” en todo el mundo. La respuesta de Pearl sobre esto fue apegarse a la declaración oficial de la compañía. Google fue creado para ayudar a los oyentes a “comprender mejor el idioma” y estas “reseñas humanas” fueron canceladas.

¿Cuál es la estrategia de Google para el reconocimiento de voz?
Invierte mucho en diseño de conversación. El año pasado, se publicó un manual de buenas prácticas para que se pueda aplicar al desarrollo de esta tecnología. Creo que nos enfrentamos a otra interfaz potencial. No digo que el audio sea importante, pero será un canal importante.

A muchas personas les preocupa que los altavoces inteligentes y otros dispositivos nos estén espiando …
Con el Asistente de Google, puede verificar si Ok Google se está ejecutando en la aplicación del teléfono. El teléfono le avisa cada vez que se graba algo y esta grabación se puede eliminar permanentemente. También estamos trabajando en una tecnología para generar reconocimiento de voz localmente en su teléfono móvil sin enviar nada a la nube.

¿Qué están investigando?
En enero, se anunció el modo intérprete. Esto le permite usar su teléfono como traductor en tiempo real para varios idiomas. Otra cosa de la que estoy particularmente orgulloso es el uso de audio para accesibilidad y diseño general. Los que más se benefician de esta tecnología son aquellos con problemas de movilidad, visión o expresión.

¿Qué comentarios recibes de los usuarios? ¿A la gente le gusta hablar con aparatos?
Sí, estoy entusiasmado Según un estudio publicado por National Public Radio, la mitad del tiempo que las personas usan altavoces inteligentes es con otros. Me gusta este aspecto de la comunidad. Dicen que el 41% de nuestras vidas están frente a la pantalla, por lo que poder hablar con el dispositivo también significa separar algo del dispositivo. Puede hacer preguntas simples durante una comida. Es mucho menos vergonzoso que comenzar a buscar algo en el móvil. Y todos escuchan preguntas y respuestas, para que la conversación no se interrumpa. El reconocimiento de voz reduce ligeramente la dependencia de la pantalla.

¿Qué opinas del reconocimiento de voz en 10 años?
Será muy común. Hoy, por ejemplo, los parlantes inteligentes se encuentran principalmente en el hogar, pero pronto estarán en tiendas, restaurantes y lugares de trabajo. Una de las razones es que no queremos hablar con la cámara con fuerza cuando estamos en público. Aparecerá una tecnología llamada discurso silencioso. Esto fue prototipado bajo el nombre de Alter Ego en el MIT Media Lab. El dispositivo tiene un sensor de mandíbula que capta la señal previa al habla. Envía una micro señal antes de hablar. La idea es capturarlos y codificarlos. Esto permite que cualquiera se comunique sin escuchar nuestra voz. Esta tecnología activa el uso del reconocimiento de voz.

¿Ha detectado diferentes métodos relacionados con las unidades de voz por país?
No, excede las características de cada idioma. Es importante no solo traducir, sino también diseñar para diferentes países. Un equipo de localización lo ayuda a comprender que una cultura puede verse diferente de otra.

¿Cuáles son los avances recientes importantes en esta tecnología?
Primero, no necesitas un micrófono frente a ti, te atrapan bien. La precisión del reconocimiento de voz es muy alta. Y aunque todavía queda un largo camino por recorrer, la comprensión del lenguaje natural ha mejorado significativamente.

¿Cuáles son las restricciones actuales sobre el desarrollo relacionadas con el reconocimiento de voz?
Uno de los mayores límites es lo que se llama capacidad de descubrimiento. Digamos que tiene un altavoz inteligente: ¿cómo sabe lo que puede hacer? Por supuesto, puedes hacer miles de cosas, pero ¿cómo sabes exactamente qué decir para que funcione? Este puede ser un tipo de juego de adivinanzas, pero puede ser frustrante para los usuarios. Otra cosa muy limitada se refiere a la comprensión del lenguaje natural, es decir, comprender el contexto. Las computadoras tienen poco sentido. Lo que es muy obvio para una persona no se tiene en cuenta en el sistema. Puede ser difícil tener una conversación de varias rondas en la que la computadora reconoce el contexto de lo que se dice y afecta lo que debe hacer a continuación. Hay proyectos que intentan adivinar el estado de ánimo del usuario por el tono de la voz.

¿Crees que es factible?
Hay muchas formas de reconocer las emociones. Por ejemplo, cuando hablo contigo, di “¿Por qué estás tan enojado?” Respondes: “¡No estoy enojado!” Capturar estos matices no es fácil, incluso si es crucial en la conversación.

¿Crees que se superarán estos obstáculos? <
Un día no está claro, pero un día.

¿5G es útil para el reconocimiento de voz?
Esto puede causar algún retraso al comunicarse con el sistema. A veces hay una pausa antes de recibir una respuesta que puede ser confusa. Las réplicas de conversación suelen ser muy rápidas, de unos 200 milisegundos y corresponden a flashes. Por ejemplo, si me llevas al sitio mañana y te tomas más tiempo para responder, la respuesta es negativa cuando te pregunto. Esta pausa contiene información importante que me estoy diciendo en silencio. En comunicación con la máquina, puede pensar que ella dirá que no si lo único que realmente está sucediendo es demasiado tarde.

¿A veces no le parece un poco estúpido hablar con un dispositivo que no nos comprende completamente?
Puede sentirse culpable de que la máquina no lo entienda. La responsabilidad recae en la tecnología, no en la tuya. Uno de los dichos sobre el diseño de la conversación es que un buen diseño significa que los usuarios pueden interactuar de forma natural y no deben detenerse para pensar cómo responder y hacer preguntas.

Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos,Google El reconocimiento de voz saltará a espacios públicos
Comentarios