Meta y Google apuestan por los asistentes de voz con IA. ¿Despegarán?

Un par de gafas Meta toman una foto cuando dices: “Oye, Meta, toma una foto”. Una computadora en miniatura que se engancha a tu camisa, el Ai Pin, traduce idiomas extranjeros a tu lengua materna. Una pantalla con inteligencia artificial presenta un asistente virtual con el que hablas a través de un micrófono.

El año pasado, OpenAI actualizó su chatbot ChatGPT para responder con palabras habladas y, recientemente, Google presentó Gemini, un reemplazo de su asistente de voz en teléfonos Android.

Las empresas de tecnología están apostando por un renacimiento de los asistentes de voz, varios años después de que la mayoría de la gente decidiera que hablar con las computadoras no era bueno.

¿Funcionará esta vez? Tal vez, pero podría llevar un tiempo.

Muchas personas todavía nunca han usado asistentes de voz como Alexa de Amazon, Siri de Apple y el Asistente de Google, y la abrumadora mayoría de los que sí lo hacen dijeron que nunca quieren que los vean hablando con ellos en público, según estudios de la última década.

Yo también rara vez uso asistentes de voz, y en mi experiencia reciente con las gafas de Meta, que incluyen una cámara y parlantes para brindar información sobre el entorno, llegué a la conclusión de que hablar con una computadora frente a los padres y sus hijos en un zoológico siempre fue increíblemente extraño.

Me preguntaba si esto alguna vez me parecería normal. No hace mucho, hablar por teléfono con auriculares Bluetooth hacía que la gente pareciera loca, pero ahora todo el mundo lo hace. ¿Veremos algún día a mucha gente caminando y hablando con sus computadoras como en las películas de ciencia ficción?

Hice esta pregunta a investigadores y expertos en diseño, y el consenso fue claro: a medida que los nuevos sistemas de inteligencia artificial mejoren la capacidad de los asistentes de voz para comprender lo que decimos y realmente ayudarnos, es probable que hablemos con los dispositivos con más frecuencia en el corto plazo. . en el futuro, pero todavía pasarán muchos años antes de que lo hagamos en público.

Esto es lo que necesita saber.

Por qué los asistentes de voz son cada vez más inteligentes

Los nuevos asistentes de voz funcionan con inteligencia artificial generativa, que utiliza estadísticas y algoritmos complejos para adivinar qué palabras van juntas, de forma muy similar a la función de autocompletar de su teléfono. Esto los hace más capaces de utilizar el contexto para comprender solicitudes y preguntas de seguimiento que los asistentes virtuales como Siri y Alexa, que solo pueden responder una lista limitada de preguntas.

Por ejemplo, si le dices a ChatGPT: “¿Cuáles son los vuelos de San Francisco a Nueva York la próxima semana?” » – y continúa con “¿Cómo está el clima allí?” y “¿Qué debo llevar?” »: el chatbot puede responder estas preguntas porque establece conexiones entre palabras para comprender el contexto de la conversación. (El New York Times demandó a OpenAI y a su socio Microsoft el año pasado por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots).

Un asistente de voz más antiguo como Siri, que responde a una base de datos de comandos y preguntas para las que fue programado para comprender, fallaría a menos que se usaran palabras específicas, incluyendo “¿Cómo está el clima en Nueva York? y “¿Qué debo empacar para un viaje a Nueva York?”

La primera conversación parece más fluida, como la forma en que las personas se hablan entre sí.

Una de las principales razones por las que la gente abandonó los asistentes de voz como Siri y Alexa fue que las computadoras no podían entender mucho de lo que se les pedía y era difícil saber qué preguntas funcionaban.

Dimitra Vergyri, directora de tecnología de voz en SRI, el laboratorio de investigación detrás de la versión inicial de Siri antes de que fuera adquirida por Apple, dijo que la IA generativa resolvió muchos de los problemas con los que los investigadores estuvieron lidiando durante años. La tecnología hace que los asistentes de voz sean capaces de comprender el habla espontánea y responder con respuestas útiles, afirmó.

John Burkey, un ex ingeniero de Apple que trabajó en Siri en 2014 y ha sido un crítico abierto del asistente, dijo que cree que debido a que la IA generativa facilita que las personas obtengan ayuda desde las computadoras, cada vez más de nosotros hemos estado hablando de asistentes. y que cuando muchos de nosotros comencemos a hacerlo, podría convertirse en la norma.

“Siri tenía un tamaño limitado: sólo sabía un número limitado de palabras”, dijo. “Ahora tienes mejores herramientas”.

Pero pueden pasar años antes de que la nueva ola de asistentes de IA sea ampliamente adoptada, ya que introduce nuevos problemas. Los chatbots, incluidos ChatGPT, Gemini de Google y Meta AI, son propensos a sufrir “alucinaciones”, que es cuando inventan cosas porque no pueden encontrar las respuestas correctas. Cometieron errores en tareas básicas como contar y resumir información de la web.

Cuando los asistentes de voz ayudan y cuando no

Incluso a medida que la tecnología de la voz mejora, es poco probable que hablar reemplace o sustituya las interacciones tradicionales de la computadora con un teclado, dicen los expertos.

Actualmente, las personas tienen razones de peso para hablar con las computadoras en ciertas situaciones cuando están solas, como establecer un destino en un mapa mientras conducen un automóvil. En público, sin embargo, hablar con un asistente no solo siempre puede hacerte lucir raro, sino que la mayoría de las veces no es práctico. Cuando usé las gafas Meta en una tienda de comestibles y les pedí que identificaran un producto, un comprador indiscreto respondió descaradamente: “Es un nabo”. »

Tampoco querrás dictar un correo electrónico comercial confidencial a otras personas en un tren. Asimismo, sería desconsiderado pedirle a un asistente de voz que lea mensajes de texto en voz alta en un bar.

“La tecnología resuelve un problema”, dijo Ted Selker, un veterano en diseño de productos que trabajó en IBM y Xerox PARC. “¿Cuándo solucionamos los problemas y cuándo los creamos? »

Aún así, es fácil imaginar momentos en los que hablar con una computadora te ayuda tanto que no te importa lo extraño que les parezca a los demás, dijo Carolina Milanesi, analista de Creative Strategies, una firma de investigación.

De camino a su próxima reunión de oficina, sería útil pedirle a un asistente de voz que le informe sobre las personas con las que se reunirá. Al caminar por un sendero, preguntarle a un asistente de voz dónde girar sería más rápido que detenerse para ver un mapa. Al visitar un museo, sería fantástico si un asistente de voz pudiera dar una lección de historia sobre la pintura que estás mirando. Algunas de estas aplicaciones ya se están desarrollando con nueva tecnología de IA.

Cuando probé algunos de los últimos productos de voz, vislumbré ese futuro. Al grabar un vídeo de mí mismo horneando una barra de pan y usando los lentes Meta, por ejemplo, fue útil poder decir: “Oye, Meta, graba un video”, porque tenía las manos ocupadas. Y tener a Ai Pin de Humane dictando mi lista de tareas pendientes fue más conveniente que detenerme a mirar la pantalla de mi teléfono.

“Mientras caminas, ese es el punto ideal”, dijo Chris Schmandt, quien trabajó en interfaces de voz durante décadas en el Media Lab del Instituto Tecnológico de Massachusetts.

Cuando se convirtió en uno de los primeros en adoptar uno de los primeros teléfonos móviles hace unos 35 años, dice, la gente lo miraba fijamente mientras viajaba en tren por el campus del MIT para hablar por teléfono. Ahora es normal.

No tengo ninguna duda de que llegará un día en que la gente ocasionalmente hablará con las computadoras mientras están en movimiento, pero llegará muy lentamente.