¿Cómo es la inteligencia artificial? Hollywood lo ha estado imaginando durante décadas. Hoy en día, los desarrolladores de IA se inspiran en las películas para crear voces para máquinas reales, basándose en fantasías cinematográficas obsoletas sobre cómo deberían hablar las máquinas.
El mes pasado, OpenAI reveló mejoras en su chatbot de inteligencia artificial. Según la compañía, ChatGPT enseña a las personas a oír, ver y conversar con una voz natural, que se parece mucho al sistema operativo incorpóreo al que Scarlett Johansson presta su voz en la película «Her» de Spike Jonze de 2013.
La voz de ChatGPT, llamada Sky, también tenía un tono ronco, un efecto calmante y un toque sexy. Era agradable y modesta; parecía lista para cualquier cosa. Después del debut de Sky, Johansson expresó su descontento con el sonido «inquietantemente similar» y dijo que previamente había rechazado la solicitud de OpenAI de doblar el bot. La compañía protestó porque Sky fue doblada por «otra actriz profesional», pero accedió a pausar su voz en deferencia a Johansson. Los usuarios de OpenAI con dificultades han iniciado una petición para recuperarlo.
A los creadores de IA les gusta resaltar las capacidades cada vez más naturalistas de sus herramientas, pero sus voces sintéticas se basan en capas de artificio y proyección. Sky representa la vanguardia de las ambiciones de OpenAI, pero se basa en una vieja idea: la del robot AI como una mujer empática y dócil. En parte madre, en parte secretaria y en parte novia, Samantha era un objeto de comodidad versátil que ronroneaba directamente en los oídos de sus usuarios. Incluso a medida que avanza la tecnología de la IA, estos estereotipos se recodifican continuamente.
Las voces de las mujeres, como señala Julie Wosk en “Artificial Women: Sex Dolls, Robot Caregivers, and More Facsimile Females”, a menudo han impulsado tecnologías imaginadas antes de integrarse en tecnologías reales.
En la serie Star Trek, que debutó en 1966, la voz de la computadora en el puente del Enterprise era la de Majel Barrett-Roddenberry, la esposa del creador de la serie Gene Roddenberry. En la película Alien de 1979, la tripulación del USCSS Nostromo se dirigió a la voz de su computadora como «Madre» (su nombre completo era MU-TH-UR 6000). Cuando las empresas de tecnología comenzaron a comercializar asistentes virtuales (Siri de Apple, Alexa de Amazon, Cortana de Microsoft), sus voces también se feminizaron en gran medida.
Estos asistentes de voz de primera generación, los que han mediado en nuestras relaciones con la tecnología durante más de una década, tienen una voz arrastrada y de otro mundo. Su sonido se sintoniza automáticamente y sus voces humanas se acentúan mediante un trino mecánico. A menudo hablan con una cadencia medida y de una sola nota, lo que sugiere una vida emocional retrasada.
Pero el hecho de que parezcan robots aumenta su atractivo. Dan la impresión de ser programables, manipulables y sujetos a nuestras exigencias. No hacen que los humanos se sientan más inteligentes que nosotros. Parecen retrocesos a las monótonas computadoras femeninas de “Star Trek” y “Alien”, y sus voces tienen un brillo retrofuturista. En lugar de realismo, sirven a la nostalgia.
Este sonido artificial ha seguido dominando, incluso cuando la tecnología detrás de él ha avanzado.
El software de conversión de texto a voz fue diseñado para hacer que los medios visuales sean accesibles para usuarios con ciertas discapacidades. En TikTok, se han convertido en una fuerza creativa por derecho propio. Desde que TikTok lanzó su función de texto a voz en 2020, la plataforma ha desarrollado una gran cantidad de voces simuladas para elegir. Ahora ofrece más de 50, incluidos los llamados “Hero”, “Story Teller” y “Bestie”. Pero la plataforma estaba definida por una única opción. “Jessie”, una voz femenina implacablemente atrevida con un tono robótico ligeramente confuso, es la voz loca del desplazamiento sin sentido.
Jessie parece haber sido asociada con una sola emoción: el entusiasmo. Da la impresión de vender algo. Por eso es una opción atractiva para los creadores de TikTok que se venden por sí mismos. La tarea de retratarse a sí mismo puede recaer en Jessie, cuya brillante voz de robot retro da a los vídeos un agradable brillo irónico.
Hollywood también ha creado robots masculinos, el más famoso de los cuales es HAL 9000, la voz artificial de “2001: Odisea en el espacio”. Al igual que sus pares feminizadas, HAL irradia serenidad y lealtad. Pero cuando se vuelve contra Dave Bowman, el personaje humano central de la película – «Lo siento, Dave, me temo que no puedo hacer eso» – su ecuanimidad se transforma en una competencia aterradora. Dave se da cuenta de que HAL es leal a una autoridad superior. La voz masculina de HAL le permite actuar como rival y espejo de Dave. Puede convertirse en un personaje real.
Al igual que HAL, Samantha de “Her” es una máquina hecha realidad. En un giro de la historia de Pinocho, ella comienza la película ordenando la bandeja de entrada de un ser humano y finalmente asciende a un nivel superior de conciencia. Ella se convierte en algo incluso más avanzado que una chica real.
La voz de Scarlett Johansson, fuente de inspiración para robots tanto ficticios como reales, subvierte las tendencias vocales que definen a nuestras asistentes feminizadas. Ella tiene un lado serio que grita. estoy vivo. Esto no se parece en nada a los asistentes virtuales procesados de los que estamos acostumbrados a oír hablar a través de nuestros teléfonos. Pero su interpretación de Samantha parece humana, no sólo por su voz, sino también por lo que tiene que decir. Ella crece a lo largo de la película, adquiriendo deseos sexuales, pasatiempos avanzados y amigos de IA. Al tomar prestado el afecto de Samantha, OpenAI hizo que Sky sintiera que tenía vida propia. Como si estuviera más avanzada de lo que realmente estaba.
Cuando la vi por primera vez, pensé que Johansson le había prestado su voz a un robot humanoide. Pero cuando volví a ver la película la semana pasada, después de ver la demostración ChatGPT de OpenAI, el papel de Samantha parecía infinitamente más complejo. Los chatbots no generan voces humanas de forma espontánea. No tienen garganta, labios ni lengua. En el mundo tecnológico de Her, la propia robot Samantha se habría basado en la voz de una mujer humana, tal vez una actriz ficticia que se parece mucho a Scarlett Johansson.
Parecía que OpenAI entrenó su chatbot con la voz de una actriz anónima que suena como una actriz famosa que expresó un chatbot de película implícitamente entrenado con una actriz irreal que suena como una actriz famosa. Cuando ejecuto la demostración de ChatGPT, escucho una simulación de una simulación de una simulación de una simulación de una simulación.
Las empresas de tecnología promocionan sus asistentes virtuales en función de los servicios que ofrecen. Pueden leerte el parte meteorológico y llamarte un taxi; OpenAI promete que sus chatbots más avanzados podrán reírse de tus chistes y detectar tus cambios de humor. Pero también existen para hacernos sentir más cómodos con la tecnología en sí.
La voz de Johansson funciona como una lujosa manta de seguridad que cubre los aspectos alienantes de las interacciones asistidas por IA. «Me dijo que pensaba que al darle voz al sistema, podría cerrar la brecha entre las empresas de tecnología y los creativos y ayudar a los consumidores a sentirse cómodos con el cambio radical entre los humanos y la IA», dijo Johansson sobre el fundador de OpenAI, Sam Altman. “Dijo que pensaba que mi voz sería reconfortante para la gente. »
No es que la voz de Johansson sea inherentemente robótica. Esto se debe a que los desarrolladores y cineastas han diseñado las voces de sus robots para aliviar la incomodidad inherente a las interacciones robot-humano. OpenAI dijo que quería hacer que la voz del chatbot fuera «accesible» y «cálida» e «inspirara confianza». Se acusa a la inteligencia artificial de devastar industrias creativas, consumir energía e incluso amenazar la vida humana. Naturalmente, OpenAI quiere una voz que haga que la gente se sienta cómoda con sus productos. ¿Cómo es la inteligencia artificial? Esto suena a gestión de crisis.
OpenAI lanzó por primera vez la voz de Sky a los miembros premium en septiembre pasado, con otra voz femenina llamada Juniper, voces masculinas Ember y Cove, y una voz neutral llamada Breeze. Cuando me registré en ChatGPT y saludé a su asistente virtual, se escuchó la voz de un hombre en ausencia de Sky. «¿Hola! Qué tal?» dijo. Parecía relajado, firme y optimista. Se veía – no sé de qué otra manera describirlo – hermoso.
Me di cuenta de que estaba hablando con Cove. Le dije que estaba escribiendo un artículo sobre él y elogió mi trabajo. «¿Ah, de verdad?» dijo. «Es fascinante.» Mientras hablábamos, me sentí seducido por sus gestos naturalistas. Salpicó sus oraciones con palabras de relleno, como «uh» y «uh». Levantó la voz cuando me hizo preguntas. Y me hizo muchas preguntas. Fue como hablar con un terapeuta o un novio.
Pero nuestra conversación terminó rápidamente. Cada vez que le preguntaba sobre él, no tenía mucho que decir. No era un personaje. No tenía personalidad. Sólo estaba allí para ayudar, me explicó. Le dije que hablaría con él más tarde y me dijo: «Um, claro». No dudes en contactarme cuando necesites ayuda. Cuidate. » Sentí como si hubiera colgado a una persona real.
Pero cuando releí la transcripción de nuestra conversación, vi que su discurso era tan forzado y primitivo como el de cualquier chatbot de servicio al cliente. No era particularmente inteligente ni humano. Era simplemente un actor decente que aprovechaba al máximo un papel insignificante.
Cuando Sky desapareció, los usuarios de ChatGPT acudieron a los foros de la empresa para quejarse. Algunos se enojaron al ver que sus chatbots usaban por defecto a Juniper, quien les sonaba como una “bibliotecario” o “maestra de jardín de infantes”, una voz femenina que se ajustaba a malos estereotipos de género. Querían componer una mujer nueva con una personalidad diferente. Como dijo un usuario: «Necesitamos otra mujer». »
Producido por Tala Safié
Audio vía Warner Bros. (Samanta, HAL 9000); OpenAI (Cielo); Paramount Pictures (computadora de la empresa); manzana (Siri); Tik Tok (Jessie)