La pizza White Clam en Frank Pepe Pizzeria Napoletana en New Haven, Connecticut, es una revelación. La corteza, besada por el intenso calor del horno de carbón, logra un equilibrio perfecto entre crujiente y masticable. Acompañado de almejas recién peladas, ajo, orégano y una pizca de queso rallado, es un testimonio de la magia que pueden evocar ingredientes simples y de alta calidad.
¿Esto se parece a mí? Eso no es. El párrafo completo, excepto el nombre de la pizzería y la ciudad, fue generado por GPT-4 en respuesta a un simple mensaje que solicitaba una reseña de un restaurante al estilo de Pete Wells.
Tengo algunas quejas. Nunca llamaría revelación a ninguna comida, ni describiría la calidez como un beso. No creo en la magia y rara vez llamo algo perfecto sin usar «casi» o alguna otra cobertura. Pero estos descriptores perezosos son tan comunes en los escritos sobre comida que imagino que muchos lectores apenas los notan. Soy particularmente sensible con ellos porque cada vez que cometo un cliché en mi texto, mi editor me patea los oídos.
No se dejaría engañar por el falso Pete. Yo tampoco. Pero por mucho que me duela admitirlo, sospecho que mucha gente diría que es un cuatro estrellas falso.
El responsable de Phony Me es Balazs Kovacs, profesor de comportamiento organizacional en la Yale School of Management. En un estudio reciente, proporcionó una gran cantidad de reseñas de Yelp sobre GPT-4, la tecnología detrás de ChatGPT, y le pidió que las imitara. Sus sujetos de prueba (personas) no podían distinguir entre reseñas reales y aquellas producidas por inteligencia artificial. De hecho, era más probable que pensaran que las críticas a la IA eran reales. (El fenómeno de las falsificaciones generadas por computadora que son más convincentes que las reales es tan conocido que tiene un nombre: hiperrealismo de la IA).
El estudio del Dr. Kovacs es parte de un creciente cuerpo de investigación que sugiere que las últimas versiones de IA generativa pueden pasar la prueba de Turing, un estándar científicamente confuso pero culturalmente relevante. Cuando una computadora puede hacernos creer que el lenguaje que escupe fue escrito por un humano, decimos que ha pasado la prueba de Turing.
Durante mucho tiempo se ha asumido que la IA eventualmente pasaría la prueba propuesta por primera vez por el matemático Alan Turing en 1950. Pero incluso algunos expertos se sorprenden por lo rápido que está mejorando la tecnología. «Esto está sucediendo más rápido de lo esperado», afirmó el Dr. Kovacs.
La primera vez que el Dr. Kovacs pidió a GPT-4 que imitara a Yelp, pocas personas se dejaron engañar. La prosa era demasiado perfecta. Eso cambió cuando el Dr. Kovacs pidió al programa que usara una ortografía familiar, subrayara algunas palabras en letras mayúsculas e insertara errores tipográficos, uno o dos en cada reseña. Esta vez, GPT-4 pasó la prueba de Turing.
Además de marcar un umbral en el aprendizaje automático, la capacidad de la IA de ser como nosotros tiene el potencial de socavar la confianza que todavía tenemos en las comunicaciones verbales, especialmente las más breves. Los mensajes de texto, correos electrónicos, secciones de comentarios, artículos de noticias, publicaciones en redes sociales y reseñas de usuarios serán aún más sospechosos de lo que ya son. ¿Quién va a creer un artículo de Yelp sobre un croissant de pizza o un brillante informe de OpenTable sobre la degustación de omakase de sushi de 400 dólares, sabiendo que su autor podría ser una máquina que no puede masticar ni tragar?
«Con las reseñas generadas por los consumidores, la gran pregunta siempre ha sido quién está detrás de la pantalla», dijo Phoebe Ng, estratega de comunicaciones de restaurantes en Nueva York. «Ahora se trata de saber qué hay detrás de la pantalla».
Las opiniones en línea son la grasa que mueve las ruedas del comercio moderno. En una encuesta de 2018 realizada por el Pew Research Center, el 57% de los estadounidenses encuestados dijeron que siempre o casi siempre leen reseñas y calificaciones en línea antes de comprar un producto o servicio por primera vez. Otro 36 por ciento dijo que a veces lo hace.
Para las empresas, unos pocos puntos en una calificación de estrellas en Google o Yelp pueden significar la diferencia entre ganar dinero y cerrar el negocio. “Vivimos de las críticas”, me dijo la semana pasada el gerente de una sucursal de Enterprise Rent-a-Car en Brooklyn mientras recogía un auto.
Un viajero de negocios que necesita un viaje que no se averíe en la autopista de peaje de Nueva Jersey puede verse más influenciado por un informe negativo que, por ejemplo, alguien que simplemente busca un brunch. Sin embargo, para los dueños de restaurantes y chefs, Yelp, Google, TripAdvisor y otros sitios que permiten a los clientes expresarse son una fuente de preocupación infinita y, a veces, de furia.
Una causa particular de frustración es el gran número de personas que no se molestan en comer en el lugar sobre el que escriben. Antes de que un artículo en Eater lo destacara la semana pasada, la primera ubicación en Nueva York de la cadena de dim sum con sede en Taiwán, Din Tai Fung, fue bombardeada con reseñas de una estrella en Google, lo que redujo su calificación promedio a 3,9 sobre 5 posibles. el restaurante aún no está abierto.
Algunos críticos fantasmas son más siniestros. Los restaurantes recibieron reseñas de una estrella, seguidas de un correo electrónico ofreciendo eliminarlas a cambio de tarjetas de regalo.
Para combatir las críticas de mala fe, algunos propietarios piden a sus seres queridos que inunden la zona con presentaciones positivas. “Una pregunta es: ¿Cuántos alias tenemos todos en la industria restaurantera? dijo Steven Hall, propietario de una empresa de relaciones públicas en Nueva York.
Un paso adelante respecto de una campaña organizada de relleno de votos, o quizás un paso atrás, es la práctica de intercambiar comidas pagadas o dinero en efectivo por artículos positivos. Más allá de esto se alza el vasto y oscuro ámbito de la crítica que no existe.
Para publicitar sus propias empresas o presionar a sus rivales, las empresas pueden contratar intermediarios que han fabricado pequeños ejércitos de reseñas ficticias. Según Kay Dean, una defensora del consumidor que estudia el fraude de reseñas en línea, estas cuentas suelen tener un historial detallado de reseñas pasadas que sirve como camuflaje para su producción paga.
En dos videos recientes, destacó una serie de clínicas de salud mental que habían recibido críticas entusiastas en Yelp, aparentemente enviadas por pacientes satisfechos cuyas cuentas estaban plagadas de reseñas de restaurantes recopiladas palabra por palabra de TripAdvisor.
«Es un mar de falsificaciones, y mucho peor de lo que la gente imagina», afirmó Dean. “Se está engañando a los consumidores, se está perjudicando a las empresas honestas y se está erosionando la confianza. »
Todo esto lo hace gente sencilla. Pero como escribe el Dr. Kovacs en su estudio, «la situación ahora cambia significativamente porque ya no se requerirá que los humanos escriban reseñas auténticas».
Dean dijo que si el contenido generado por IA se infiltra en Yelp, Google y otros sitios, sería “aún más difícil para los consumidores tomar decisiones informadas”.
Los principales sitios afirman tener los medios para descubrir las cuentas de Potemkin y otras formas de falsificación. Yelp invita a los usuarios a denunciar reseñas cuestionables y, tras una investigación, eliminará aquellas que infrinjan sus políticas. También oculta reseñas que su algoritmo considera menos confiables. El año pasado, según su último Informe de confianza y seguridad, la empresa intensificó el uso de la IA «para detectar mejor y no recomendar reseñas menos útiles y confiables».
El Dr. Kovacs cree que los sitios ahora tendrán que esforzarse más para demostrar que no publican regularmente los pensamientos de los robots. Podrían, por ejemplo, adoptar algo como la etiqueta «Compra verificada» que Amazon pega en las descripciones de los productos comprados o distribuidos a través de su sitio. Si los lectores se vuelven aún más cautelosos de lo que ya son con las reseñas de restaurantes obtenidas mediante crowdsourcing, esa podría ser una oportunidad para OpenTable y Resy, que solo aceptan reseñas de comensales que se presentan a sus reservaciones.
Una cosa que probablemente no funcione es pedir a las computadoras que analicen el lenguaje por sí mismas. El Dr. Kovacs revisó sus anuncios reales y modificados de Yelp a través de programas que pretendían identificar la IA. Al igual que sus sujetos de prueba, dijo, el software «pensó que las falsificaciones eran reales».
Esto no me sorprendió. Yo mismo respondí a la encuesta del Dr. Kovacs, confiado en que sería capaz de detectar los pequeños detalles esenciales que mencionaría una cena real. Después de hacer clic en una casilla para certificar que no era un robot, rápidamente me encontré perdido en un páramo de signos de exclamación y caras con el ceño fruncido. Cuando llegué al final de la prueba, sólo estaba adivinando. Identifiqué correctamente siete de 20 reseñas, un resultado entre lanzar una moneda y preguntarle a un mono.
Lo que me hizo tropezar fue que GPT-4 no inventó sus opiniones de la nada. Los reconstruyó a partir de fragmentos de descripciones de los Yelpers sobre sus meriendas y almuerzos dominicales.
«No se compone totalmente en términos de cosas que la gente valora y que le importan», dijo el Dr. Kovacs. «Lo aterrador es que puede crear una experiencia que se ve y se siente como una experiencia real, pero no lo es».
Por cierto, el Dr. Kovacs me dijo que llevó el primer borrador de su artículo a un programa de edición de IA y acogió muchas de sus sugerencias en la copia final.
Probablemente no pasará mucho tiempo antes de que la idea de una revista puramente humana parezca pintoresca. Se invitará a los robots a leer por encima de nuestros hombros, a alertarnos cuando hayamos usado el mismo adjetivo demasiadas veces, para empujarnos hacia un verbo más activo. Las máquinas serán nuestros maestros, nuestros editores, nuestros colaboradores. Incluso nos ayudarán a parecer humanos.