Operai dice que Deepseek puede haber cosechado sus datos mal

Operai dice que examina la evidencia de que la nueva empresa china Deepseek rompió sus condiciones de servicio al recopilar grandes cantidades de datos de sus tecnologías de IA.

La nueva empresa con sede en San Francisco, que ahora se estima en $ 157 mil millones, dijo que Deepseek puede haber utilizado datos generados por Operai Technologies para enseñar habilidades similares a sus propios sistemas.

Este proceso, llamado destilación, es común a través del campo de la IA. Pero las condiciones de uso de OpenAI dicen que la compañía no permite que nadie use los datos generados por sus sistemas para crear tecnologías que compitan en el mismo mercado.

“Sabemos que los grupos de RPC están trabajando activamente para usar métodos, incluida lo que se llama destilación, para reproducir modelos avanzados de USAI”, dijo la portavoz de OpenAI, Liz Bourgeois, en un comunicado de prensa enviado por correo electrónico al New York Times, refiriéndose a la república de la gente de la gente. de China.

“Sabemos y examinamos las indicaciones de que Deepseek puede haber destilado inapropiadamente nuestros modelos y compartir información como sabemos más”, dijo. “Tomamos contramedidas agresivas y proactivas para proteger nuestra tecnología y continuaremos trabajando estrechamente con el gobierno estadounidense para proteger los modelos más capaces en construcción aquí”.

Deepseek no respondió de inmediato a una solicitud de comentarios.

Deepseek ha asustado a las compañías tecnológicas de Silicon Valley y envió a los mercados financieros estadounidenses a una cola a principios de esta semana después de haber publicado tecnologías de IA que igualaron el rendimiento de cualquier otra cosa en el mercado.

La sabiduría dominante era que los sistemas más poderosos no podían construirse sin miles de millones de dólares de pulga de computadora especializada, pero Deepseek dijo que había creado sus tecnologías utilizando muchos menos recursos.

Como cualquier otra compañía de IA, Deepseek ha creado sus tecnologías utilizando el código de TI y los datos cubiertos con Internet. Las compañías de IA se basan fuertemente en una práctica de abastecimiento abierta, compartiendo libremente el código subyacente a sus tecnologías, y el código de reutilización compartido por otros. Ven que esta es una forma de acelerar el desarrollo tecnológico.

También necesitan grandes cantidades de datos en línea para capacitar sus sistemas de IA. Estos sistemas aprenden sus habilidades identificando modelos en el texto, programas de computadora, imágenes, sonidos y videos. Los sistemas principales adquieren sus habilidades analizando casi todo el texto en Internet.

La destilación a menudo se usa para entrenar nuevos sistemas. Si una empresa toma datos de la tecnología patentada, la práctica puede ser legalmente problemática. Pero a menudo está autorizado por tecnologías de código abierto.

Operai ahora se enfrenta a más de una docena de procedimientos legales que lo acusan del uso ilegal de datos de Internet protegidos para capacitar a sus sistemas. Esto incluye un juicio presentado por el New York Times contra Operai y su socio Microsoft.

La búsqueda sostiene que millones de artículos publicados por Times se han utilizado para entrenar chatbots automatizados que ahora compiten con los medios de comunicación como fuente de información confiable. Openai y Microsoft niegan afirmaciones.

Un informe del Times también mostró que OPTAI ha utilizado la tecnología de reconocimiento de voz para transcribir el audio de los videos de YouTube, dando un nuevo texto conversacional que haría un sistema de IA más inteligente. Algunos empleados de Operai explicaron cómo tal decisión podría ir en contra de las reglas de YouTube, según tres personas con conocimiento de conversaciones.

Un equipo de Operai, incluido el presidente de la compañía, Greg Brockman, ha transcrito más de un millón de horas de videos de YouTube, dijo People. Los textos se introdujeron en un sistema llamado GPT-4, que se consideró en gran medida como uno de los modelos de IA más poderosos del mundo y fue la base de la última versión del chatgpt chatbot.