¿Qué es Deepseek? ¿Y cómo molestó a la IA?

¿Qué es Deepseek? ¿Y cómo molestó a la IA?

Las existencias tecnológicas han caído. Empresas gigantes como Meta y Nvidia se han enfrentado a un aluvión de preguntas sobre su futuro. Los líderes de la tecnología fueron a las redes sociales para proclamar sus miedos.

Y todo se debió a una nueva empresa de inteligencia artificial china poco conocida llamada Deepseek.

Deepseek causó olas en todo el mundo el lunes como uno de sus logros, que había creado un modelo de IA muy poderoso con mucho menos dinero de lo que muchos expertos en IA pensaron, planteó una multitud de preguntas, especialmente si las empresas estadounidenses eran incluso competitivas en IA. Más.

Deepseek es el “Momento Sputnik de AI”, Marc Andreessen, Capital de Ventureza Tecnológico, publicado en las redes sociales el domingo.

¿Cómo podría un negocio que pocas personas habían oído hablar de hablar podría tener tal efecto?

Deepseek es una empresa inicial realizada por la compañía de comercio del mercado de valores chino. Su objetivo es construir tecnologías de inteligencia artificial en la dirección del Chatgpt Chatbpt de OpenAI o Google Gemini. Para 2021, Deepseek había adquirido miles de chips de computadora del fabricante de chips estadounidense Nvidia, que constituye un elemento fundamental de cualquier esfuerzo para crear potentes sistemas de IA.

En China, se sabe que la nueva empresa comprende investigadores jóvenes y talentosos de las principales universidades, prometiendo altos salarios y una oportunidad para trabajar en proyectos de investigación avanzados. High-Flyer y Deepseek están dirigidos por Liang Wenfeng, un empresario chino.

En los últimos años, Deepseek ha publicado varios modelos en grandes idiomas, que es el tipo de tecnología que subyace en chatbots como ChatGPT y Gemini. El 10 de enero, publicó su primera aplicación de chatbot gratuita, que se basó en un nuevo modelo llamado Deepseek-V3.

Cuando Deepseek presentó su modelo Deepseek-V3 el día después de Navidad, correspondió a las capacidades de los mejores chatbots de compañías estadounidenses como OpenAi y Google. Solo hubiera sido impresionante.

Pero el equipo detrás del nuevo sistema también reveló un paso más grande. En un documento de investigación que explica cómo construyó la tecnología, Deepseek dijo que solo usó la fracción de pulgas de TI en la que las principales compañías de IA dependían de sus sistemas.

Las mejores compañías del mundo generalmente forman sus chatbots con superordinadores que usan hasta 16,000 pulgas o más. Los ingenieros de Deepseek dijeron que solo necesitaban alrededor de 2,000 chips Nvidia.

Desde finales de 2022, cuando Openai ha desencadenado el auge de la IA, el concepto dominante era que los sistemas de IA más poderosos no podían construirse sin invertir miles de millones de dólares en pulgas de IA especializadas. Esto significaría que solo las compañías tecnológicas más grandes, como Microsoft, Google y Meta, todas con sede en los Estados Unidos, podrían permitirse construir las principales tecnologías.

(El New York Times continuó Openai y su socio, Microsoft, afirmando la violación de derechos de autor del contenido de noticias vinculado a los sistemas de IA. Las dos compañías tecnológicas han negado las acusaciones de la fiscalía).

Pero los ingenieros de Deepseek dijeron que solo necesitaban alrededor de $ 6 millones en potencia informática bruta para formar su nuevo sistema. Fue aproximadamente 10 veces menos que meta gastó su última tecnología de IA.

En los Estados Unidos, los mejores ingenieros de IA afirman que el documento de investigación de Deepseek ha presentado medios inteligentes e impresionantes para construir tecnología de IA con menos pulgas.

En resumen, los ingenieros de inicio han demostrado una forma más efectiva de analizar los datos utilizando pulgas. Los principales sistemas de IA aprenden sus habilidades identificando modelos en grandes cantidades de datos, incluidos texto, imágenes y sonidos. Deepseek ha descrito una forma de difundir este análisis de datos en varios modelos de IA especializados, lo que los investigadores llaman un método de “mezcla de expertos”, al tiempo que minimiza el tiempo perdido al mover los datos de un lugar al lugar '.

Otros ya han utilizado métodos similares, pero el movimiento de información entre los modelos tendió a reducir la eficiencia. Deepseek lo hizo de una manera que le permitió usar menos potencia informática.

“Ha quedado muy claro que otras compañías, y no solo alguien como Openai, pueden construir este tipo de sistemas”, dijo Tim Dettmers, investigador del Allen Intelligence Institute en Seattle y profesor de la Universidad Carnegie Mellon que se especializa en la construcción de sistemas de IA efectivos. “Deepseek ha utilizado métodos que cualquiera puede duplicar”.

El documento de investigación de Deepseek ha planteado preguntas sobre la cuestión de si las grandes empresas estadounidenses podrían mantener un avance importante en la IA de muchos expertos creen que la tecnología de IA se convertirá en una mercancía, muchas compañías que venden poco cerca del mismo producto.

Deepseek-v3 puede responder preguntas, resolver problemas lógicos y escribir sus propios programas de TI de manera tan efectiva como todo lo que ya está en el mercado, según las pruebas de referencia estándar.

Justo antes de que Deepseek publicara su tecnología, Operai había presentado un nuevo sistema, llamado OpenAi O3, que parecía más poderoso que Deepseek-V3. Pero Openai no publicó este sistema para el público más amplio.

Operai O3 fue diseñado para “razonar” a través de problemas que involucran matemáticas, ciencias y programas de computadora. Muchos expertos han enfatizado que Deepseek no había construido un modelo de razonamiento en esta dirección, que se considera el futuro de la IA

El 20 de enero, Deepseek publicó su propio modelo de razonamiento llamado Deepseek R1, y también impresionó a los expertos. Finalmente nos hizo entrar en pánico a los inversores y otras personas a fines de la semana pasada y durante el fin de semana, cuando lograron la importancia de la nueva tecnología Deepseek.

Sí, todavía importa.

Una gran cantidad de chips de IA siempre pueden ayudar a las empresas de muchas maneras. Con más chips, pueden realizar más experiencias porque exploran nuevas formas de construir IA en otras palabras, más chips siempre pueden dar a las empresas una ventaja técnica y competitiva.

También serán necesarios más chips para explotar la nueva raza de modelos de “razonamiento”, dijeron los expertos. Estos requieren más potencia informática cuando las personas y las empresas los usan.

Sí. Para mantener la cabeza estadounidense en la carrera mundial en IA, la administración Biden había establecido reglas que limitaban el número de fichas poderosas que podrían venderse a China y otros rivales.

Pero el desempeño impresionante del modelo Deepseek ha planteado preguntas sobre las consecuencias involuntarias de las restricciones comerciales del gobierno estadounidense. Los controles han obligado a los investigadores en China a ser creativos con una amplia gama de herramientas disponibles de forma gratuita en Internet.

Algunos expertos continúan suplicando a favor de las restricciones comerciales estadounidenses, diciendo que recientemente se establecieron y que tendrán un mayor efecto en las capacidades de China para crear IA a lo largo de los años.

No. El mundo aún no ha visto el modelo O3 de OpenAI, y su rendimiento en las pruebas de referencia estándar fue más impresionante que cualquier otra cosa en el mercado. Pero los expertos temen que China salte a los sistemas de IA de código abierto.

Al igual que muchas otras compañías, Deepseek ha “abierto” su último sistema de inteligencia artificial, lo que significa que ha compartido el código informático subyacente con otras compañías e investigadores. Esto permite a otros construir y distribuir sus propios productos utilizando las mismas tecnologías.

Esta es parte de la razón por la cual Deepseek y otros en China pudieron construir sistemas de IA competitivos tan rápido y a bajo costo.

En el mundo de la IA, el código abierto se reunió por primera vez en 2023 cuando Meta compartió libremente un sistema de IA llamado Llama. En ese momento, muchos asumieron que el ecosistema de código abierto solo se prosperaría si compañías como meta, compañías gigantes con grandes centros de datos llenos de pulgas especializadas, continuaran sus tecnologías para abierta.

Pero Deepseek y otros han demostrado que este ecosistema puede prosperar de una manera que se extiende más allá de los gigantes de la tecnología estadounidense.

Muchos expertos han argumentado que las grandes empresas estadounidenses no deberían abrir sus tecnologías porque podrían usarse para difundir la desinformación o causar otros daños graves. Algunos legisladores estadounidenses han explorado la posibilidad de prevenir o vincular la práctica.

Pero otros expertos han argumentado que si los reguladores sofocan el progreso de la tecnología de código abierto en los Estados Unidos, China obtendrá una ventaja importante. Si las mejores tecnologías de código abierto provienen de China, estos expertos argumentan que los investigadores y empresas estadounidenses crearán sus sistemas en la parte superior de estas tecnologías.

A largo plazo, esto podría poner a China en el corazón de la investigación y el desarrollo de la IA, lo que podría acelerar aún más sus esfuerzos para construir una amplia gama de tecnologías de IA, incluidas armas autónomas y otros sistemas militares.