Cómo la startup china de IA DeepSeek compite con OpenAI y Google

El Boxing Day, una pequeña startup china llamada DeepSeek presentó un nuevo sistema de inteligencia artificial que podría igualar las capacidades de los chatbots de vanguardia de compañías como OpenAI y Google.

Sólo eso habría sido un paso significativo. Pero el equipo detrás del sistema, llamado DeepSeek-V3, describió un hito aún mayor. En un artículo de investigación que explica cómo construyeron la tecnología, los ingenieros de DeepSeek dijeron que utilizaron sólo una fracción de los chips de computadora altamente especializados en los que confiaban las principales empresas de inteligencia artificial para entrenar sus sistemas.

Estos chips están en el centro de una tensa competencia tecnológica entre Estados Unidos y China. Mientras el gobierno de Estados Unidos lucha por mantener su liderazgo en la carrera mundial de la IA, está tratando de limitar la cantidad de chips potentes, como los fabricados por la empresa Nvidia de Silicon Valley, que pueden venderse a China y otros competidores.

Pero el desempeño del modelo DeepSeek plantea dudas sobre las consecuencias no deseadas de las restricciones comerciales impuestas por el gobierno de Estados Unidos. Los controles han obligado a los investigadores chinos a ser creativos con una amplia gama de herramientas disponibles gratuitamente en Internet.

El chatbot DeepSeek respondió preguntas, resolvió problemas lógicos y escribió sus propios programas informáticos con tanta competencia como cualquiera que ya esté en el mercado, según pruebas comparativas utilizadas por empresas de inteligencia artificial estadounidenses.

Y se creó a bajo costo, desafiando la idea predominante de que sólo las empresas más grandes de la industria tecnológica (todas con sede en Estados Unidos) podían permitirse fabricar los sistemas de inteligencia artificial más avanzados. Los ingenieros chinos dijeron que sólo necesitaban unos 6 millones de dólares en potencia informática bruta para construir su nuevo sistema. Eso es aproximadamente 10 veces menos de lo que gastó el gigante tecnológico Meta en desarrollar su última tecnología de inteligencia artificial.

“El número de empresas que tienen 6 millones de dólares para gastar es mucho mayor que el número de empresas que tienen 100 millones o 1.000 millones de dólares para gastar”, dijo Chris V. Nicholson, un inversor de la empresa de capital riesgo Page One Ventures, que se centra en la inversión. sobre tecnologías de IA.

Desde que OpenAI desató el auge de la IA en 2022 con el lanzamiento de ChatGPT, muchos expertos e inversores han llegado a la conclusión de que ninguna empresa puede competir con los líderes del mercado sin gastar cientos de millones de dólares en chips especializados.

Las empresas de inteligencia artificial más grandes del mundo entrenan sus chatbots utilizando supercomputadoras que utilizan hasta 16.000 chips o más. Mientras tanto, los ingenieros de DeepSeek dijeron que sólo necesitan unos 2.000 chips informáticos especializados de Nvidia.

Las limitaciones impuestas a los chips en China han obligado a los ingenieros de DeepSeek a “entrenarlos más eficazmente para que sigan siendo competitivos”, dijo Jeffrey Ding, profesor asistente de la Universidad George Washington que se especializa en tecnologías emergentes y relaciones internacionales.

A principios de este mes, la administración Biden emitió nuevas reglas destinadas a impedir que China obtenga chips de IA avanzados a través de otros países. Las reglas se basan en varias rondas anteriores de restricciones que impidieron a las empresas chinas comprar o fabricar chips de computadora de última generación. El presidente Trump aún no ha indicado si hará cumplir las reglas o las derogará.

El gobierno de Estados Unidos ha tratado de mantener los chips avanzados fuera del alcance de las empresas chinas, por temor a que puedan usarse con fines militares. En respuesta, algunas empresas chinas almacenaron miles de chips, mientras que otras los compraron en un próspero mercado clandestino de contrabandistas.

DeepSeek está dirigido por una empresa de valores cuantitativos llamada High Flyer. En 2021, gastó sus beneficios en la adquisición de miles de chips Nvidia, que utilizó para impulsar sus modelos anteriores. La empresa, que no respondió a las solicitudes de comentarios, es conocida en China por reclutar talentos de las mejores universidades con la promesa de altos salarios y la capacidad de seguir las preguntas de investigación que más despiertan su interés.

Zihan Wang, un ingeniero informático que trabajó en un modelo anterior de DeepSeek, dijo que la compañía también contrata personas sin experiencia en informática para ayudar a comprender la tecnología y poder generar poesía y responder correctamente las preguntas durante el notoriamente difícil examen de ingreso a la universidad china.

DeepSeek no fabrica ningún producto de consumo, lo que permite que sus ingenieros se centren exclusivamente en la investigación. Eso significa que su tecnología no se ve obstaculizada por el aspecto más estricto de las regulaciones de IA de China, que exigen que la tecnología orientada al consumidor cumpla con los controles gubernamentales sobre la información.

Las empresas líderes de Estados Unidos continúan avanzando en los últimos avances en IA. En diciembre, OpenAI presentó un nuevo sistema de “razonamiento” llamado o3 que supera a las tecnologías existentes, aunque aún no está ampliamente disponible fuera de la empresa. Pero DeepSeek sigue demostrando que no se queda atrás. Este mes lanzó su propio modelo de razonamiento impresionante.

(El New York Times demandó a OpenAI y su socio Microsoft, acusándolos de infracción de derechos de autor sobre contenido de noticias relacionado con sistemas de inteligencia artificial. OpenAI y Microsoft han negado las acusaciones).

Una parte crucial de este mercado global en rápida evolución es una vieja idea: el software de código abierto. Como muchas otras empresas, DeepSeek hizo que su último sistema de inteligencia artificial fuera de código abierto, lo que significa que compartió el código subyacente con otras empresas e investigadores. Esto permite que otros creen y distribuyan sus propios productos utilizando las mismas tecnologías.

Si bien los empleados de las principales empresas tecnológicas chinas se limitan a colaborar con colegas, “si estás trabajando en código abierto, estás trabajando con talentos de todo el mundo”, dijo Yineng Zhang, ingeniero jefe de software de Baseten en San Francisco, quien funciona en el código abierto SGLang. proyecto. Ayuda a otras personas y empresas a crear productos utilizando el sistema DeepSeek.

El ecosistema de código abierto para la IA cobró impulso en 2023 cuando Meta compartió libremente un sistema de IA llamado LLama. Muchos creían que esta comunidad sólo prosperaría si empresas como Meta (gigantes tecnológicos con enormes centros de datos llenos de chips especializados) continuaran abriendo el código fuente de sus tecnologías. Pero DeepSeek y otros han demostrado que ellos también pueden ampliar los poderes de las tecnologías de código abierto.

Muchos ejecutivos y expertos han argumentado que las principales empresas estadounidenses no deberían abrir sus tecnologías porque podrían usarse para difundir desinformación o causar otros daños graves. Algunos legisladores estadounidenses han explorado la posibilidad de prevenir o limitar esta práctica.

Pero otros sostienen que si los reguladores reprimen el progreso de la tecnología de código abierto en Estados Unidos, China obtendría una ventaja significativa. Si las mejores tecnologías de código abierto provienen de China, argumentan, los desarrolladores estadounidenses construirán sus sistemas basándose en esas tecnologías. A largo plazo, esto podría colocar a China en el centro de la investigación y el desarrollo de la IA.

“El centro de gravedad de la comunidad de código abierto se ha desplazado a China”, afirmó Ion Stoica, profesor de informática de la Universidad de California, Berkeley. “Esto podría suponer un enorme peligro para Estados Unidos” porque permitiría a China acelerar el desarrollo de nuevas tecnologías.

Horas después de su toma de posesión, el presidente Trump revocó una orden ejecutiva de la administración Biden que amenazaba con frenar las tecnologías de código abierto.

El Dr. Stoica y sus estudiantes construyeron recientemente un sistema de inteligencia artificial llamado Sky-T1 que rivaliza en rendimiento con el último sistema OpenAI, llamado OpenAI o1, en algunos puntos de referencia. Sólo necesitaban 450 dólares de potencia informática.

Lo lograron aprovechando dos tecnologías de código abierto lanzadas por el gigante tecnológico chino Alibaba.

Su sistema de 450 dólares no es tan potente como la tecnología OpenAI o el nuevo sistema DeepSeek. Y es poco probable que las técnicas utilizadas den como resultado sistemas que superen el rendimiento de las tecnologías de última generación. Pero el proyecto demostró que incluso operaciones con recursos minúsculos pueden crear sistemas competitivos.

Reuven Cohen, consultor tecnológico de Toronto, ha estado utilizando DeepSeek-V3 desde finales de diciembre. Dice que es comparable a los últimos sistemas de OpenAI, Google y la startup Anthropic de San Francisco, y mucho más barato de usar.

“Para mí, DeepSeek es una forma de ahorrar dinero”, afirmó. “Éste es el tipo de tecnología que alguien como yo quiere utilizar”.