Cómo las empresas chinas de IA eluden las prohibiciones de chips

Los ajustes en el software palian la escasez de hardware potente

Guardar
EEUU evalúa restringir el acceso
EEUU evalúa restringir el acceso de China a chips de memoria para IA (REUTERS/Lim Huey Teng)

Los mejores modelos de inteligencia artificial (IA) de hoy en día dependen de un gran número de procesadores de última generación conocidos como unidades de procesamiento gráfico (GPU). La mayoría de las empresas occidentales no tienen problemas para adquirirlas. Llama 3, el último modelo de Meta, un gigante de las redes sociales, se entrenó con 16.000 GPU H100 de Nvidia, un fabricante de chips estadounidense. Meta tiene previsto almacenar 600.000 más antes de fin de año. XAI, una startup respaldada por Elon Musk, ha construido un centro de datos en Memphis alimentado por 100.000 H100. Y aunque OpenAI, el otro gran fabricante de modelos, no dice nada sobre sus reservas de GPU, Jensen Huang, el jefe de Nvidia, le entregó en mano sus últimos procesadores en abril.

Este tipo de acceso es un sueño lejano para la mayoría de las empresas tecnológicas chinas. Desde octubre de 2022, Estados Unidos ha bloqueado la venta de procesadores de alto rendimiento a China. Se rumorea que algunas empresas chinas están recurriendo al mercado negro para hacerse con estos codiciados chips. Pero la mayoría se ha centrado en aprovechar al máximo sus limitados recursos. Sus resultados dan que pensar a las empresas occidentales.

Entre los innovadores se encuentra DeepSeek, una empresa china con sede en Hangzhou. Su último modelo, DeepSeek-v2.5, lanzado a principios de septiembre, compite con los principales modelos de código abierto en retos de codificación y tareas tanto en inglés como en chino. Estos avances no se deben al tamaño: se dice que DeepSeek cuenta con poco más de 10.000 de las antiguas GPU de Nvidia, un gran número para una empresa china, pero pequeño en comparación con sus competidores estadounidenses.

DeepSeek compensa esta carencia de varias formas. La primera es que se compone de varias redes diferentes, cada una de las cuales se adapta mejor a un problema distinto. Este enfoque de “mezcla de expertos” permite al modelo delegar cada tarea en la red adecuada, lo que mejora la velocidad y reduce el tiempo de procesamiento. Aunque DeepSeek tiene 236.000 millones de “parámetros” -las conexiones virtuales que unen distintos fragmentos de datos-, utiliza menos de una décima parte cada vez que procesa un nuevo fragmento de información. El modelo también comprime los nuevos datos antes de procesarlos. Esto le ayuda a manejar entradas de gran tamaño de forma más eficiente.

DeepSeek no es el único que ha encontrado soluciones creativas a la escasez de GPU. MiniCPM, un modelo de código abierto desarrollado por la Universidad de Tsinghua y ModelBest, una startup de IA, presenta variedades con 2.400 millones y 1.200 millones de parámetros, respectivamente. A pesar de su pequeño tamaño, el rendimiento de MiniCPM en tareas relacionadas con el lenguaje es comparable al de grandes modelos lingüísticos (LLM) con entre 7.000 y 13.000 millones de parámetros. Al igual que el modelo de DeepSeek, combina un enfoque de mezcla de expertos con compresión de entrada. Sin embargo, al igual que otros modelos pequeños con menos parámetros, es posible que MiniCPM no tenga un gran rendimiento en áreas ajenas a su campo de entrenamiento específico.

El diminuto tamaño de MiniCPM lo hace idóneo para dispositivos personales. En agosto, sus creadores lanzaron una versión del modelo para teléfonos móviles, que admite varios idiomas y funciona con diversos tipos de datos, desde texto e imágenes hasta audio.

En otros lugares se están probando enfoques similares. FlashAttention-3, un algoritmo desarrollado por investigadores de Together.ai, Meta y Nvidia, acelera el entrenamiento y la ejecución de los LLM adaptando su diseño a las GPU H100 de Nvidia. JEST, otro algoritmo lanzado en julio por Google DeepMind, se alimenta de pequeñas cantidades de datos de alta calidad para su entrenamiento inicial antes de soltarse en conjuntos de datos más grandes y de menor calidad. La empresa afirma que este método es 13 veces más rápido y diez veces más eficiente que otros. Los investigadores de Microsoft, que respalda OpenAI, también han lanzado un pequeño modelo lingüístico llamado Phi-3 mini con unos 4.000 millones de parámetros.

Para las empresas chinas, a diferencia de las occidentales, hacer más con menos no es opcional. Pero puede que esto no sea malo. Al fin y al cabo, afirma Nathan Benaich, de Air Street Capital, un fondo de inversión en IA, “la mentalidad de escasez incentiva sin duda el aumento de la eficiencia”.

© 2024, The Economist Newspaper Limited. All rights reserved.

Guardar