Cómo las empresas chinas de IA eluden las prohibiciones de chips

Guardar

EEUU evalúa restringir el acceso de China a chips de memoria para IA (REUTERS/Lim Huey Teng)

Los mejores modelos de inteligencia artificial (IA) de hoy en día dependen de un gran número de procesadores de última generación conocidos como unidades de procesamiento gráfico (GPU). La mayoría de las empresas occidentales no tienen problemas para adquirirlas. Llama 3, el último modelo de Meta, un gigante de las redes sociales, se entrenó con 16.000 GPU H100 de Nvidia, un fabricante de chips estadounidense. Meta tiene previsto almacenar 600.000 más antes de fin de año. XAI, una startup respaldada por Elon Musk, ha construido un centro de datos en Memphis alimentado por 100.000 H100. Y aunque OpenAI, el otro gran fabricante de modelos, no dice nada sobre sus reservas de GPU, Jensen Huang, el jefe de Nvidia, le entregó en mano sus últimos procesadores en abril.

Este tipo de acceso es un sueño lejano para la mayoría de las empresas tecnológicas chinas. Desde octubre de 2022, Estados Unidos ha bloqueado la venta de procesadores de alto rendimiento a China. Se rumorea que algunas empresas chinas están recurriendo al mercado negro para hacerse con estos codiciados chips. Pero la mayoría se ha centrado en aprovechar al máximo sus limitados recursos. Sus resultados dan que pensar a las empresas occidentales.

Entre los innovadores se encuentra DeepSeek, una empresa china con sede en Hangzhou. Su último modelo, DeepSeek-v2.5, lanzado a principios de septiembre, compite con los principales modelos de código abierto en retos de codificación y tareas tanto en inglés como en chino. Estos avances no se deben al tamaño: se dice que DeepSeek cuenta con poco más de 10.000 de las antiguas GPU de Nvidia, un gran número para una empresa china, pero pequeño en comparación con sus competidores estadounidenses.

DeepSeek compensa esta carencia de varias formas. La primera es que se compone de varias redes diferentes, cada una de las cuales se adapta mejor a un problema distinto. Este enfoque de “mezcla de expertos” permite al modelo delegar cada tarea en la red adecuada, lo que mejora la velocidad y reduce el tiempo de procesamiento. Aunque DeepSeek tiene 236.000 millones de “parámetros” -las conexiones virtuales que unen distintos fragmentos de datos-, utiliza menos de una décima parte cada vez que procesa un nuevo fragmento de información. El modelo también comprime los nuevos datos antes de procesarlos. Esto le ayuda a manejar entradas de gran tamaño de forma más eficiente.

DeepSeek no es el único que ha encontrado soluciones creativas a la escasez de GPU. MiniCPM, un modelo de código abierto desarrollado por la Universidad de Tsinghua y ModelBest, una startup de IA, presenta variedades con 2.400 millones y 1.200 millones de parámetros, respectivamente. A pesar de su pequeño tamaño, el rendimiento de MiniCPM en tareas relacionadas con el lenguaje es comparable al de grandes modelos lingüísticos (LLM) con entre 7.000 y 13.000 millones de parámetros. Al igual que el modelo de DeepSeek, combina un enfoque de mezcla de expertos con compresión de entrada. Sin embargo, al igual que otros modelos pequeños con menos parámetros, es posible que MiniCPM no tenga un gran rendimiento en áreas ajenas a su campo de entrenamiento específico.

El diminuto tamaño de MiniCPM lo hace idóneo para dispositivos personales. En agosto, sus creadores lanzaron una versión del modelo para teléfonos móviles, que admite varios idiomas y funciona con diversos tipos de datos, desde texto e imágenes hasta audio.

En otros lugares se están probando enfoques similares. FlashAttention-3, un algoritmo desarrollado por investigadores de Together.ai, Meta y Nvidia, acelera el entrenamiento y la ejecución de los LLM adaptando su diseño a las GPU H100 de Nvidia. JEST, otro algoritmo lanzado en julio por Google DeepMind, se alimenta de pequeñas cantidades de datos de alta calidad para su entrenamiento inicial antes de soltarse en conjuntos de datos más grandes y de menor calidad. La empresa afirma que este método es 13 veces más rápido y diez veces más eficiente que otros. Los investigadores de Microsoft, que respalda OpenAI, también han lanzado un pequeño modelo lingüístico llamado Phi-3 mini con unos 4.000 millones de parámetros.

Para las empresas chinas, a diferencia de las occidentales, hacer más con menos no es opcional. Pero puede que esto no sea malo. Al fin y al cabo, afirma Nathan Benaich, de Air Street Capital, un fondo de inversión en IA, “la mentalidad de escasez incentiva sin duda el aumento de la eficiencia”.

Cómo las empresas chinas de IA eluden las prohibiciones de chips

Los ajustes en el software palian la escasez de hardware potente

Últimas Noticias

Rusia quiere limitar el contacto con el mundo exterior

El reciente apagón de internet refleja el nerviosismo del Kremlin

La Guardia Revolucionaria está tomando el control de Irán

Ahora parecen controlar tanto el estado como la guerra

Los enjambres autónomos son el futuro de la guerra con drones

Gran parte de la innovación se está llevando a cabo en Ucrania

Cómo sería una batalla para reabrir el estrecho de Ormuz

Muchos barcos, aviones y soldados tendrían que pasar mucho tiempo en zonas de peligro para obtener resultados inciertos

¿Hasta qué punto podría llegar la inflación mundial?

Con suerte, la guerra de Irán no provocará una recesión. Pero el aumento de los precios de la energía elevará el costo de vida

Franco Colapinto afrontará la última práctica libre antes de la clasificación en el GP de Japón: hora y TV

Tras convertirse en número 1 del mundo en dobles, Horacio Zeballos cayó en semis y se despidió del Miami Open

La postura del Cholo Simeone sobre su futuro como entrenador del Atlético de Madrid

La emotiva carta de Joaquín Panichelli tras sufrir una grave lesión que lo sacó del Mundial 2026: “Esto no se lo merece nadie”

El gesto inesperado del capitán de Nueva Caledonia ante Jamaica que se viralizó en redes: la llamativa reacción del arquero

La Justicia falló a favor de Wanda Nara y Mauro Icardi tendrá que llevar a sus hijas al colegio

Nazarena Di Serio respondió con firmeza a un comentario agresivo: “Por placer, no por interés”

Betiana Blum desmintió a Moria Casán por sus dichos luego recibirla en su camarín: “No es cierto”

Conflicto y acusaciones cruzadas entre Pincoya y Luana Fernández sacudieron la convivencia en Gran Hermano

Adrián Suar y Araceli González cara a cara en el juzgado: los motivos

INFOBAE AMÉRICA

Wall Street cerró su peor semana desde que comenzó la guerra en Medio Oriente y el petróleo volvió a subir

Declaran alerta amarilla en nueve provincias por intensas lluvias en República Dominicana

La guerra en Medio Oriente golpea a Ecuador: suben los combustibles, se encarece la electricidad y se afectan exportaciones de banano

Ecuador ratificó acuerdo con la Unión Europea para intercambiar datos con Europol contra el crimen organizado

Inauguró la Librería Feltrinelli en Montevideo: cómo pensar la cultura en tiempos de cambio

Temas Relacionados