La última inversión de Nvidia es una startup de Inteligencia Artificial centrada en la búsqueda de vídeos

La financiación se suma al ritmo acelerado del l fabricante de chips estadounidense en financiar empresas de inteligencia artificial desde 2023, canalizando capital hacia entidades como Hugging Face, Cohere y Mistral AI

Guardar

Nuevo

Nvidia lidera una inversión de 50 millones de dólares en Twelve Labs. (REUTERS/Dado Ruvic)
Nvidia lidera una inversión de 50 millones de dólares en Twelve Labs. (REUTERS/Dado Ruvic)

Nvidia Corp. codirige una inversión de 50 millones de dólares en Twelve Labs Inc., su última apuesta por un par de ingenieros de origen coreano que quieren ayudar a los usuarios a buscar y analizar rápidamente grandes cantidades de vídeo.

La empresa estadounidense New Enterprise Associates y otros inversores como Radical Ventures, Index Ventures SA y Korea Investment Partners han participado en la financiación. El acuerdo mantiene un ritmo frenético de inversiones en startups para Nvidia, que desde 2023 ha canalizado capital hacia empresas prometedoras de IA, desde Hugging Face y Cohere hasta Mistral AI.

Twelve Labs cuenta con el respaldo de Nvidia, cuyos chips son fundamentales para el entrenamiento y desarrollo de la IA generativa. El fabricante de chips estadounidense está creando una cartera de inversiones en ámbitos fundamentales de la IA, desde hardware hasta modelos y aplicaciones.

La startup Twelve Labs facilita búsquedas avanzadas en grandes cantidades de vídeo. (Google)
La startup Twelve Labs facilita búsquedas avanzadas en grandes cantidades de vídeo. (Google)

Su última elección es una empresa emergente con sede en San Francisco que proporciona modelos básicos para realizar diversas tareas, como la creación de chatbots o la traducción de idiomas. El objetivo general es hacer que los vídeos sean comprensibles y se puedan buscar.

Twelve Labs nació en 2021 después de que sus cofundadores Jae Lee y Aidan Lee se conocieran durante el entrenamiento militar básico en su Corea natal. Entre sus clientes figuran personas influyentes de las redes sociales, ligas deportivas de Estados Unidos y Europa y estudios de cine de Hollywood, algunos con archivos de hace 75 años.

La startup pretende facilitar las búsquedas recuperando momentos precisos dentro de un mar de contenidos en línea, por ejemplo, cuando un determinado jugador de fútbol celebra un touchdown con una voltereta frontal, o las veces que Gordon Ramsay se enfadó por unos huevos demasiado cocidos.

La colaboración con Nvidia permitirá a Twelve Labs poner sus plataformas Marengo y Pegasus a disposición de más usuarios. (EFE/Ritchie B.Tongo)
La colaboración con Nvidia permitirá a Twelve Labs poner sus plataformas Marengo y Pegasus a disposición de más usuarios. (EFE/Ritchie B.Tongo)

“El vídeo ha sido un problema de décadas en el campo de la IA. Es una información densa y difícil de aprovechar”, declaró a Bloomberg News Jae Lee, que también es director ejecutivo. “Casi el 80% de los datos del mundo está en vídeo. Para nosotros, el vídeo es el primer lenguaje y hemos construido nuestra tecnología desde cero”.

Twelve Labs pretende colaborar con Nvidia para poner sus plataformas Marengo y Pegasus al alcance de más usuarios. A diferencia de otros modelos que trabajan principalmente con texto, ellos empezaron entrenándose con vídeos, lo que a su vez ayuda a que las búsquedas basadas en lo visual sean más intuitivas, explica Lee.

El modelo de IA trabaja con vídeo, texto, imagen y audio, lo que permite realizar búsquedas en múltiples tipos de entradas de datos, como texto a vídeo, texto a audio e imagen a vídeo. “Empezamos antes de que la multimodalidad existiera”, dijo el Director General. “Empezamos a trabajar antes de que los modelos fundacionales estuvieran de moda”.

Nvidia apoya a Twelve Labs con chips esenciales para la IA generativa. (Dhiraj Singh/Bloomberg)
Nvidia apoya a Twelve Labs con chips esenciales para la IA generativa. (Dhiraj Singh/Bloomberg)

Twelve Labs afirma que sus modelos son utilizados por más de 30.000 desarrolladores de sectores como los medios de comunicación y el entretenimiento, la publicidad, la automoción y la seguridad. Utilizan sus modelos para la búsqueda semántica de vídeos y la generación de resúmenes. La empresa espera duplicar su plantilla hasta alcanzar los 80 empleados en 2024.

El último modelo de la empresa, Pegasus, que genera texto a partir de vídeo, está en fase de pruebas beta. Está diseñado para comprender y buscar a través de contenidos de vídeo complejos, ayudando a resumir, consultar y encontrar respuestas, y analizar.

Twelve Labs entrena simultáneamente varios componentes del modelo fundacional, reduciendo su tamaño a aproximadamente una quinta parte del que tenía cuando se puso en marcha. Esto, a su vez, aumenta la eficiencia informática y energética. Gracias a estos avances, trabajar con vídeos es tan fácil como hacerlo con texto, y “no cuesta un ojo de la cara”, afirma Lee, su director ejecutivo.

(c) 2024 , Bloomberg

Guardar

Nuevo