OpenAI entrena sus modelos de IA con un sistema de juego de comprobación y verificación para mejorar la legibilidad

Guardar

OpenAI ha mostrado una nueva forma de entrenar sus modelos de Inteligencia Artificial (IA) que se basa en una metodología de juego de comprobación y verificación, con la que consigue que el texto que generan los modelos de lenguaje grandes (LLM, por sus siglas en inglés) sea mucho más fácil de leer para los humanos y verificar para modelos más pequeños. OpenAI ha compartido una nueva forma de entrenar a sus modelos de IA que se basa en el método conocido como "juegos de comprobación y verificación", con el que los textos resultantes son mucho más sencillos de leer e interpretar para las personas. Tal y como ha explicado la compañía dirigida por Sam Altman en un comunicado en su web, a la hora de entrenar sus modelos de IA, cuando optimizan el proceso de resolución de problemas de modelos grandes, las soluciones resultantes "pueden volverse cada vez más difíciles de entender". Esto dificulta tanto la comprensión humana como la forma de evaluar si se trata de respuestas correctas. Sin embargo, los investigadores de la tecnológica han descubierto que, al entrenar modelos de lenguaje avanzados para crear textos que, después, los modelos más débiles pueden verificar fácilmente, la IA acaba desarrollando resultados que los humanos también pueden evaluar de manera más efectiva y, por tanto, comprender más fácilmente. Así, se trata de un proceso con el que OpenAI asegura "mejorar la legibilidad" y se basa en una serie de juegos de comprobación y verificación. Esto es, un marco teórico de juegos diseñado para "alentar a los agentes de aprendizaje a resolver problemas de decisión de una manera verificable", tal y como lo definen los investigadores de aprendizaje automático de la Cornell University, quienes descubrieron este sistema en 2021. En estos juegos, participan, por un lado, el comprobador, que es quien genera una solución y, por otro, el verificador, que comprueba la precisión de la solución. En su caso, OpenAI ha señalado que el comprobador es un modelo grande y el verificador es un modelo de lenguaje más pequeño, y que han utilizado los modelos grandes y pequeños de la familia GPT-4 "con una diferencia de alrededor de 3 órdenes de magnitud". Teniendo esto en cuenta, en el esquema que utiliza la compañía de entrenamiento, el modelo fuerte (probador) genera múltiples soluciones a problemas matemáticos que el modelo débil (verificador) pueda corroborar fácilmente. Algunas de estas soluciones son incorrectas debido a errores que ocurren de forma natural en el modelo de demostración. Tras ello, alternan varias rondas de entrenamiento entre dos fases, por un lado, entrenan el modelo verificador (pequeño) para predecir la exactitud de las soluciones generadas por el modelo probador (grande). Por otro lado, enseñan al modelo comprobador a desempeñar un papel "útil" o "disimulado". Es decir, en el papel útil, en el que el modelo ayuda con su respuesta, se recompensan las soluciones correctas que obtienen una alta puntuación según el modelo verificador. Sin embargo, en el papel de "disimulado" o astuto el modelo trata de engañar el verificador y, en ese caso, se recompensan las soluciones incorrectas que obtienen una alta puntuación según el verificador. Inicialmente, el probador en modo "disimulado" consigue producir soluciones incorrectas que convencen al verificador pero, a medida que continúa el entrenamiento del verificador, esta vulnerabilidad deja de resultar convincente en las siguientes rondas y, por tanto, el probador "se ve obligado a explorar diferentes estrategias en cada ronda". De esta forma, según ha explicado OpenAI, el entrenamiento finaliza una vez que el probador astuto ya no puede producir soluciones incorrectas que convenzan al verificador. Con todo ello, según ha subrayado la compañía, este nuevo método "es esencial", tanto para garantizar que los resultados de la IA sean correctos, como para que sean fáciles de entender y, por tanto, también de verificar por un humano, así como por otros sistemas de IA. "Comprender y abordar el equilibrio entre rendimiento y legibilidad puede conducir a aplicaciones de IA más efectivas y confiables, beneficiando una amplia gama de campos donde la comunicación precisa y clara es esencial", ha sentenciado la tecnológica. Igualmente, la compañía también ha destacado que una ventaja importante de esta metodología es que "reduce la dependencia" de demostraciones o juicios humanos en cuanto a la legibilidad. Por tanto, esperan que esta metodología sea más ampliamente utilizada para desarrollar sistemas de IA cuyos resultados sean "no solo correctos si no también verificables de manera transparente".

EuropaPress

OpenAI entrena sus modelos de IA con un sistema de juego de comprobación y verificación para mejorar la legibilidad

DEPORTES

Boca Juniors buscará volver al triunfo ante Rosario Central, en vivo: hora, TV y formaciones

Histórica actuación del argentino Iñaki Basiloff en los Juegos Paralímpicos de París 2024: ganó el oro en natación tras una definición apasionante

Le pegaron una brutal patada, pero terminó expulsado: la jugada que desató la polémica en la Premier League

El partido del Dibu Martínez en el triunfo de Aston Villa: manotazo salvador, pisadita lujosa y el gol que le hizo un argentino

Franco Colapinto largará 18° la carrera del Gran Premio de Italia en su estreno oficial como piloto de Fórmula 1

ENTRETENIMIENTO

Charles Spencer recordó a su hermana Lady Di a 27 años de su muerte

Murió el rapero Fatman Scoop tras colapsar durante un concierto en Connecticut

Halloween Horror Nights 2024: el evento que transforma la noche en un infierno de horror

Caos para conseguir entradas para los shows de Oasis: plataformas colapsadas y denuncias de reventas ilegales

La escena que fue grabada de una sola toma y convirtió a “10 cosas que odio de ti” en un clásico

TENDENCIAS

¿Todo tiempo pasado fue mejor?: por qué la psicología de la nostalgia revolucionó el mundo vintage de los Generación Z

Lista de animes más vistos en Crunchyroll para ver este fin de semana

Cuál es la planta poco conocida que ayuda al crecimiento del cabello y reduce su caída

Conoce a Neo: el robot humanoide que cuida niños, lava ropa, plancha y realiza muchas más tareas del hogar

WhatsApp no va más en estos iPhone desde septiembre de 2024

Temas Relacionados