A medida que los modelos de inteligencia artificial (IA) avanzan a pasos agigantados, evaluar sus capacidades se convirtió en un reto cada vez más complejo.
Las pruebas tradicionales, como los SAT o el examen de abogacía de los Estados Unidos, ya no son suficientes: los sistemas actuales suelen alcanzar puntajes máximos en estas referencias.
Frente a este desafío, una nueva generación de evaluaciones busca redefinir los límites de lo que la IA puede lograr y, al mismo tiempo, alertar sobre los riesgos que plantea su rápido desarrollo, informa Time.
Frente a la saturación de evaluaciones existentes, han emergido proyectos como FrontierMath, desarrollado por el instituto sin fines de lucro Epoch AI en colaboración con destacados matemáticos.
Este banco de pruebas presenta problemas matemáticos de alta complejidad, algunos de nivel olímpico y otros derivados de la investigación más avanzada. En su lanzamiento, los modelos actuales apenas alcanzaron un 2% de éxito.
Sin embargo, solo un mes después, el modelo o3 de OpenAI logró un 25,2%, un resultado sorprendente según Jaime Sevilla, director de Epoch AI.
Otras iniciativas, como El Último Examen de la Humanidad, propuesto por Scale AI y el Centro por la Seguridad de la IA, prometen abarcar áreas más amplias, desde física hasta ingeniería eléctrica, con miles de preguntas imposibles de resolver por los modelos actuales.
Mientras tanto, RE-Bench simula escenarios laborales reales para comparar el rendimiento de humanos e IA en tareas de ingeniería.
Aunque los agentes de IA suelen quedarse atrapados en bucles después de dos horas, en ese tiempo son capaces de superar a sus contrapartes humanas en ciertas actividades.
Un progreso vertiginoso y sus riesgos
En los primeros días de la IA, los sistemas tardaban años en alcanzar o superar los estándares humanos. Por ejemplo, el desafío de reconocimiento visual ImageNet, lanzado en 2010, no fue resuelto por una IA hasta cinco años después.
En contraste, evaluaciones más recientes como GLUE (2018) y SuperGLUE (2019) se consideraron resueltas en cuestión de uno o dos años. Este ritmo acelerado subraya la necesidad de pruebas más sofisticadas.
Sin embargo, diseñar evaluaciones adecuadas es un desafío en sí mismo. Problemas como la contaminación de datos, donde las respuestas están incluidas en los datos de entrenamiento, y la manipulación de resultados por parte de los desarrolladores dificultan medir las capacidades reales de los modelos.
Además, estas pruebas deben equilibrar el rigor científico con el realismo, algo que no siempre es sencillo de lograr.
Evaluaciones como herramienta de prevención
Las evaluaciones no solo miden las capacidades de la IA, sino que también actúan como señales de advertencia ante riesgos potenciales.
Áreas como la ciberseguridad y el bioterrorismo generan preocupación entre expertos, quienes temen que sistemas avanzados puedan ser utilizados de manera peligrosa.
En este contexto, las pruebas de “red-team”, adoptadas por laboratorios como OpenAI, Anthropic y Google, buscan identificar fallos de seguridad o conductas indeseables antes de que los modelos sean lanzados al público.
Además, pruebas como ARC-AGI, diseñadas por François Chollet, evalúan el razonamiento novedoso de los modelos a través de acertijos. Aunque estas tareas han sido históricamente difíciles para las IA, avances recientes sugieren una mejora en su capacidad de generalización y adaptabilidad.
Un futuro sin regulación obligatoria
A pesar de los avances, no existe aún una regulación vinculante que exija a las empresas someter sus modelos a evaluaciones de terceros.
Hobbhahn, director de Apollo Research, critica la dependencia de organizaciones sin fines de lucro para financiar estas iniciativas, argumentando que los laboratorios que desarrollan los modelos deberían asumir esa responsabilidad.
Las evaluaciones de IA, aunque costosas —pueden alcanzar los 10.000 dólares por modelo—, son esenciales para garantizar la seguridad y prever riesgos.
La comunidad científica y los reguladores internacionales deberán trabajar en conjunto para establecer estándares y marcos de evaluación más exigentes.
El desafío de medir el futuro
Mientras los modelos de IA continúan superando las métricas existentes, el diseño de evaluaciones que se mantengan un paso adelante es una tarea urgente.
Desde evaluar capacidades matemáticas de frontera hasta simular trabajos del mundo real, estas nuevas métricas buscan no solo medir el progreso, sino también mitigar los riesgos asociados a una tecnología en constante evolución.
Como señaló un investigador de METR: “Necesitamos pruebas más exigentes listas para cuando las actuales se saturen, porque sentir que podemos evaluar el riesgo es esencial para el futuro de la IA”.