Los LLM presentan limitaciones en sus razonamientos y su rendimiento se deteriora a medida que se complica la pregunta

Investigadores de Apple revelan fallas en los modelos de lenguaje de gran tamaño al evaluar su razonamiento, evidenciando un deterioro en el rendimiento ante problemas matemáticos más complejos

Guardar

Un estudio reciente cuestiona la capacidad real de razonamiento genuino de los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) y determina que tienen limitaciones, además de que su rendimiento se deteriora a medida que se proporcionan preguntas más complejas.

Seis investigadores de Apple han llegado a esta conclusión tras un estudio titulado 'GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models' ('GSM-Symbolic: Comprensión de las limitaciones del razonamiento matemático en modelos de lenguaje grandes').

Para llevar a cabo este análisis han empleado el punto de referencia GSM8K, un conjunto estandarizado desarrollado por OpenAI. Está compuesto por más de 8.000 problemas matemáticos de nivel de primaria, que en ocasiones se emplea como punto de referencia para las capacidades de razonamiento complejo de los LLM modernos.

Uno de los autores de este escrito, el científico Mehrdad Farajtabar, ha recordado a través de su cuenta de X que cuando OpenAI lanzó la prueba de rendimiento o 'benchmark' GSM8K, hace unos tres años, la capacidad de razonamiento matemático del modelo GPT-3 GPT-3 (175B) se puntuó con un 35 por ciento. Actualmente, modelos de menor tamaño superan el 85 por ciento de su capacidad, mientras que los más grandes alvanzan valores en torno a un 95 por ciento, lo que sugiere que ha mejorado su capacidad en esta evolución.

Para superar las referencias existentes en GSM8K, los investigadores desarrollaron GSM-Symbolic, un punto de referencia mejorado que permite ejecutar evaluaciones controladas en base a diferentes números y nombres (como personas, alimentos y objetos), reunidos en un nuevo conjunto de datos, GSM-NoOp.

De esa manera, generaron una serie de GSM-Symbolic únicos, que funcionan como los ejemplos de GSM8K, pero con distintos valores y nombres. Lo hicieron con el objetivo de conocer el comportamiento de modelos de IA tanto abiertos (Llama, Phi, Mistral o Gemma) como cerrados (GPT-4o y su variante o1), al modificar estos valores.

En total, se realizaron casi 500 evaluaciones en diferentes configuraciones, con cien plantillas a partir de GSM-Symbolic para cada punto de diferencia, lo que resultó en 50 conjuntos de datos compuestos por cien ejemplos cada uno, siendo estos una mutación de los cien ejemplos originales GSM8K.

En primer lugar, han puntualizado que pequeños cambios de tokens de entrada en estos modelos pueden alterar "de forma drástica" sus resultados, "lo que indica un fuerte sesgo y sugirere que estos modelos son altamente flexibles y frágiles", según se recoge en el documento.

También han observado fallas críticas en la capacidad de los modelos para discernir información relevante para la resolución de problemas debido a que su razonamiento no atiende al sentido común y se basa principalmente en la comparación de patrones.

De ese modo, descubrieron alteraciones en los resultados de rendimiento de cada LLM. Mientras que Llama 8B alcanzó una puntuación de entre el 70 y el 80 por ciento de precisión en GSM8K, Phi-3 registró una puntuación de entre el 75 y el 90 por ciento, "y así sucesivamente". Asimismo, para la mayoría de los modelos, el rendimiento promedio en su propio 'benchmark' es menor que en desarrollado por OpenAI.

También añadieron afirmaciones aparentemente relevantes a las preguntas trasladadas a estos modelos, a pesar de que estas no eran importantes para el razonamiento y la conclusión. En ese caso, vieron que la mayoría de LLM no ignoran estos aportes y las convierten "ciegamente" en operaciones, lo que conduce a errores en los resultados.

MAYORES LIMITACIONES ANTE PROBLEMAS MÁS COMPLEJOS

Los investigadores han concluido que su estudio revela una variedad significativa sobre el rendimiento en distintas instancias de la misma pregunta, lo que demuestra que los resultados actuales de GSM8K no son tan ejemplares como se pensaba.

Asimismo, ha matizado que los LLM "muestran cierta solidez" a los cambios en los nombres propios, pero que son más sensibles a las variaciones de los valores numéricos. Además, han observado que el rendimiento de estos modelos "se deteriora a medida que aumenta la complejidad de la pregunta".

También han señalado que en su estudio se demuestra que los LLM tienen dificultades incluso cuando se les proporcionan múltiples ejemplos de la misma pregunta o ejemplos que contienen información irrelevante similar, lo que sugiere problemas más profundos en sus procesos de razonamiento, que "no se pueden mitigar fácilmente mediante aprendizaje o el ajuste de su razonamiento".

"La alta variabilidad en el desempeño de los LLM en distintas versiones de la misma cuestión, su caída sustancial en el desempeño con un pequeño aumento de su dificultad y su sensibilidad a la información intrascendente indican que su razonamiento es frágil", han añadido.

Por tanto, teniendo en cuenta que tanto GSM8K como GSM-Symbolic incluyen preguntas matemáticas de primaria relativamente sencillas, que solo requieren operaciones aritméticas básicas, "es probable que las limitaciones actuales de estos modelos sean más pronunciadas en puntos de referencia matemáticos más desafiantes", tal y como han concluido.

En definitiva, en base a estos hallazgos, el equipo de investigación considera que es necesario desarrollar métodos de evaluación de los LLM "más robustos y adaptables", así como modelos que vayan más allá del reconocimiento de patrones hacia el razonamiento lógico "verdadero", que consideran "el próximo gran desafío" para la comunidad de IA, en palabras de Farajtabar.

Guardar