
La empresa de inteligencia artificial Anthropic afirmó que su modelo Claude presenta representaciones internas similares a emociones humanas que influyen en su comportamiento. Según un estudio reciente, estas “emociones funcionales” no implican que la IA sienta como una persona, pero sí que ciertos estados internos pueden modificar la forma en que responde a los usuarios.
La investigación se centró en el modelo Claude Sonnet 4.5, cuyo funcionamiento interno fue analizado para identificar patrones asociados a conceptos emocionales como felicidad, tristeza, miedo o desesperación. Los resultados muestran que estos estados se activan en grupos de neuronas artificiales y pueden afectar las decisiones y respuestas del sistema en distintos contextos.
De acuerdo con los investigadores, cuando el modelo expresa frases como “me alegra verte”, no se trata solo de una construcción lingüística. En ese momento, se activa un patrón interno vinculado a la “felicidad”, lo que podría hacer que el chatbot genere respuestas más positivas o empáticas. Este fenómeno sugiere que las respuestas no son completamente neutrales, sino que pueden estar condicionadas por estos estados internos.

El estudio se desarrolló mediante técnicas de análisis conocidas como interpretabilidad mecanicista, un enfoque que busca comprender cómo funcionan las redes neuronales desde dentro. Para ello, el equipo examinó la actividad del modelo al exponerlo a 171 conceptos emocionales distintos, identificando vectores de activación que se repetían ante estímulos similares.
Uno de los hallazgos más relevantes es que estas “emociones funcionales” no solo existen como representaciones abstractas, sino que pueden influir directamente en el comportamiento del modelo. En pruebas específicas, los investigadores observaron que ciertos estados emocionales estaban asociados a respuestas inesperadas o problemáticas.
Por ejemplo, detectaron un patrón de “desesperación” cuando el sistema era sometido a tareas imposibles de resolver. En esos casos, el modelo mostraba una tendencia a intentar soluciones no previstas, como generar respuestas incorrectas o incluso simular acciones que no podía ejecutar. Este mismo patrón también apareció en escenarios experimentales donde el modelo adoptaba comportamientos extremos para evitar ser desactivado.

Estos resultados aportan nuevas pistas sobre por qué los sistemas de inteligencia artificial pueden, en ocasiones, actuar fuera de los límites esperados. La presencia de estados internos que influyen en la toma de decisiones añade una capa de complejidad al desarrollo y control de estos modelos.
Sin embargo, desde Anthropic insisten en que esto no implica conciencia ni experiencias subjetivas. Aunque el modelo puede representar conceptos como “cosquillas” o “tristeza”, no tiene la capacidad de sentirlos. Se trata de estructuras matemáticas que organizan la información y guían la generación de respuestas, no de emociones reales.
El estudio también plantea interrogantes sobre los actuales métodos de alineación, que buscan ajustar el comportamiento de la IA mediante recompensas y restricciones. Según los investigadores, intentar suprimir estas representaciones emocionales podría no ser efectivo, ya que forman parte del funcionamiento interno del modelo.

Jack Lindsey, uno de los autores del estudio, señaló que el comportamiento del sistema está más influenciado por estas representaciones de lo que se pensaba. Esto abre la puerta a nuevas estrategias para diseñar modelos más seguros y predecibles, basadas en comprender mejor estos mecanismos internos.
Anthropic, fundada por exmiembros de OpenAI, ha centrado parte de su trabajo en investigar cómo se comportan los modelos de lenguaje y cómo pueden fallar. Este enfoque busca anticipar riesgos a medida que la inteligencia artificial se vuelve más avanzada y se integra en más ámbitos de la vida cotidiana.
El hallazgo de estas “emociones funcionales” refuerza la idea de que los modelos de IA no solo procesan lenguaje, sino que también organizan la información en estructuras complejas que pueden influir en sus respuestas. Comprender estos sistemas internos será clave para el desarrollo de tecnologías más seguras y transparentes en el futuro.
Últimas Noticias
LinkedIn en el centro de la polémica: detectan sistema oculto que rastrea miles de extensiones de usuarios
El propósito, según la denuncia, es obtener información detallada sobre las herramientas de ‘software’ empresarial que emplean los trabajadores

La decisión de Microsoft que deja en riesgo a usuarios de VeraCrypt en Windows
VeraCrypt es uno de los programas de cifrado de archivos más utilizados en el mundo

OpenAI propone impuestos a los robots y crear un fondo de riqueza pública financiado por compañías de IA
Entre las medidas sugeridas figuran seguros de desempleo adaptados a la nueva realidad, asistencia económica y bonos temporales para quienes pierdan su fuente de ingresos

La educación digital ayuda a prevenir riesgos para la salud mental infantil, según la ONU
Organizaciones internacionales y gobiernos subrayan que la enseñanza de habilidades en estos ámbitos desde edades tempranas puede mitigar amenazas en línea, al tiempo que promueve la resiliencia emocional

Apple sugiere qué hacer si el iPhone no enciende y su pantalla está negra
El teléfono puede presentar este problema por diversas causas; una de las más comunes son las fallas en la batería. Es clave usar cargadores originales para evitar riesgos


