
La precisión de los chatbots impulsados por inteligencia artificial ha sido un tema objeto de amplio debate en todo el mundo, debido a que estos modelos también pueden generar “alucinaciones” o respuestas erróneas. Afortunadamente, Cleanlab, una startup creada por exinvestigadores del MIT, desarrolló solución para este problema.
Se trata de la herramienta denominada como Trustworthy Language Model (TLM), la cual busca ofrecer una “capa de confianza” a través de un sistema de puntuación que evalúa la fiabilidad de las respuestas proporcionadas por estos modelos de lenguaje generativo (LLM).
Este desarrollo también busca impulsar la expansión de estos sistemas en distintos sectores, en un momento en el que según un estudio reciente de Gartner, que reveló que pese a que el 55% de las organizaciones experimentan con IA generativa, solamente un 10% la ha implementado efectivamente en sus procesos productivos.
Cómo opera Trustworthy Language Model

TLM opera mediante la asignación de una “puntuación de confiabilidad” a cada respuesta generada por el modelo, lo que permite identificar y filtrar las respuestas no fiables. Además, se implementó un sistema que genera múltiples respuestas internamente, seleccionando aquella con la puntuación de confianza más alta para ser presentada al usuario.
Esta metodología no solo reduce las instancias de respuestas incorrectas, sino que también ha demostrado superar en precisión a modelos preexistentes, incluyendo a GPT-4 de OpenAI.
Asimismo, ofrece una integración sencilla con los sistemas existentes, funcionando como un reemplazo directo o como un complemento que añade una capa de confiabilidad sobrepuesta a los resultados generados, tanto por LLMs como por datos producidos por humanos.
Es por ello que el objetivo de TLM es convertirse en una solución al problema de las “alucinaciones” de los chatbots, que se estima ocurren en al menos el 3% de los casos, un verdadero problema para profesionales que buscan el mayor grado de exactitud.
Cómo las “alucinaciones” pueden generar serios problemas

Ejemplos de errores costosos incluyen al chatbot de Air Canada, que generó políticas de reembolso inexistentes, y a un bufete de abogados sancionado por la inclusión de citas fabricadas en un documento legal, provocados por la utilización de estos modelos de lenguaje.
Otra evidencia de este problema la vivió un abogado que, al recurrir a ChatGPT para preparar documentos legales, descubrió referencias y citas judiciales incorrectas en su contenido. Además, se ha reportado que ChatGPT puede cometer errores en tareas simples, como calcular cuántas veces aparece una letra en una palabra específica.

Esta problemática resalta la importancia de establecer mecanismos de verificación de la información generada por IA como TLM, especialmente cuando el que el uso de grandes modelos de lenguaje (LLM) como GPT-3.5, GPT-4, y modelos personalizados de empresas, se expanden en el ámbito empresarial.
Mientras que la disponibilidad de TLM a través de una interfaz de programación de aplicaciones (API) y en versiones tanto gratuitas como de pago con características adicionales, amplía aún más su accesibilidad y utilidad práctica.
Por qué la inteligencia artificial comete “alucinaciones”

En este contexto, el término “alucinación” es una metáfora de las situaciones en las que la IA crea salidas que son desvinculadas de la realidad o incorrectas, y ocurren cuando los modelos, especialmente aquellos basados en aprendizaje profundo, interpretan incorrectamente los datos de entrada o los patrones en los datos sobre los que han sido entrenados.
Esto puede suceder por varias razones, como sesgos en los conjuntos de datos de entrenamiento, sobreajuste (cuando un modelo aprende los datos de entrenamiento tan bien que falla al generalizar a datos nuevos), o por la interpretación errónea de patrones complejos o ambiguos en los datos.

También pueden ser el resultado de la extrapolación inapropiada. Cuando un modelo de IA se enfrenta a situaciones o datos que son muy diferentes de aquellos en los que fue entrenado, puede generar respuestas basadas en patrones aprendidos que no aplican correctamente a la nueva situación.
Además, el lenguaje humano es complejo y ambiguo, lo que puede llevar al chatbot a malinterpretar el contexto o el sentido de las preguntas o declaraciones, especialmente en idiomas con múltiples significados o con una gran riqueza de expresiones idiomáticas.
Últimas Noticias
La IA está cambiando la atención al cliente en las tiendas online de América Latina
Automatización, personalización y eficiencia operativa son las claves del éxito de una plataforma que acompaña el ciclo completo de ventas

GTA 6 podría no costar 100 dólares, pero tendría publicidad para compensarlo
El desarrollo del juego de Rockstar supera los 2.000 millones de dólares, convirtiéndolo en el más caro de la historia

Paul McCartney daría un concierto especial por los 50 años de Apple
Steve Jobs fue un admirador declarado de The Beatles y luchó por tener su música en iTunes

Cómo llegó WestCOL al mundo de los negocios, a ser un youtuber exitoso y a entrevistar a Gustavo Petro
La entrevista entre el presidente de Colombia y el streamer superó los 1,5 millones de visualizaciones en Kick

Cómo funcionan las computadoras que usan hongos en vez de silicio para procesar información
Los circuitos fúngicos pueden adaptarse y recordar señales eléctricas, similar a las neuronas



