Las grandes compañías encuentran una manera de identificar los datos de IA en los que pueden confiar

Los datos son el combustible de la inteligencia artificial. También es un cuello de botella para las grandes empresas, porque son reacias a adoptar plenamente la tecnología sin saber más sobre los datos utilizados para crear programas de IA.

Ahora, un consorcio de empresas ha desarrollado normas para describir el origen, la historia y los derechos legales de los datos. En esencia, las normas son un sistema de etiquetado que indica dónde, cuándo y cómo se recopilaron y generaron los datos, así como su uso previsto y sus restricciones.

Las normas de procedencia de los datos, anunciadas el jueves, han sido desarrolladas por la Data & Trust Alliance, un grupo sin fines de lucro formado principalmente por dos decenas de grandes empresas y organizaciones, entre ellas American Express, Humana, IBM, Pfizer, UPS y Walmart, así como algunas empresas emergentes.

Los miembros de la alianza creen que el sistema de etiquetado de datos será similar a las normas fundamentales de seguridad alimentaria, que exigen información básica como de dónde proceden los alimentos, quién los produjo y cultivó, y quién los manipuló de camino a las estanterías de los supermercados.

Según los ejecutivos, una mayor claridad e información sobre los datos utilizados en los modelos de IA reforzará la confianza de las empresas en esta tecnología. El alcance del uso de las normas propuestas es incierto y dependerá en gran medida de la facilidad de aplicación y automatización de las mismas. Pero las normas han acelerado el uso de todas las tecnologías importantes, desde la electricidad hasta el internet.

"Se trata de un avance en la gestión de los datos como un activo, que es lo que todo el mundo en la industria está tratando de hacer en la actualidad", comentó Ken Finnerty, presidente de tecnología de la información y análisis de datos de UPS. "Para ello, hay que saber dónde se crearon los datos, en qué circunstancias, su uso previsto y si es legal utilizarlos o no".

Las encuestas apuntan a la necesidad de una mayor confianza en los datos y de mejorar la eficiencia de su manejo. En una encuesta a directores ejecutivos de empresas, la mayoría citó "la preocupación por el linaje o la procedencia de los datos" como un obstáculo clave para la adopción de la IA. Y una encuesta realizada a científicos de datos reveló que dedicaban casi el 40 por ciento de su tiempo a tareas de preparación de datos.

La iniciativa de datos se dirige sobre todo a los datos empresariales que las empresas utilizan para crear sus propios programas de IA o a los datos que pueden introducir selectivamente en los sistemas de IA de empresas como Google, OpenAI, Microsoft y Anthropic. Cuanto más precisos y fiables sean los datos, más fiables serán las respuestas generadas por la IA.

Durante años, las empresas han utilizado la IA en aplicaciones que van desde la adaptación de las recomendaciones de productos a la predicción de cuándo necesitarán mantenimiento los motores de los aviones.

Sin embargo, el auge en el último año de la llamada IA generativa, con la que funcionan chatbots como ChatGPT de OpenAI, ha aumentado la preocupación por el uso y abuso de los datos. Estos sistemas pueden generar texto y código informático con una fluidez similar a la humana, pero a menudo inventan cosas --"alucinan", como lo llaman los investigadores-- en función de los datos a los que acceden y reúnen.

Las empresas no suelen permitir que sus trabajadores utilicen libremente las versiones de consumo de los chatbots. Pero están utilizando sus propios datos en proyectos piloto que emplean las capacidades generativas de los sistemas de IA para ayudar a redactar informes empresariales, presentaciones y códigos informáticos. Y esos datos corporativos pueden proceder de muchas fuentes, incluyendo clientes, proveedores, datos meteorológicos y de localización.

"La confidencialidad no es el modelo", afirmó Rob Thomas, vicepresidente sénior de software de IBM. "Son los datos".

En el nuevo sistema hay ocho normas básicas: linaje, fuente, derechos legales, tipo de datos y método de generación. Luego hay descripciones más detalladas para la mayoría de las normas, como señalar que los datos proceden de redes sociales o sensores industriales, por ejemplo.

La documentación de los datos puede hacerse en diversos formatos técnicos de uso generalizado. Las empresas del consorcio de datos han estado probando las normas para mejorarlas y perfeccionarlas, y el plan es ponerlas a disposición del público a principios del año que viene.

El etiquetado de los datos por tipo, fecha y fuente ha sido realizado por empresas e industrias individuales. Sin embargo, según el consorcio, se trata de las primeras normas detalladas destinadas a ser utilizadas en todos los sectores.

"Llevo toda la vida ahogándome en datos e intentando averiguar qué puedo utilizar y qué es veraz", señaló Thi Montalvo, científica de datos y vicepresidenta de informes y análisis de Transcarent.

Transcarent, miembro del consorcio de datos, es una empresa emergente que se basa en el análisis de datos y los modelos de aprendizaje automático para personalizar la atención sanitaria y acelerar el pago a los proveedores.

Según Montalvo, las ventajas de las normas de datos se derivan de una mayor transparencia para todos los participantes en la cadena de suministro de datos. Ese flujo de trabajo suele comenzar con la negociación de contratos con las aseguradoras para acceder a los datos de las reclamaciones y continúa con los científicos de datos, estadísticos y economistas de la salud de la empresa emergente, que crean modelos predictivos para orientar el tratamiento de los pacientes.

En cada etapa, saber más sobre los datos antes debería aumentar la eficiencia y eliminar el trabajo repetitivo, reduciendo potencialmente el tiempo dedicado a los proyectos de datos entre un quince y un veinte por ciento, estimó Montalvo.

El consorcio de datos afirma que el mercado actual de la IA necesita la claridad que pueden aportar las normas de etiquetado de datos del grupo. "Esto puede ayudar a resolver algunos de los problemas de la IA de los que todo el mundo habla", aseguró Chris Hazard, cofundador y director de tecnología de Howso, una empresa que fabrica herramientas de análisis de datos y software de IA.

Thi Montalvo, vicepresidenta de análisis de rendimiento de Transcarent, en Denver el 28 de noviembre de 2023. (Rachel Woolf/The New York Times)