Apple ha presentado MGIE, una innovación en inteligencia artificial de uso libre que permite modificar imágenes mediante simples instrucciones escritas. Este avance se logró gracias al trabajo conjunto con la Universidad de California en Santa Bárbara.
El sistema de Apple se basa en lo que se llama “edición de imágenes guiada”. Esto significa que, por medio de tecnologías avanzadas capaces de entender texto e imágenes (conocidas como modelos de lenguaje grande multimodal), MGIE puede interpretar lo que una persona solicita y cambiar una imagen en detalle, pixel por pixel.
Por ejemplo, si el usuario le pide a la IA que “haga el cielo más azul” en una fotografía, MGIE entenderá esta instrucción y modificará la imagen para cumplir con el pedido.
Cómo trabaja MGIE
Los investigadores explican que a veces las instrucciones que las personas dan son muy cortas y directas, lo que dificulta su comprensión por los sistemas actuales.
No obstante, los modelos de lenguaje grande que entienden tanto texto como imágenes (MLLM) muestran gran potencial para interpretar y responder a estas instrucciones mediante la edición visual.
MGIE, el método desarrollado, trabaja de dos maneras con estos MLLM. Primero, toma las instrucciones escritas por el usuario y las traduce en comandos más detallados y específicos que facilitan la edición.
Por ejemplo, si alguien quiere que el pasto de una foto luzca más verde, MGIE podría entender esto como “aumentar un 20% la saturación de verde en el área correspondiente al pasto”. Este comando claro es el que se utiliza para editar la imagen.
Luego, en un segundo paso, usa estos modelos avanzados para generar una idea visual precisa de cómo debería verse la edición final.
Este proceso crea una guía para ajustar la imagen, modificando cada píxel según sea necesario. Así, MGIE puede realizar cambios específicos en instrucciones muy breves o ambiguas sin necesitar mucha información adicional y brindar resultados que satisfacen lo pedido por el usuario.
Según los creadores, este sistema mejora significativamente la precisión de las ediciones y la satisfacción de los usuarios, manteniendo un proceso rápido y eficiente.
Cómo probar MGIE
El más reciente modelo de IA de Apple, conocido como MGIE, ha sido compartido en GitHub, permitiendo el acceso público al código fuente, los datos utilizados para entrenar el algoritmo, versiones ya entrenadas y una guía para su uso en diferentes situaciones de edición.
Este paso hace que cualquier persona o desarrollador interesado pueda explorar y experimentar con esta tecnología.
Para quienes deseen probar MGIE sin sumergirse en detalles técnicos, se ha habilitado una demostración en línea en Hugging Face Spaces, una página web especializada en ofrecer pruebas de herramientas de inteligencia artificial.
Esto posibilita la integración de MGIE en aplicaciones existentes que necesiten editar imágenes o crear contenido visual de manera automática.
Esta apuesta por la inteligencia artificial marca una nueva era en la tecnología de consumo, donde herramientas como MGIE no solo impulsan la innovación, sino que también prometen transformar la manera en que los usuarios interactúan con sus dispositivos.
Aunque MGIE surge como un proyecto de investigación y aún no se ha anunciado su integración directa en productos o servicios de Apple, este lanzamiento subraya el interés de la compañía en fortalecer su posición en el campo de la inteligencia artificial.
Recientemente, Apple reveló MLX, otro algoritmo destinado a simplificar el diseño de modelos de aprendizaje automático.
La importancia que Apple le da a la inteligencia artificial quedó clara con las declaraciones de Tim Cook, su CEO, quien mencionó que están desarrollando nuevas capacidades de IA generativa que se esperan introducir a lo largo del año.
Expertos prevén que estas innovaciones se integrarán en iOS 18, marcando una evolución significativa para Siri, el asistente virtual de la empresa.