La carrera por crear inteligencias artificiales que sean capaces de crear imágenes a partir de texto continúa, pues esto ya no es nada nuevo porque en las últimas semanas son varias las compañías que han lanzado al público sus propuestas de tecnologías en la nube que pueden generar contenidos gráficos.
Esta vez el turno es para Google, ha desarrollado su Pathways Autoregressive Text-to-Image model, Parti por sus siglas en inglés, un sistema autorregresivo que crea diseños gráficos fotorrealistas a partir de textos.
Google es la compañía tecnológica con más propuestas de este tipo, por ejemplo, en mayo pasado, presentó a “Imágen”, otra inteligencia artificial que también crea imágenes hiperrealistas basándose en textos.
Según la empresa, estas dos creaciones son complementarias y además, sugiere que “son dos familias diferentes de modelos generativos: de difusión y autorregresivos, respectivamente”. Es decir, dos maneras de procesar los datos necesarios para crear las imágenes.
Lo interesante de Parti es que es capaz de recibir indicaciones largas y complejas, por lo que sus desarrolladores se esforzaron en que esta Inteligencia Artificial entendiera los diferentes sucesos que han ocurrido a lo largo de la historia de la humanidad y manifieste un “preciso conocimiento del mundo” en las palabras de sus creadores.
Otro objetivo de esta innovación es incluir la convergencia de diferentes objetos y participantes para lograr cumplir con diferentes formatos y estilos que le sean indicados.
Para que Parti tenga la facultad de entender múltiples ideas y conceptos, durante su desarrollo le incorporaron un sistema informático llamado PartiPromts (P2) compuesto por alrededor de 1.600 indicaciones en inglés tanto simples como complejas.
Lo anterior, con el objetivo de que los involucrados en el proyecto tengan la posibilidad de medir el progreso de la herramienta a medida que va siendo utilizada por el público.
Cabe destacar que Parti puede generar imágenes con base en descripciones de hasta 67 palabras de extensión.
Esta última inteligencia artificial de Google, fue creada por medio de secuencias de grandes datos de imágenes y contenidos gráficos, a diferencia de los típicos procesamientos de datos de texto, números y símbolos. Todos estos procedimientos se conocen como “secuencias de tokens” y se realizan por medio de sistemas que reciben el nombre de Tokenizadores, para el caso de Parti, se utilizó el ViT-VQGAN.
Por otro lado, Imagen también de Google, se ha especializado en breves descripciones de texto pero continúa manteniendo una alta precisión, por ejemplo, la empresa afirmó que también puede generar imágenes con descripciones basadas en ubicaciones específicas o incluso textos complejos.
Es decir, si un usuario ingresa “una pantera corriendo con una gaviota en las playas de Cancún”, la IA de la empresa generará una imagen basada en esta descripción y comprenderá el nombre científico de ambos animales, así como los lugares.
Sin embargo, se ha mencionado que esta IA podría generar imágenes ofensivas y/o estereotipadas, por lo que la compañía ha continuado perfeccionándola, al igual que la nueva Parti.
Finalmente, según Google “Imagen se basa en codificadores de texto entrenados en datos a escala web no curados, y por lo tanto, hereda los sesgos sociales y las limitaciones de los grandes modelos lingüísticos. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones perjudiciales”
SEGUIR LEYENDO: