Meta presenta CM3leon, una herramienta de inteligencia artificial capaz de generar imagen desde texto y viceversa

Tecnología

Entre sus múltiples funciones está la generación de secuencias de texto e imágenes sobre "secuencias arbitrarias de otro contenido de imagen y texto"

EEUU abre una amplia investigación sobre OpenAI y su popular ChatGPT

Meta presenta CM3leon
Agencias

14 de julio 2023 - 22:37

Nueva York/Meta (empresa matriz de Facebook, Instagram y WhatsApp) lanzó este viernes CM3leon una herramienta de inteligencia artificial (IA) capaz de generar imagen a partir de un texto y viceversa.

En un comunicado, la empresa pone varios ejemplos: si uno teclea "un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara", se genera una imagen con esa descripción.

Otra función consiste en editar una imagen a partir de una indicación con un texto, como "modificar el color del cielo" de una foto o "ponerle bigote" al cuadro de Johannes Vermeer de La joven de la perla; además, permite preguntar a la IA que describa una foto con palabras.

Según la compañía, CM3leon -pronunciado camaleón- es capaz de ofrecer "el más alto rendimiento" en la conversión de texto a imagen y viceversa, se entrena con cinco veces menos recursos que los modelos anteriores y genera secuencias de texto e imágenes sobre "secuencias arbitrarias de otro contenido de imagen y texto".

Meta presenta CM3leon.

Tal y como explica Meta, es el "primer modelo multimodal" entrenado con una adaptación de modelos de lenguaje de solo texto. Es decir, los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

CM3Leon muestra una importante capacidad para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos. Además, se desenvuelve bien en una "amplia variedad de tareas de visión y lenguaje", incluida la respuesta visual a preguntas y subtítulos de formato largo.

Herramientas similares

Desde de que la IA adquiriese popularidad a finales del año pasado, varias empresas han lanzado este tipo de herramientas y Meta anota que CM3leon es mejor que algunas de ellas.

"Al comparar el rendimiento en el punto de referencia de generación de imágenes más utilizado (Zero-shot MS-COCO), CM3Leon logra una puntuación FID (Distancia de inicio de Fréchet) de 4,88, estableciendo un nuevo estado del arte en la generación de texto a imagen y superando al modelo de Google de texto a imagen´(Parti)", anota la compañía en el comunicado.

No obstante, Meta no menciona ni a Midjourney ni a Dall-e de OpenAI, las herramientas más populares para este tipo de tareas hasta el momento.

Meta presenta CM3leon

Otras funcionalidades

No hay comentarios

Ver los Comentarios

También te puede interesar

Lo último

Mapa de Músicas | Isabel Dombriz. Pianista

"En pandemia tuve la mente más libre que nunca"