CM3leon es un modelo generativo de vanguardia que permite tanto la generación de texto a imagen como la generación de imagen a texto. Es un modelo multimodal que combina la funcionalidad de modelos autorregresivos con costos de entrenamiento bajos.
El modelo ha sido entrenado bajo instrucciones multitarea tanto para la generación de imagen como para la de texto, lo que ha resultado en mejoras significativas en tareas como generación de subtítulos de imagen, respuesta a preguntas visuales, edición basada en texto y generación de imágenes condicionales.
CM3leon supera el modelo de texto a imagen de Google y logra una impresionante puntuación Fréchet Inception Distance (FID) de 4.88 en el ampliamente usado banco de pruebas de generación de imagen, estableciendo un nuevo estado de arte.Las capacidades de CM3leon brillan en la generación de objetos complejos y tareas de edición de imágenes guiadas por texto.
Además, el modelo se desempeña bien en tareas como edición de imágenes guiadas por texto, generación de texto a imagen con pistas compositivas y respuesta a preguntas sobre imágenes. A pesar de haber sido entrenado en un conjunto de datos relativamente pequeño, el desempeño de cero ajuste de CM3leon se compara favorablemente con modelos más grandes entrenados en conjuntos de datos más amplios.