CM3leon est un modèle générateur de pointe qui permet à la fois la génération de textes à partir d'images et la génération d'images à partir de textes. C'est un modèle multimodal qui combine la fonctionnalité des modèles auto-régressifs avec des coûts d'apprentissage faibles.
Le modèle a été entraîné avec des instructions multi-tâches pour la génération d'images et la génération de texte, ce qui a permis d'obtenir des améliorations significatives dans des tâches telles que la génération de légendes d'images, la réponse à des questions visuelles, la modification basée sur du texte et la génération d'images conditionnelles.
CM3leon dépasse le modèle texte-image de Google et atteint un score Fréchet Inception Distance (FID) impressionnant de 4,88 sur le banc d'essai largement utilisé pour la génération d'images, établissant ainsi une nouvelle référence. Les capacités de CM3leon se démarquent dans la génération d'objets complexes et les tâches de retouche d'images guidées par du texte.
De plus, le modèle performe bien dans des tâches telles que la retouche d'images guidée par du texte, la génération d'images à partir de prompts compositionnels et la réponse à des questions sur des images. Malgré son entraînement sur un ensemble de données relativement restreint, les performances de CM3leon sans apprentissage s'alignent favorablement sur celles de modèles plus larges entraînés sur des ensembles de données plus étendus.