CM3leon ist ein hochmoderner generativer Modell, das sowohl die Generierung von Text zu Bildern als auch die Generierung von Bildern zu Text ermöglicht. Es ist ein multimodales Modell, das die Funktionalität autoregressiver Modelle mit niedrigen Trainingskosten kombiniert.
Das Modell wurde mit Multitask-Anweisungen für die Bildgenerierung und Textgenerierung trainiert und hat so zu erheblichen Verbesserungen bei Aufgaben wie der Bildbeschriftung, der visuellen Fragebeantwortung, dem textbasierten Bearbeiten und der bedingten Bildgenerierung geführt.
CM3leon übertrifft Googles Text-zu-Bild-Modell und erzielt einen beeindruckenden Fréchet Inception Distance (FID) Score von 4,88 auf dem weit verbreiteten Bildgenerierungs-Benchmark und setzt einen neuen State of the Art. CM3leons Fähigkeiten kommen bei der Generierung komplexer Objekte und textgeführter Bildbearbeitungsaufgaben besonders zum Ausdruck.
Darüber hinaus erzielt das Modell gute Ergebnisse bei Aufgaben wie der textgeführten Bildbearbeitung, der Text-zu-Bild-Generierung mit zusammengesetzten Stichworten und der Beantwortung von Fragen zu Bildern. Trotz des Trainings mit einem relativ kleinen Datensatz schneidet CM3leon in der Zero-Shot-Leistung im Vergleich zu größeren Modellen, die mit umfangreicheren Datensätzen trainiert wurden, positiv ab.