Meta lanzó un nuevo modelo de texto a voz que puede traducir casi 100 idiomas llamado SeamlessM4T, al mismo tiempo que la compañía continúa intentando crear un traductor universal.
SeamlessM4T, que significa Traducción Automática Masivamente Multilingüe y Multimodal, es capaz de traducir del habla al texto y del texto al texto en casi 100 idiomas.
Se lanza bajo una licencia de Creative Commons CC BY-NC 4.0, lo que permite a los investigadores iterar sobre él.
Junto con SeamlessM4T, Meta también lanzó los metadatos de su conjunto de datos de traducción abierta SeamlessAlign.
Meta dijo que SeamlessM4T representa "un avance significativo" porque este nuevo modelo realiza toda la tarea de traducción de una vez, a diferencia de otros modelos de traducción grandes que dividen la traducción en diferentes sistemas.
Una de las características interesantes de SeamlessM4T, es su supuesta capacidad para reconocer cuando un hablante está alternando entre dos o más idiomas en una oración. Por ejemplo, Meta demostró en un video que el modelo diferencia inmediatamente entre el hindi, el telugu y el inglés.
SeamlessM4T se basa en modelos de traducción anteriores de Meta. El año pasado, Meta lanzó su modelo de traducción de texto a texto No Language Left Behind, que admitía 200 idiomas. Desarrolló SpeechMatrix, un conjunto de datos para la traducción de habla a habla multilingüe y Massively Multilingual Speech para el reconocimiento de voz. Meta mostró su Universal Speech Translator el año pasado, convirtiendo el hokkien hablado, un idioma ampliamente utilizado en China que no tiene un sistema de escritura oficial, al inglés.
La traducción de idiomas es importante para empresas como Meta, que emplean a miles de personas para moderar una avalancha de publicaciones de Facebook e Instagram en diferentes idiomas. A menudo, los idiomas no principales tienen equipos más pequeños y terminan confiando en la moderación automatizada que funciona mal con esos idiomas. La IA, si tiene acceso a un conjunto de datos de estos idiomas más pequeños, puede ser una herramienta para que empresas como Meta mejoren la moderación.
Para construir SeamlessM4T, Meta dijo que rediseñó su conjunto de herramientas de modelado de secuencias Fairseq para crear modelos más ligeros y manejar más información.
Durante el desarrollo de SeamlessM4T, Meta dijo que creó un sistema que identifica palabras tóxicas o sensibles. Meta define las palabras tóxicas como instancias en las que "la traducción puede incitar al odio, violencia, lenguaje ofensivo o abuso". El objetivo es poder detectar cuando la traducción de salida introduce toxicidad que no estaba presente en el material original.
"Filtramos la toxicidad desequilibrada en los datos de entrenamiento. Si la entrada o la salida contenía diferentes cantidades de toxicidad, eliminamos esa secuencia de entrenamiento", dijo Meta.
Los investigadores también intentaron mejorar los conjuntos de datos que traducen incorrectamente algunas palabras ofensivas para que detecte con mayor precisión cuándo se están utilizando.
Meta afirma que también reconoce el sesgo de género en los idiomas y dijo que el modelo puede cuantificar el sesgo de género en las traducciones. SeamlessM4T puede verificar si la oración utilizó una forma de género de una palabra, por ejemplo, doctora en español, y asignar un pronombre femenino en un idioma de destino sin una gramática igualmente de género, si es necesario. Enfoque similar a la toxicidad, Meta dijo que SeamlessM4T cuenta cuántas veces una traducción agrega palabras de género a los términos que no tenían un género específico en el idioma original, es decir, asumiendo automáticamente que "doctor" es masculino cuando no tiene distinción de género en inglés.
Meta ha estado lanzando muchos de sus modelos de IA a desarrolladores e investigadores de manera más o menos de código abierto. Recientemente, lanzó AudioCraft, un código que permite la generación de texto a sonido. Meta también proporcionó acceso a su