OpenAI anunció la tercera versión de su plataforma de arte visual generativo de IA, DALL-E, que ahora permite a los usuarios utilizar ChatGPT para crear prompts e incluye más opciones de seguridad.
DALL-E convierte prompts de texto en imágenes. Pero incluso DALL-E 2 cometía errores, a menudo ignorando palabras específicas. Según los investigadores de OpenAI, la última versión entiende mucho mejor el contexto.
Una nueva característica de DALL-E 3 es la integración con ChatGPT. Al usar ChatGPT, no es necesario que alguien invente un prompt detallado para guiar a DALL-E 3; solo tiene que pedirle a ChatGPT que cree un prompt y el chatbot escribirá un párrafo (DALL-E funciona mejor con frases más largas) para que DALL-E 3 lo siga. Otros usuarios aún pueden utilizar sus propios prompts si tienen ideas específicas para DALL-E.
En una demostración, Aditya Ramesh, líder investigador y jefe del equipo de DALL-E, le pidió a ChatGPT que lo ayudara a crear un logotipo para un restaurante de ramen en las montañas. ChatGPT luego escribió un prompt más largo y DALL-E presentó cuatro opciones. Según OpenAI, esta conexión con el chatbot permite que más personas creen arte de IA, ya que no necesitan ser muy buenos en inventar un prompt.
DALL-E, lanzado por primera vez en enero de 2021, llegó antes que otras plataformas de arte de IA generativas de texto a imagen, como Stability AI y Midjourney. Cuando DALL-E 2 se lanzó en 2022, OpenAI abrió una lista de espera para controlar quién podía usar la plataforma, luego de las críticas de que DALL-E podía generar imágenes explícitas fotorrealistas y mostraba prejuicios al generar fotos. La compañía eliminó la lista de espera en septiembre del año pasado y abrió DALL-E 2 al público.
Esta nueva versión de DALL-E se lanzará primero a los usuarios de ChatGPT Plus y ChatGPT Enterprise en octubre, seguida de los laboratorios de investigación y su servicio API en otoño. OpenAI planea lanzar DALL-E 3 de manera escalonada, pero no se comprometió a decir cuándo se lanzará una versión pública gratuita.
OpenAI afirma haberse concentrado mucho en DALL-E 3 para crear medidas de seguridad sólidas que eviten la creación de imágenes obscenas o potencialmente odiosas. OpenAI dijo que trabajó con equipos externos de evaluación de seguridad (red teamers), un grupo que intenta intencionalmente romper un sistema para probar su seguridad, y se basó en clasificadores de entrada, una forma de enseñar a los modelos de lenguaje a ignorar ciertas palabras para evitar prompts explícitos o violentos. DALL-E 3 también será incapaz de recrear imágenes de figuras públicas, siempre y cuando el prompt mencione específicamente un nombre.
Sandhini Agarwal, investigadora de políticas en la compañía, dijo tener "alta confianza" en sus medidas de seguridad, pero aclaró que el modelo mejora continuamente y no es perfecto. Los representantes de OpenAI dijeron en un correo electrónico que DALL-E 3 ha sido entrenado para negarse a generar imágenes imitando el estilo de artistas vivos. A diferencia de DALL-E 2, que cuando se le indica puede imitar de alguna manera el arte en el estilo de ciertos artistas.
Posiblemente para evitar demandas, OpenAI también permitirá que los artistas elijan excluir su arte de futuras versiones de modelos de IA de texto a imagen. Los creadores pueden enviar una imagen de la que sean propietarios de los derechos y solicitar su eliminación en un formulario en su sitio web. Una versión futura de DALL-E luego bloqueará resultados que se vean similares a la imagen y estilo del artista. Artistas demandaron a los competidores de DALL-E, Stability AI y Midjourney, junto con el sitio web de arte DeviantArt, por presuntamente utilizar sus obras con derechos de autor para entrenar sus modelos de texto a imagen.