OpenAI ha implementado nuevas medidas para dar a los propietarios de sitios web más control sobre cómo su rastreador GPTBot escanea y utiliza su contenido. En un blog reciente, OpenAI explicó que los operadores de sitios web pueden bloquear el acceso del rastreador a través del archivo Robots.txt o bloquear su dirección IP.
Cuando GPTBot rastrea páginas web, el contenido se puede utilizar para mejorar modelos futuros. OpenAI, sin embargo, filtra fuentes que requieren pago, recopilan información personal o contienen contenido que no cumple con las políticas de OpenAI.
Si un sitio web no tiene contenido excluido por estas razones, permitir que GPTBot acceda podría ayudar a mejorar la precisión y las habilidades generales de los modelos de inteligencia artificial.
Esta acción podría ser el primer paso de OpenAI hacia permitir que los usuarios de Internet decidan si quieren que sus datos se utilicen para entrenar modelos de lenguaje. Esto sigue a esfuerzos anteriores, como la etiqueta "NoAI" creada por DeviantArt. Sin embargo, esta medida no afecta retroactivamente al contenido previamente utilizado en los datos de entrenamiento.
La obtención de datos para el entrenamiento de modelos de inteligencia artificial ha generado controversias. Sitios como Reddit y Twitter han buscado limitar el uso gratuito de sus contenidos por parte de las empresas de IA, y creadores han presentado demandas por el supuesto uso no autorizado de sus obras.
En cuanto a la privacidad de datos y el consentimiento, se han planteado preocupaciones en audiencias legislativas. Empresas como Adobe han propuesto la idea de marcar los datos como "no aptos para entrenamiento" mediante una ley contra la suplantación de identidad. Además, varias empresas de IA, incluida OpenAI, han acordado desarrollar un sistema de marca de agua en colaboración con la Casa Blanca para indicar si un contenido fue generado por IA.