El New York Times prohíbe usar su contenido para entrenar modelos de AI

The New York Times ha tomado medidas preventivas para evitar que su contenido sea utilizado para entrenar modelos de inteligencia artificial. Según informa Adweek, el NYT actualizó sus Términos de servicio el 3 de agosto para prohibir que su contenido, incluyendo texto, fotografías, imágenes, clips de audio/video, "apariencia y sensación", metadatos o compilaciones, sea utilizado en el desarrollo de "cualquier programa de software, incluyendo, pero no limitado a, el entrenamiento de un sistema de aprendizaje automático o inteligencia artificial (IA)".

Los términos actualizados también especifican que las herramientas automatizadas como los rastreadores de sitios web diseñados para utilizar, acceder o recopilar dicho contenido no pueden ser utilizados sin permiso por escrito de la publicación. El NYT afirma que negarse a cumplir con estas nuevas restricciones podría resultar en multas o sanciones no especificadas. A pesar de introducir las nuevas reglas en su política, la publicación no parece haber realizado cambios en su archivo robots.txt que informa a los rastreadores de motores de búsqueda qué URL se pueden acceder.

Google recientemente se otorgó permiso para entrenar sus servicios de IA con datos públicos que recopila de la web.

El movimiento podría ser en respuesta a una actualización reciente de la política de privacidad de Google que revela que el gigante de las búsquedas puede recopilar datos públicos de la web para entrenar sus diversos servicios de IA, como Bard o Cloud AI. Muchos modelos de lenguaje grandes que impulsan servicios de IA populares como ChatGPT de OpenAI se entrenan con conjuntos de datos extensos que podrían contener materiales con derechos de autor o protegidos de alguna otra manera obtenidos de la web sin el permiso del creador original.

Dicho esto, el NYT también firmó un acuerdo de $100 millones con Google en febrero que permite al gigante de las búsquedas mostrar contenido del Times en algunas de sus plataformas durante los próximos tres años. La publicación afirmó que ambas compañías trabajarán juntas en herramientas para la distribución de contenido, suscripciones, marketing, publicidad y "experimentación", por lo que es posible que los cambios en los términos de servicio del NYT estén dirigidos a otras empresas como OpenAI o Microsoft.

OpenAI anunció recientemente que los operadores de sitios web ahora pueden bloquear su rastreador web GPTBot para evitar que recopile información de sus sitios web. Microsoft también añadió algunas nuevas restricciones a sus propios Términos y Condiciones que prohíben a las personas utilizar sus productos de IA para "crear, entrenar o mejorar (directa o indirectamente) cualquier otro servicio de IA", además de prohibir a los usuarios extraer o recopilar datos de sus herramientas de IA.

A principios de este mes, varias organizaciones de noticias, incluyendo The Associated Press y el Consejo de Editores Europeos, firmaron una carta abierta en la que pedían a los legisladores globales que establecieran reglas que requirieran transparencia en los conjuntos de datos de entrenamiento y el consentimiento de los titulares de derechos antes de utilizar datos para el entrenamiento.

El New York Times prohíbe usar su contenido para entrenar modelos de AI

Recursos AI