OpenAI deberá proporcionar aproximadamente 20 millones de conversaciones anónimas generadas por usuarios de ChatGPT en el marco de la demanda presentada por el diario The New York Times. Así lo determinó una jueza federal en Nueva York, que rechazó el pedido de la empresa para limitar el acceso a esos datos durante el proceso judicial.
El caso fue iniciado en 2023 por el New York Times, que acusa a OpenAI de haber entrenado sus modelos de lenguaje utilizando artículos protegidos por derechos de autor sin contar con la autorización correspondiente. El tribunal consideró que la cantidad de datos solicitada es “proporcional” para analizar si ChatGPT reproduce contenido del medio de manera indebida.
La jueza Ona T. Wang reconoció que existen “consideraciones de privacidad” respecto a la entrega de las conversaciones, pero determinó que esas preocupaciones no superan la importancia de los registros para la investigación. Los chats serán entregados bajo un estricto esquema de protección que elimina cualquier información que permita identificar a los usuarios.
Este caso representa una disputa clave en torno al uso de material protegido para entrenar sistemas de inteligencia artificial. El fallo podría influir en cómo empresas como OpenAI, Anthropic o Perplexity obtienen y licencian datos, y en qué límites se establecen para evitar la reproducción no autorizada de textos protegidos por derechos de autor.
Durante el último año, ambas partes mantuvieron un extenso intercambio judicial: los demandantes solicitaron una producción más amplia de información, mientras que OpenAI advirtió que entregar esa cantidad de datos implicaría una carga operativa significativa y riesgos para la privacidad de los usuarios. En junio, la empresa ya había recibido un revés judicial que le ordenó preservar datos de usuarios, incluyendo conversaciones que habían sido eliminadas por los propios usuarios.
Este conflicto se enmarca en un contexto internacional donde diversos sectores —medios de comunicación, autores, editoriales musicales y repositorios de software— cuestionan el uso de obras protegidas como insumos para entrenar modelos de inteligencia artificial. Por ejemplo, en Europa, un tribunal de Múnich dictaminó que ChatGPT violó derechos de autor al reproducir letras de canciones alemanas, un fallo que aún puede ser apelado pero que ya abrió el debate sobre nuevas regulaciones para el entrenamiento de modelos en ese continente.
La decisión en Estados Unidos vuelve a colocar a OpenAI en el centro del debate sobre la transparencia y el origen de los datos que alimentan sus sistemas, en un momento en que la regulación de la inteligencia artificial y la protección de los derechos de autor se vuelven temas prioritarios a nivel global.






