Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias
Las editoriales francesas están hartas y acaban de demandar a Meta por violación del copyright. No son las primeras ni serán las últimas, pero el problema no es ese: el problema es que las empresas de IA han usado contenidos con derechos de autor para entrenar sus modelos, y es como si no pasara nada.
Todo sigue igual. Han pasado más dos años desde que Getty denunciara a Stable Diffusion, a la que acusaba de robar sus fotos para entrenar su modelo de IA de generación de imágenes. Aquella fue la primera de una gran lista de demandas por exactamente lo mismo, pero a pesar del tiempo que ha transcurrido, no ha habido novedades al respecto. Es como si lo que hizo Stable Diffusion —como las demás— acabara en un segundo plano para los tribunales de justicia.
¿Copyqué? La sospecha sobre este tipo de comportamientos ha sido constante, y lo era ya antes de que se lanzase ChatGPT en noviembre de 2022. Meses antes, en junio, DALL-E fue acusada de basarse en imágenes con derechos de autor de creadores que no recibían nada a cambio. Microsoft, OpenAI y GitHub también fueron demandados unas semanas antes del lanzamiento de ChatGPT, pero esta vez porque GitHub Copilot había sido entrenado sin permiso con código de diversos desarrolladores que no habían dado su permiso. Un juez de California desestimó prácticamente todas las reclamaciones de los demandantes en julio de 2024.
Pocas sentencias castigan a las empresas de IA. Por ahora las sentencias que se han producido, como la mencionada, dan la victoria aparente a las empresas de IA. Ocurrió por ejemplo con una demanda contra OpenAI, que la empresa logró ganar. Eso sí, dicha victoria puede salirle cara en su otra gran demanda pendiente con The New York Times, que puede alegar que sufrió un perjuicio demostrable.
¿Uso justo? El juicio del caso de The New York Times contra OpenAI se inició en enero de 2025 y es sin duda uno de los más importantes en este ámbito. La empresa liderada por Sam Altman —que ha usado todos los datos que ha podido— se escuda en que ellos hacen un «uso justo» de los contenidos para poder entrenar sus modelos. Lo curioso es que por un lado dicen eso, y por el otro han ido llegando a acuerdos millonarios con plataformas como Reddit y medios o editoriales como El País precisamente para licenciar sus contenidos y evitar nuevas demandas.
Lo de Meta es otro nivel. Los extremos a los que están llegando las empresas para tener datos de calidad con los que entrenar sus modelos de IA son extraordinarios. Perplexity se saltó las barreras de internet, pero lo de Meta fue aún más llamativo: hace poco supimos que habían utilizado más de 80 TB de libros descargados vía BitTorrent para entrenar su modelo. Muchos de ellos con derechos de autor, algo que ha provocado muchas críticas y la reciente demanda de algunos grupos editoriales franceses.
No parece haber castigo. Pero como decimos, ese robo histórico de propiedad intelectual parece estar ya asumido: no hay sentencias que hayan castigado esas violaciones del copyright de momento, y es como si colectivamente se hubieran ignorado esas violaciones porque la IA ofrece ventajas interesantes. Pero nos estamos olvidando de cómo las han obtenido… o eso parece.
En Xataka | 5.000 «tokens» de mi blog están siendo usados para entrenar una IA. No he dado mi permiso
–
La noticia
Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias
fue publicada originalmente en
Xataka
por
Javier Pastor
.
– ¡Hola! Soy Nicolás Jiménez Silva, un apasionado por el mundo digital, el cine, el streaming, la tecnología y la ciencia. En este blog, exploro mis intereses, comparto mis opiniones y descubrimientos, y me sumerjo en las últimas tendencias. ¡Espero que disfrutes de la lectura!
Publicar comentario