La IA de Meta un pirata de libros

Flamenco< > inteligencia artificial

New Scientist

Un experto legal ha hecho un descubrimiento sorprendente: la inteligencia artificial de Meta sería capaz de reproducir pasajes completos de libros palabra por palabra. Si esto resulta ser cierto, las noticias podrían ser extremadamente malas para la compañía y su CEO, Mark Zuckerberg.

Para entenderlo rápidamente, todos los sistemas de IA comercialmente populares en la actualidad, como ChatGPT de OpenAI o Llama de Meta, se entrenan alimentándolos con cantidades masivas de datos. Los investigadores luego realizan una gran cantidad de cálculos utilizando algoritmos, básicamente enseñando al sistema a reconocer patrones en todos esos datos con tal precisión que luego puede crear nuevos patrones. Por ejemplo, si pides un resumen de la trama de uno de los libros de "Harry Potter", te dará (con suerte) una descripción general razonable.

El problema, como explicó Mark Lemley, experto en derecho tecnológico de la Universidad de Stanford, en una entrevista con New Scientist, es que la investigación de su equipo encontró que el modelo LLaMA de Meta es capaz de repetir textualmente el contenido exacto de libros con derechos de autor. Esto significa que la IA no solo comprende o resume el contenido de los libros, sino que reproduce (copia) grandes porciones de ese contenido exactamente como fue escrito originalmente, palabra por palabra y letra por letra. Entre los ejemplos que encontró, se incluyen largos pasajes de la serie "Harry Potter", valorada en miles de millones de dólares.

Una inmensa responsabilidad legal para Meta

Para Meta, esto representa una gigantesca responsabilidad legal. ¿Por qué? Porque si su IA está produciendo extractos completos de material utilizado para entrenarla, empieza a parecer menos que su IA está produciendo obras transformadoras basadas en patrones generales sobre el lenguaje y el mundo que aprendió de sus datos de entrenamiento, y más como si la IA estuviera actuando como un enorme archivo .ZIP de obras con derechos de autor, que los usuarios pueden luego reproducir a voluntad.

Y así lo parece. Al probar varios modelos de IA de compañías como OpenAI, DeepSeek y Microsoft, el equipo de Lemley encontró que LLaMA de Meta fue el único que reprodujo el contenido de libros exactamente. Específicamente, los investigadores descubrieron que LLaMA parecía haber memorizado material que incluía el primer libro de la serie "Harry Potter" de J.K. Rowling, "El Gran Gatsby" de F. Scott Fitzgerald y "1984" de George Orwell.

El controvertido origen de los datos

No se debate que Meta, al igual que sus competidores en la industria tecnológica, utilizó materiales con derechos de autor para entrenar su IA. Sin embargo, su metodología específica para hacerlo ha sido objeto de críticas: en una demanda por derechos de autor contra Meta presentada por autores, incluida la comediante Sarah Silverman, se reveló que el modelo fue entrenado con el conjunto de datos "Books3", que contiene casi 200.000 publicaciones con derechos de autor y que los ingenieros de Meta descargaron utilizando un torrent ilegal. "Descargar por torrent desde un portátil corporativo [propiedad de Meta] no se siente bien", se quejó uno de ellos mientras lo hacía, en mensajes presentados ante el tribunal.

Un torrent es un método para compartir archivos grandes a través de Internet de forma descentralizada (peer-to-peer). En lugar de descargar un archivo completo de una única fuente, un torrent divide el archivo en pequeñas partes, que se descargan simultáneamente de múltiples fuentes.

Lemley y su equipo estiman que si solo el tres por ciento del conjunto de datos Books3, con el que Meta fue entrenada, resultara infractor, la compañía detrás de él podría deber casi mil millones de dólares en daños y perjuicios legales. Y eso sin contar los pagos adicionales basados en las ganancias obtenidas de dicho "robo". Si la proporción de contenido infractor es mayor, al menos en teoría, Meta podría acabar contra la pared.

Un giro sorprendente para el defensor de Meta

Por cierto, Lemley se encuentra en una posición incómoda. Anteriormente defendió a Meta en la misma demanda que mencionamos. Sin embargo, a principios de este año, el profesor de Stanford anunció en una publicación de LinkedIn que ya no representaría a la compañía, en protesta por lo que consideraba la "señalización de virtud" de derechas de Meta y Zuckerberg. En aquel entonces, dijo que creía que Meta debería ganar su caso, pero basándose en su nueva investigación, parece que esa opinión podría haber cambiado.

Meta se negó a comentar los hallazgos de Lemley a New Scientist.