Washington Post
Los gigantes tecnológicos han afirmado en repetidas ocasiones que construir sistemas de inteligencia artificial basados íntegramente en datos de fuentes éticas era "imposible". Sin embargo, un equipo de científicos acaba de demostrar lo contrario, abriendo así el camino a un desarrollo más responsable de esta tecnología.
Más de una veintena de investigadores en inteligencia artificial del Instituto Tecnológico de Massachusetts (MIT), la Universidad de Cornell, la Universidad de Toronto y otras instituciones, han logrado entrenar un gran modelo de lenguaje (LLM) utilizando únicamente datos bajo licencia abierta o que pertenecen al dominio público. Una verdadera proeza.
El desafío humano, más allá del poder computacional
Este logro no ha estado exento de obstáculos, como han reconocido los desarrolladores. En un artículo científico, aún no revisado por pares y publicado esta semana, el equipo destacó el principal impedimento: no la capacidad computacional, sino el esfuerzo humano.
La colosal base de datos que reunieron, de más de ocho terabytes y bautizada como "Common Pile v0.1", requirió una limpieza y un reformateo manuales ingentes para ser adecuada para el entrenamiento de la IA, según informó el Washington Post. A esto se sumó un arduo trabajo de verificación de los derechos de autor, ya que muchas obras publicadas en línea tienen licencias incorrectas.
«No es una tarea en la que simplemente puedas aumentar los recursos disponibles, como el acceso a más chips de ordenador o un potente "web scraper"», explicó a The Washington Post Stella Biderman, científica informática y directora ejecutiva de la ONG Eleuther AI, y coautora del estudio. «Utilizamos herramientas automatizadas, pero al final, todos nuestros datos fueron anotados manualmente y verificados por personas. Y eso es realmente difícil».
Resultados impresionantes a pesar de las limitaciones
A pesar de las dificultades, Biderman y sus colegas lograron cumplir su misión. Una vez finalizado el arduo proceso de creación de "Common Pile", utilizaron este conjunto de datos "éticamente irreprochable" para entrenar un LLM de siete mil millones de parámetros. ¿El resultado? Una IA que se compara admirablemente con modelos líderes de la industria como Llama 1 y Llama 2 7B de Meta.
Aunque estas versiones de Meta son relativamente antiguas (más de dos años, una eternidad en la carrera de la IA), el rendimiento del equipo es notable. Especialmente si consideramos que este trabajo fue realizado por un equipo con recursos limitados, lejos de los miles de millones de dólares que poseen las grandes empresas.
El ingenio fue clave. Entre sus hallazgos más ingeniosos se encuentra una colección de más de 130.000 libros en inglés, hasta ahora inexplorada en la Biblioteca del Congreso.
Derechos de autor: la espinosa cuestión de la IA
La cuestión de los derechos de autor sigue siendo uno de los mayores desafíos éticos y legales que se ciernen sobre la IA. Líderes como OpenAI y Google han consumido cantidades inmensurables de datos obtenidos de la web, desde artículos de noticias hasta información más intrusiva como las publicaciones en redes sociales. Además, Meta se enfrenta a demandas de autores que la acusan de haber utilizado ilegalmente siete millones de libros protegidos por derechos de autor para entrenar sus IA.
La industria tecnológica ha justificado sus voraces demandas de datos argumentando que todo ello entra en el ámbito del "uso legítimo" y, de manera más fundamental, que sería "imposible" desarrollar esta tecnología sin absorber gratuitamente el contenido de todos.
Hacia una mayor transparencia y rendición de cuentas
Este trabajo reciente supone un rotundo revés para la defensa de las empresas de Silicon Valley, aunque no disipa todas las preocupaciones éticas. Este modelo sigue siendo un gran modelo lingüístico, una tecnología fundamentalmente diseñada para automatizar tareas y, potencialmente, reducir el empleo. Además, es poco probable que cada autor cuya obra ha pasado al dominio público esté encantado de verla "reproducida" por una IA, a menos que sean artistas fallecidos cuyos derechos de autor hayan expirado.
Incluso si se frenara a las empresas de IA y se les obligara a utilizar obras con permiso o compensación —lo que sigue siendo una hipótesis audaz—, la realidad es que, mientras estas empresas existan, habrá una presión considerable sobre los titulares de derechos de autor para permitir el entrenamiento de la IA.
Stella Biderman no tiene dudas de que empresas como OpenAI no cambiarán de repente para convertirse en un ejemplo a seguir en el suministro ético de datos. Sin embargo, espera que su trabajo al menos les ayude a dejar de ocultar lo que están utilizando para entrenar sus modelos de IA. Afirmó: «Incluso la transparencia parcial tiene un enorme valor social y un valor científico moderado».
Fuente: Washington Post