Futurism
La imparable ascensión de ChatGPT y la avalancha de modelos generativos de la competencia que le siguieron han inundado internet con tal cantidad de contenido inútil que ya están lastrando el desarrollo de futuros modelos de inteligencia artificial.
La Contaminación de Datos y el "Colapso del Modelo"
A medida que los datos generados por la IA nublan las creaciones humanas de las que estos modelos dependen en gran medida para su aprendizaje, se vuelve inevitable que una mayor proporción de lo que estas supuestas inteligencias aprenden e imitan sea, en sí misma, una creación de IA espuria.
Si este proceso se repite lo suficiente, el desarrollo de la IA comienza a parecerse a un "teléfono escacharrado" maximalista, en el que no solo disminuye la calidad del contenido producido, asemejándose cada vez menos a lo que supuestamente debería reemplazar, sino que los propios participantes se vuelven activamente más estúpidos. La industria describe este escenario como el "colapso del modelo" de IA.
El Valor de los Datos "Puros": Una Analogía con el Acero de Bajo Fondo
Como consecuencia, la cantidad finita de datos anteriores al auge de ChatGPT se vuelve extremadamente valiosa. En un nuevo reportaje, The Register compara esta situación con la demanda de "acero de bajo fondo", o acero producido antes de la detonación de las primeras bombas nucleares, comenzando en julio de 1945 con la prueba Trinity de EE. UU.
Así como la explosión de los chatbots de IA ha contaminado irreversiblemente internet, la detonación de la bomba atómica liberó radionúclidos y otras partículas que se han filtrado en prácticamente todo el acero producido posteriormente. Esto hace que los metales modernos no sean adecuados para su uso en algunos equipos científicos y médicos de alta sensibilidad. Y así, lo viejo es nuevo: una importante fuente de acero de bajo fondo, incluso hoy en día, son los acorazados de la Primera y Segunda Guerra Mundial, incluida una enorme flota naval que fue echada a pique por el almirante alemán Ludwig von Reuter en 1919.
La Importancia de los Datos Anteriores a 2022
Maurice Chiodo, investigador asociado del Centro para el Estudio del Riesgo Existencial de la Universidad de Cambridge, calificó las acciones del almirante como la "mayor contribución a la medicina nuclear en el mundo".
"Eso nos permitió tener este suministro casi infinito de acero de bajo fondo. Si no fuera por eso, estaríamos un poco atascados", declaró a The Register. "Así que la analogía funciona aquí porque se necesita algo que ocurrió antes de una fecha determinada."
"Pero si estás recolectando datos antes de 2022, tienes bastante confianza en que tienen una contaminación mínima, si es que la tienen, de IA generativa", añadió. "Todo antes de esa fecha es 'seguro, bueno, limpio'; todo después es 'sucio'."
La Necesidad de Datos "Limpios" y la Competencia Justa
En 2024, Chiodo fue coautor de un artículo en el que argumentaba que se necesita una fuente de datos "limpios" no solo para evitar el colapso del modelo, sino para garantizar una competencia justa entre los desarrolladores de IA. De lo contrario, los primeros pioneros de la tecnología, después de arruinar internet para todos los demás con los desechos de su IA, tendrían una ventaja masiva al ser los únicos que se beneficiarían de una fuente más pura de datos de entrenamiento.
Un Problema Creciente: La Generación Aumentada por Recuperación (RAG)
Si el colapso del modelo, particularmente como resultado de datos contaminados, es una amenaza inminente es objeto de debate. Pero muchos investigadores han estado dando la voz de alarma durante años, incluido Chiodo.
"Ahora, no está claro hasta qué punto el colapso del modelo será un problema, pero si lo es, y hemos contaminado este entorno de datos, la limpieza será prohibitivamente cara, probablemente imposible", dijo a The Register.
Un área donde el problema ya ha surgido es con la técnica llamada generación aumentada por recuperación (RAG), que los modelos de IA utilizan para complementar sus datos de entrenamiento desactualizados con información extraída de internet en tiempo real. Pero no se garantiza que estos nuevos datos estén libres de manipulación de IA, y algunas investigaciones han demostrado que esto da como resultado que los chatbots produzcan respuestas mucho más "inseguras".
El Límite de la Escalabilidad y la Urgencia Regulatoria
El dilema también refleja el debate más amplio en torno a la escalabilidad, o la mejora de los modelos de IA mediante la adición de más datos y potencia de procesamiento. Después de que OpenAI y otros desarrolladores informaran de rendimientos decrecientes con sus modelos más recientes a fines de 2024, algunos expertos proclamaron que la escalabilidad había chocado contra un "muro". Y si esos datos están cada vez más llenos de "basura", el muro sería mucho más infranqueable.
Chiodo especula que regulaciones más estrictas, como el etiquetado del contenido de IA, podrían ayudar a "limpiar" parte de esta contaminación, pero esto sería difícil de aplicar. En este sentido, la industria de la IA, que se ha quejado de cualquier interferencia gubernamental, podría ser su peor enemigo.
"Actualmente estamos en una primera fase de regulación en la que nos estamos alejando un poco de la regulación porque creemos que tenemos que ser innovadores", dijo a The Register Rupprecht Podszun, profesor de derecho civil y de la competencia en la Universidad Heinrich Heine de Düsseldorf, quien fue coautor del artículo de 2024 con Chiodo. "Y esto es muy típico de cualquier innovación que se nos ocurra. Así que la IA es lo grande, déjala ir y listo."
Fuente: Futurism