Metas KI Ein Bücherpirat

Mauer > Künstliche Intelligenz

New Scientist

Ein Rechtsexperte hat eine verblüffende Entdeckung gemacht: Die künstliche Intelligenz von Meta soll in der Lage sein, ganze Buchpassagen wörtlich wiederzugeben. Sollte sich dies bewahrheiten, könnte das äußerst schlechte Nachrichten für den Tech-Riesen und seinen CEO Mark Zuckerberg bedeuten.

Um dies schnell zu verstehen: Alle derzeit kommerziell relevanten KI-Systeme, wie OpenAI's ChatGPT oder Metas Llama, werden trainiert, indem sie mit riesigen Datenmengen "gefüttert" werden. Forscher wenden dann zahlreiche Algorithmen an, die dem System beibringen, Muster in diesen Daten so gründlich zu erkennen, dass es anschließend neue Muster erzeugen kann. Theoretisch sollte die KI also, wenn man sie nach einer Zusammenfassung der Handlung eines "Harry Potter"-Buches fragt, eine (hoffentlich) vernünftige Übersicht liefern.

Das Problem liegt, wie der Technologie-Rechtsexperte Mark Lemley von der Stanford University in einem Interview mit dem New Scientist erklärte, in der Forschung seines Teams. Diese hat ergeben, dass Metas LLaMA-Modell in der Lage ist, den genauen Inhalt urheberrechtlich geschützter Bücher wörtlich zu wiederholen. Das bedeutet, die KI versteht oder fasst den Inhalt der Bücher nicht nur zusammen, sondern reproduziert (kopiert) große Teile dieses Inhalts genau so, wie er ursprünglich geschrieben wurde – Wort für Wort und Buchstabe für Buchstabe. Als Beispiel wurden lange Passagen aus der milliardenschweren "Harry Potter"-Reihe gefunden.

Massive rechtliche Haftung für Meta

Für Meta stellt dies eine gigantische rechtliche Haftung dar. Warum? Weil, wenn ihre KI vollständige Auszüge des Materials produziert, mit dem sie trainiert wurde, es weniger so aussieht, als würde ihre KI transformative Werke auf der Grundlage allgemeiner Sprachmuster und Weltkenntnisse erzeugen, die sie aus ihren Trainingsdaten gelernt hat. Vielmehr gleicht die KI dann einer riesigen ZIP-Datei urheberrechtlich geschützter Werke, die Nutzer nach Belieben reproduzieren können.

Und genau danach sieht es aus. Bei Tests verschiedener KI-Modelle von Unternehmen wie OpenAI, DeepSeek und Microsoft stellte Lemleys Team fest, dass Metas LLaMA das einzige war, das Buchinhalte exakt ausspuckte. Insbesondere fanden die Forscher, dass LLaMA Material wie das erste Buch aus J.K. Rowlings "Harry Potter"-Reihe, F. Scott Fitzgeralds "Der große Gatsby" und George Orwells "1984" memorisiert zu haben schien.

Der Schatten des illegalen Torrents

Es steht außer Frage, dass Meta, wie andere Unternehmen in der Tech-Branche, urheberrechtlich geschütztes Material zum Training ihrer KI verwendet hat. Doch ihre spezifische Methodik ist in die Kritik geraten: In einer Urheberrechtsklage gegen Meta, eingereicht von Autoren wie der Komikerin Sarah Silverman, kam heraus, dass das Modell mit dem "Books3"-Datensatz trainiert wurde. Dieser enthält fast 200.000 urheberrechtlich geschützte Publikationen und wurde von Meta-Ingenieuren mithilfe eines illegalen Torrents heruntergeladen. "Torrenting von einem [Meta-eigenen] Firmenlaptop fühlt sich nicht richtig an", beklagte sich einer von ihnen während des Vorgangs in Gerichtsunterlagen.

Ein Torrent ist eine Methode zum dezentralen (Peer-to-Peer) Teilen großer Dateien über das Internet. Anstatt eine vollständige Datei von einer einzigen Quelle herunterzuladen, teilt der Torrent die Datei in kleine Teile auf, die dann gleichzeitig von mehreren Quellen heruntergeladen werden.

Lemley und sein Team schätzen, dass, selbst wenn sich nur drei Prozent des Books3-Datensatzes, mit dem Meta trainiert wurde, als rechtsverletzend erweisen würden, das dahinterstehende Unternehmen fast eine Milliarde Dollar an gesetzlichen Schadensersatzforderungen schulden könnte. Und das sind noch nicht einmal zusätzliche Zahlungen, die auf den aus diesem Diebstahl erzielten Gewinnen basieren könnten. Sollte der Anteil rechtsverletzender Inhalte höher sein, könnte Meta, zumindest theoretisch, am Pranger stehen.

Eine peinliche Kehrtwende

Lemley befindet sich übrigens in einer schwierigen Lage. Er hatte Meta zuvor in derselben oben genannten Klage verteidigt. Doch Anfang dieses Jahres kündigte der Stanford-Professor in einem LinkedIn-Post an, das Unternehmen aus Protest gegen Metas und Zuckerbergs rechte "Tugend-Signalgebung" nicht mehr zu vertreten. Damals sagte er, er glaube, Meta sollte seinen Fall gewinnen – doch basierend auf seiner neuen Forschung klingt es so, als könnte sich diese Meinung geändert haben.

Meta lehnte es ab, die Ergebnisse Lemleys gegenüber dem New Scientist zu kommentieren.

Quelle: New Scientist