Bild: KI Midjourney | Collage: c’t

Lernblockade

Wie sich Autoren und Künstler gegen den Missbrauch ihrer Werke zum KI-Training wehren können

Um besser zu werden, müssen generative KIs mit hochwertigen Daten trainieren. Entwickler beschaffen diese oft mit unlauteren Methoden. Dagegen setzen sich immer mehr Urheber zur Wehr – mit juristischen, technischen und inhaltlichen Mitteln.

Von Hartmut Gieselmann, Jo Bager und Andrea Trinkwalder

Damit sie an der Spitze bleiben, brauchen die großen KI-Firmen wie OpenAI, Microsoft und Alphabet einen ständigen Nachschub an frischen Daten für das Training: Texte, Bilder, Videos aus dem Internet. Ihre Sprachmodelle und Bildgeneratoren akkumulieren das Wissen von Millionen Autoren, Wissenschaftlern, Fotografen und Künstlern.

Dass sich die großen Unternehmen daran bedienen dürfen, hat die EU vor vier Jahren in ihrer Richtlinie 2019/790 erlaubt. Auf dieser Grundlage ist der § 44b im deutschen Urheberrecht entstanden. Er besagt, dass KI-Entwickler ihre Modelle mit allen ihnen zugänglichen Daten trainieren dürfen, solange ein Urheber nicht widerspricht (Opt-out-Regelung). Im Streitfall müssen nicht die KI-Entwickler nachweisen, dass alle ihre Daten zum Training freigegeben sind. Vielmehr müssen die Urheber nachweisen, dass sie widersprochen haben und ihre Werke trotzdem zum Training verwendet wurden.