Bild: KI Midjourney | Bearbeitung c’t

Trügerische Präzision

Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

„90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprach-KIs. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?

Von Hartmut Gieselmann und Andrea Trinkwalder

Um Sprach-KIs untereinander und mit dem Menschen zu vergleichen, ersinnen Forscher immer ausgeklügeltere Testverfahren. Doch die Vermessung von GPT-4, LLaMA, Bloom & Co. nebst ihren zahllosen Ablegern ist weder eine exakte noch eine simple Wissenschaft. Benchmarks und Metriken halten mit den enormen Entwicklungssprüngen der Large Language Models (LLMs) kaum Schritt, enthalten häufig Fehler oder entpuppen sich als wenig zielführend.

Deshalb tragen Institute und Unternehmen mittlerweile per Crowdsourcing riesige, sich interaktiv entwickelnde Aufgabensammlungen zusammen, ersinnen möglichst knifflige Probleme und differenzierte Testszenarien oder veranstalten spannende Shootouts mit Mensch, Maschine und Rangliste.