KI-Forschung auf dem Prüfstand: LABBench2 demaskiert aktuelle Modelle

Die Versprechen sind gewaltig: Künstliche Intelligenz soll den wissenschaftlichen Fortschritt exponentiell beschleunigen, autonome Labore steuern und Hypothesen ohne menschliches Zutun generieren. Doch ein neuer Benchmark gießt nun kaltes Wasser auf die überhitzten Erwartungen. Mit LABBench2 legen Forschende einen massiv verschärften Leistungstest für KI-Systeme in der biologischen Forschung vor. Das ernüchternde Ergebnis: Selbst die aktuell stärksten Frontier-Modelle straucheln erheblich, wenn es an den eigentlichen Forschungsalltag geht.

Vom Auswendiglernen zur echten Arbeit

Bisherige Benchmarks für KI in der Wissenschaft greifen oft zu kurz. Sie messen vor allem Faktenwissen oder die Fähigkeit zum abstrakten logischen Schlussfolgern – Fähigkeiten, die in standardisierten Tests glänzend aussehen, aber im Laboralltag kaum weiterhelfen. Wissenschaftliche Forschung ist jedoch keine Quizshow. Es geht nicht darum, die richtige Antwort aus einem Lehrbuch abzurufen, sondern darum, sinnvolle Arbeit zu verrichten: Datenbanken durchsuchen, Protokolle interpretieren, Experimente planen und mit fehlerhaften oder unvollständigen Informationen umgehen.

Genau hier setzt LABBench2 an. Als Weiterentwicklung des Vorgängers LAB-Bench verschiebt der neue Benchmark den Fokus explizit von reinem Wissen und Reasoning hin zur Messung echter Weltanwendungen („real-world capabilities“). Mit knapp 1.900 Aufgaben simuliert LABBench2 die komplexen, oft unvorhersehbaren Kontexte, die Biologinnen und Biologen täglich bewältigen müssen.

Der Realitäts-Schock: Bis zu 46 Prozentpunkte Einbruch

Die Evaluierung aktueller Frontier-Modelle liefert einen deutlichen Wake-up-Call für die Branche. Zwar haben sich die KI-Systeme im Vergleich zum Vorgänger-Benchmark insgesamt verbessert – ein Zeichen dafür, dass die allgemeine Leistungsfähigkeit der Modelle steigt. Doch LABBench2 setzt ihnen eine deutlich härtere Hürde vor.

Je nach Subtask brechen die Erfolgsquoten der Modelle massiv ein. Die Differenz zwischen dem alten LAB-Bench und dem realistischeren LABBench2 liegt zwischen -26 und -46 Prozentpunkten. Das ist keine marginale Schwankung, sondern ein eklatanter Einbruch. Er zeigt, dass die vermeintliche Intelligenz dieser Systeme oft eine fragile Konstruktion ist, die unter realistischen Bedingungen kollabiert.

Warum scheitern die Modelle?

Die Gründe für diesen drastischen Leistungsabfall sind vielschichtig und offenbaren grundlegende Schwächen aktueller KI-Architekturen:

Kontextsensibilität: Im Labor gibt es keine perfekten Eingaben. Protokolle sind vage, Reagenzien variieren, Daten sind verrauscht. Modelle, die auf saubere Trainingsdaten optimiert sind, verlieren hier schnell den roten Faden.
Agentic Limitations: Die Vision des autonomen Forschungs-Agenten erfordert Fehlerkorrektur in Echtzeit und das Navigieren durch komplexe Workflows. Wenn ein Schritt fehlschlägt, muss das System umplanen – genau das beherrschen aktuelle LLMs nur unzureichend.
Überanpassung an Benchmark-Muster: Der starke Einbruch deutet darauf hin, dass Modelle bisherige wissenschaftliche Tests teilweise durch Mustererkennung „gelöst“ haben, ohne die zugrunde liegende wissenschaftliche Methodik wirklich abzubilden.

Ein notwendiger Kompass für die Community

Trotz des ernüchternden Abschneidens ist LABBench2 kein reines Debakel, sondern ein unverzichtbares Werkzeug. Um die KI-Forschung voranzubringen, müssen wir genau wissen, wo die Systeme stehen – und wo sie scheitern. Der Benchmark etabliert sich als de facto Standard für die Messung wissenschaftlicher KI-Fähigkeiten.

Besonders lobenswert ist dabei der Open-Source-Ansatz der Forschenden. Sowohl das Task-Dataset als auch das Evaluation-Harness sind öffentlich zugänglich. Das ermöglicht es der Community, die Tests zu replizieren, zu erweitern und gezielt an den Schwachstellen der Modelle zu arbeiten, anstatt sich in Marketing-Versprechen zu verlieren.

Fazit

LABBench2 ist ein Realitätsabgleich für eine Branche, die sich aktuell stark im Hype-Modus befindet. Der Benchmark macht unmissverständlich klar: Der Weg von einem Chatbot, der biologische Fakten zitieren kann, hin zu einem autonomen Agenten, der echte Forschungsarbeit leistet, ist noch weit. Die hohen Einbrüche bei der Genauigkeit zeigen, dass wir von einer „End-to-End“-Automatisierung der Biologie weit entfernt sind. Doch erst wer die Lücke zwischen Theorie und Praxis genau vermisst, kann sie auch schließen.

Quelle: arXiv cs.AI

KI-Forschung auf dem Prüfstand: LABBench2 demaskiert aktuelle Modelle

Vom Auswendiglernen zur echten Arbeit

Der Realitäts-Schock: Bis zu 46 Prozentpunkte Einbruch

Warum scheitern die Modelle?

Ein notwendiger Kompass für die Community

Fazit

Kommentare

Anthropic bringt Claude Code auf den Desktop – und scheitert an den Basics

Opera öffnet Browser für KI: MCP-Anbindung kommt zu One und GX

DeepL übersetzt jetzt Stimmen: Der nächste Logikschritt für das KI-Start-up