PhyDrawGen: Wie neuro-symbolische KI Physik-Diagramme richtig zeichnet

Wenn die Optik stimmt, die Physik aber katastrophal versagt

Moderne generative KI-Modelle wie GPT-5-image oder Gemini 3 Pro sind beeindruckend darin, fotorealistische Bilder aus Textvorgaben zu erstellen. Doch sobald es um die Darstellung physikalischer Sachverhalte geht, scheitern sie grandios. Ein Kraftvektor zeigt in die falsche Richtung, Lichtstrahlen brechen sich entgegen den Snell'schen Gesetzen, und Erhaltungssätze werden einfach ignoriert. Das Problem: Diese Modelle verstehen die visuelle Ästhetik, aber sie haben kein physikalisches Weltmodell. Sie halluzinieren physikalische Zusammenhänge, die zwar "gut aussehen", aber schlichtweg falsch sind.

Genau hier setzt das am 28. Mai 2026 auf arXiv vorgestellte System PhyDrawGen an. Die Forscherinnen und Forscher hinter dem Projekt schlagen eine neuro-symbolische Pipeline vor, die die Stärken von Large Language Models (LLMs) mit der mathematischen Strenge deterministischer Solver verbindet.

Die Architektur: Verstehen, Berechnen, Verifizieren

Der zentrale Innovationsansatz von PhyDrawGen ist die Entkopplung von semantischem Verständnis und physikalischer Korrektheit. Anstatt ein einziges neuronales Netz zu zwingen, sowohl Text zu verstehen als auch physische Gesetze einzuhalten, wird das Problem in drei distinkte Phasen unterteilt:

Scene Graph Extraction: Zunächst analysiert ein LLM den natürlichsprachigen Problemtext und extrahiert daraus einen typisierten Scene Graph. Das Modell identifiziert Objekte, deren Eigenschaften und die zwischen ihnen wirkenden physikalischen Beziehungen.
Deterministische Geometrie (PSLG): Dieser Scene Graph wird an einen deterministischen Solver übergeben. Dieser berechnet einen sogenannten Planar Straight-Line Graph (PSLG). In diesem Graphen werden physikalische Randbedingungen – wie Kräftegleichgewichte in der Mechanik, optische Pfade oder Feldtopologien in der Elektrodynamik – als exakte geometrische Primitive kodiert. Es gibt hier kein Rätselraten, nur Mathematik.
Propose-Verify Loop: Im letzten Schritt kommt ein feinabgestimmtes Qwen-VL-Modell ins Spiel. Es nimmt den PSLG als Vorlage und generiert das eigentliche visuelle Diagramm. Das Besondere: Das Modell arbeitet iterativ. Es generiert einen Vorschlag (Propose), prüft diesen auf physikalische Konsistenz und korrigiert gefundene Verstöße (Verify). Dieser Loop läuft so lange, bis das Diagramm alle Constraint-Checks besteht.

Die Konkurrenz abgehängt

Getestet wurde PhyDrawGen auf einem Benchmark mit 1.449 Problemen aus den Bereichen Mechanik, Optik und Elektromagnetismus. Die Ergebnisse sind eindeutig. Das System schlägt die aktuellen Flaggschiff-Modelle GPT-5-image, Gemini 2.5 Flash und Gemini 3 Pro deutlich. Besonders bei Problemen mit ungewöhnlichen Objekten – wo reine Bildgeneratoren dazu neigen, auf ihre Trainingsdaten zurückzufallen und falsche Standardannahmen zu treffen – zeigt PhyDrawGen eine bemerkenswerte Robustheit.

Journalistische Einordnung: Warum End-to-End nicht immer das Ende der Fahnenstange ist

Die KI-Industrie hat sich in den letzten Jahren stark auf End-to-End-Modelle fokussiert. Das Motto: Gib dem Modell genug Daten und Parameter, und es wird die Welt schon verstehen. PhyDrawGen ist ein Beweis dafür, dass dieser Ansatz bei hochstrukturierten, regelbasierten Domänen wie der Physik an seine Grenzen stößt. Ein LLM ist ein exzellenter Mustererkennner, aber ein schlechter Taschenrechner. Wenn die physikalische Wahrheit nicht verhandelbar ist, führt kein Weg an symbolischen Systemen vorbei.

Die Stärke von PhyDrawGen liegt in der Hybridität. Das LLM macht die schwere Arbeit der Sprachverstehens und Disambiguierung, der Solver bürgt für die harte Realität der Naturgesetze. Das ist ein Paradigma, das sich auch in anderen kritischen Domänen – etwa in der formalen Code-Generierung oder der juristischen Dokumentenanalyse – durchsetzen dürfte.

Allerdings gibt es auch kritische Punkte zu betrachten. Der Propose-Verify Loop ist rechenintensiv. Mehrere Iterationen pro Bild erhöhen die Latenz und die Inference-Kosten deutlich gegenüber einem Single-Pass-Modell wie Gemini 2.5 Flash. Zudem ist die Pipeline angewiesen auf die Qualität des initialen Scene Graphs. Wenn das LLM in Schritt eins die Semantik des Textes falsch interpretiert, kann der Solver diesen Fehler nicht mehr korrigieren – das System ist nur so gut wie sein schwächstes Glied in der Kette.

Dennoch ist PhyDrawGen ein wichtiger Meilenstein. Er zeigt, dass wir wegkommen müssen von der Illusion, dass reine Skalierung alle Probleme löst. In einer Welt, in der KI zunehmend für wissenschaftliche Visualisierungen und Bildungsmaterialien eingesetzt wird, ist physische Korrektheit keine Option, sondern eine Pflicht. Systeme, die Ästhetik über Akkuratesse stellen, haben in der Wissenschaft nichts verloren.

Quelle: arXiv:2605.30512

PhyDrawGen: Wie neuro-symbolische KI Physik-Diagramme richtig zeichnet

Wenn die Optik stimmt, die Physik aber katastrophal versagt

Die Architektur: Verstehen, Berechnen, Verifizieren

Die Konkurrenz abgehängt

Journalistische Einordnung: Warum End-to-End nicht immer das Ende der Fahnenstange ist

Kommentare

OpenAI drängt mit neuen Codex-Tools in die Unternehmenswelt

Googles KI-Agent Spark im Praxistest: Warum das auch für Apples Siri ein Gewinn ist

KI korrigiert KI: ZeroDrift sichert sich 10 Millionen Dollar Seed-Funding