Thought Leadership
LLM-Wrapper vs. Agentic Workflows: Warum Architektur wichtiger ist als Modellgröße
Wrapper vs. Workflow
- 1
- 2
- 3
- 4
Gartner schätzt, dass von tausenden „Agentic AI“-Anbietern nur rund 130 echte agentenbasierte Fähigkeiten bieten. Gleichzeitig erreichen simple „LLM-Wrapper“ bei der Datenextraktion aus Dokumenten nur 66–77 % Genauigkeit, während spezialisierte IDP-Systeme 93–98 % liefern.
Die Fähigkeit, echte agentische Architekturen von API-Kosmetik zu unterscheiden, wird zur Kernkompetenz für technische Entscheider:innen im IDP-Umfeld. Denn der Unterschied ist keine Nuance, sondern entscheidet über die Produktionsreife einer Lösung.
Wrapper vs. Workflow: Der technische Unterschied
Hinter einfachen API-Aufrufen stecken LLM-Wrapper, eine Architektur, bei der Anwendungen im Kern aus einem einzigen Muster bestehen: Eingabe, Prompt-Template, API-Aufruf, Ausgabe. Es gibt keine Planung, keine Tool-Verwendung, kein Gedächtnis und keine Selbstkorrektur. Die gesamte Intelligenz liegt damit im externen Modell selbst, nicht in der Anwendung.
Agentic Workflows funktionieren fundamental anders. Andrew Ng definiert vier zentrale Design-Patterns, die echte agentenbasierte Systeme ausmachen: Reflection bedeutet, das System kritisiert und verbessert seine eigene Ausgabe iterativ. Tool Use ermöglicht Zugriff auf externe Werkzeuge wie Datenbanken, APIs oder Code-Ausführung. Planning zerlegt komplexe Aufgaben in Teilschritte mit dynamischer Anpassung. Multi-Agent Collaboration lässt spezialisierte Agenten arbeitsteilig koordinieren.
Andrew Ngs Benchmark macht den Unterschied greifbar: Ein kleineres, günstigeres Modell erreichte im Zero-Shot-Modus rund 48 % Genauigkeit auf dem HumanEval-Coding-Benchmark. Das damals leistungsfähigste verfügbare Modell kam auf 67 %. Doch das kleinere Modell mit Agentic Workflow erreichte 95,1 % und übertraf damit das größere Modell deutlich. Die Erkenntnis ist modellunabhängig und hat sich seitdem in zahlreichen weiteren Benchmarks bestätigt: Architektur schlägt Modellgröße.
Die Schwächen der LLM-Wrapper
Das ist mehr als eine akademische Debatte. In der Praxis haben diese Unterschiede echte Konsequenzen:
Halluzination ohne Sicherheitsnetz
LLMs erzeugen bei komplexer Extraktion in 5 bis 20 % der Fälle Daten, die plausibel aussehen, aber falsch sind. Arxiv-Forschung von 2024 belegt mathematisch, dass Halluzinationen aufgrund fundamentaler computationstheoretischer Grenzen nicht eliminierbar sind. Sie können nur durch externe Validierungsschichten abgefangen werden, die bei einfachen LLM-Wrappern vollständig fehlen.
Keine strukturierte Ausgabegarantie
LLMs liefern nicht-deterministische Ergebnisse. Ein Datum kann als „25. Dez. 2024″ oder „2024-12-25″ zurückkommen – in wechselnden Durchläufen desselben Dokuments. Selbst bei aktuellen Top-Modellen zeigen Audits einen „Data Drift“, der sich bei tausenden Dokumenten mit dutzenden Feldern zu signifikanten Fehlern kumuliert. Wenn KI-Projekte an Integrationsproblemen scheitern, geht dies häufig auf inkonsistente Modellantworten zurück.
Keine Datensouveränität
Cloud-basierte LLM-APIs senden Dokumenteninhalte an Drittanbieter-Server. Jede Prompt-Eingabe kann personenbezogene Daten enthalten: Kundennamen, Kontodaten, medizinische Informationen. Für regulierte Branchen in Europa ist die Abhängigkeit von US-Clouds ein strategisches Risiko, nicht nur ein Compliance-Thema.
„Agent Washing“ erkennen: Evaluierungs-Checkliste
Der IDP-Markt wächst mit über 25 % jährlich und erreichte 2024 ein Volumen von etwa 2,3 Milliarden USD. Dieses Wachstum beschleunigt einen Paradigmenwechsel: weg von passiver Datenextraktion, hin zu proaktiver Document-to-Decision-Automatisierung. Die Bausteine dafür sind unter anderem Agentic OCR mit Vision-Language-Modellen und agentenbasierte Workflows mit LLM-gestützten Reasoning-Pipelines.
Gartner prognostiziert, dass Unternehmen bis 2027 kleine, aufgabenspezifische KI-Modelle dreimal häufiger einsetzen werden als allgemeine Large Language Models. Ein klarer Hinweis darauf, dass spezialisierte Ansätze den generischen „Ein Modell für alles“-Lösungen überlegen sind.
Gleichzeitig warnt Gartner vor dem sogenannten „Agent Washing“, also dem Umetikettieren bestehender Chatbots, RPA-Tools und KI-Assistenten als „Agentic AI“ ohne substanzielle neue Fähigkeiten. Die Prognose ist eindeutig: Mehr als 40 % der Agentic-AI-Projekte werden bis Ende 2027 abgebrochen, weil Kosten eskalieren und der geschäftliche Nutzen unklar bleibt.
Darüber hinaus sollten Entscheider:innen folgende Nachweise fordern:
- Autonome Aufgabenabschlüsse ohne permanente menschliche Steuerung
- Nachweisbare Reasoning- und Planungsfähigkeiten (nicht nur Textgenerierung)
- Klare ROI-Metriken, die an Geschäftsergebnisse gekoppelt sind
Wer als Entscheider:in diese Fragen konsequent stellt, wird schnell erkennen, welche Anbieter KI-Substanz mitbringen und welche primär das API-Dashboard eines LLM-Anbieters hinter einem neuen Frontend verbergen.
Fazit
Die Verfügbarkeit leistungsfähiger Foundation Models hat die Eintrittsbarriere für IDP-Lösungen gesenkt. Doch genau diese Einfachheit erzeugt eine Illusion von Reife. Andrew Ngs zentrale Erkenntnis zeigt: Ein kleineres Modell mit Agentic Workflow übertrifft ein größeres im Zero-Shot-Modus. Die Architektur um das Modell herum ist wichtiger als das Modell selbst. Feedback-Schleifen, Validierung, domänenspezifische Optimierung und persistentes Gedächtnis sind keine optionalen Features. Sie sind die Voraussetzung für produktionstaugliche Dokumentenverarbeitung.
Die Anbieter, die in den nächsten Jahren den IDP-Markt prägen werden, verbinden eigene Kerntechnologie mit agentenbasierter Orchestrierung: proprietäre Erkennungsmodelle als hochwertige Datenbasis, spezialisierte Agenten für verschiedene Verarbeitungsschritte, vollständige Datensouveränität für europäische Compliance-Anforderungen und forschungsgetriebene Weiterentwicklung statt reiner API-Integration. Die entscheidende Frage ist deshalb nicht mehr „welches LLM läuft im Backend“, sondern „welche Intelligenz wurde darum herum gebaut“.