ICDAR 2026 • DocVQA Competition

Technischer Bericht: DCA at DocVQA 2026

Welf Wustlich, CTO, PLANET AI

Juni 2026 · 19 Seiten

Accuracy auf dem DocVQA 2026 Leaderboard

0 PP

Vorsprung gegenüber der besten MoE-Baseline (~37,5%)

Dokumentkategorien, von Geschäftsberichten bis Comics

PLANET AI gewinnt DocVQA 2026: Architektur schlägt Modellgröße

DocVQA 2026 ist der weltweit anspruchsvollste Wettbewerb für Dokumentenverstehen. Ausgerichtet vom Computer Vision Center der Universitat Autònoma de Barcelona, verlangt er tiefes Reasoning über acht völlig unterschiedliche Dokumentkategorien. Kein einzelnes Modell schlägt sich in allen acht gleich gut.

PLANET AI hat gewonnen, nicht mit einem größeren Modell, sondern mit einer anderen Architektur. Die Distributed Cognitive Architecture (DCA) koordiniert mehrere Foundation Models als kooperierendes Team, ergänzt durch IDA als präzise OCR-Grundlage. Das Ergebnis: 60,0 % Accuracy gegenüber rund 40 % der besten Frontier-Model-Konfiguration.

Was der Bericht zeigt

Architektur und Methodik: Wie IDA, vier VLMs und ein Reasoning Agent als System zusammenwirken

Stärken-Battlecard der einzelnen Modelle: Welches Modell in welcher Dokumentkategorie die Nase vorn hat und warum

Zerlegung des +20-PP-Vorsprungs: Ca. +7 PP durch IDA, ca. +13 PP durch DCA-Orchestrierung

Halluzinierungsminimierung im Ensemble: Wie Cross-Perspektiven-Konfliktdetektion Fehler sichtbar macht, bevor sie in die Antwort einfließen

Mit Eingabe Ihrer Kontaktdaten erhalten Sie den kompletten technischen Bericht zur DocVQA 2026.