Forschung @ PLANET AI


Wir optimieren PLANETBRAIN Tag für Tag

Wir optimieren PLANETBRAIN Tag für Tag

Die jüngsten Fortschritte auf dem Gebiet der Künstlichen Intelligenz (KI) und Machine Learning (ML) sind enorm und erstaunlich. Fast monatlich sehen wir Berichte, die neue Durchbrüche in verschiedenen technologischen Aspekten ankündigen.

Als Organisation, die sich auf Forschung und Entwicklung konzentriert, können wir auf eine zunehmende Anzahl von Auszeichnungen, Publikationen und Forschungsprojekten zurückblicken.



Wir treiben den Stand der Technik, über die menschliche Leistungsfähigkeit hinaus, voran:

  • Automatic Text Recognition (ATR)

  • Language Modeling (LM)

  • Named-Entity Recognition (NER)

  • Visual Question Answering (VQA)

  • Image Segmentation (IS)

Im Detail

Unser Team arbeitet mit und verbessert Technologien wie:

  • Fully Convolutional Neural Networks (vollständig faltende neuronale Netze)

  • Sowohl aufmerksamkeitsbasierte rekurrenzfreie Modelle als auch Kombinationen mit rekurrenten Modellen

  • Graph Neural Networks (GNN)

  • Neuronale Speichertechniken
  • Unüberwachte und selbstüberwachte Pre-Training-Strategien
  • Verbesserte Lernstrategien

With its standardized MRI datasets of the entire spine, the German National Cohort (GNC) has the potential to deliver standardized biometric reference values for intervertebral discs (VD), vertebral bodies (VB) and spinal canal (SC). To handle such large-scale big data, artificial intelligence (AI) tools are needed. In this manuscript, we will present an AI software tool to analyze spine MRI and generate normative standard values. 330 representative GNC MRI datasets were randomly selected in equal distribution regarding parameters of age, sex and height. By using a 3D U-Net, an AI algorithm was trained, validated and tested. Finally, the machine learning algorithm explored the full dataset (n = 10,215). VB, VD and SC were successfully segmented and analyzed by using an AI-based algorithm. A software tool was developed to analyze spine-MRI and provide age, sex, and height-matched comparative biometric data. Using an AI algorithm, the reliable segmentation of MRI datasets of the entire spine from the GNC was possible and achieved an excellent agreement with manually segmented datasets. With the analysis of the total GNC MRI dataset with almost 30,000 subjects, it will be possible to generate real normative standard values in the future.

: Felix Streckenbach (University Medical Center Rostock), Gundram Leifert (PLANET AI GmbH), Thomas Beyer (University Medical Center Rostock) et. al.

Journal: Healthcare 2022 (MDPI)


In contrast to Connectionist Temporal Classification (CTC) approaches, Sequence-To-Sequence (S2S) models for Handwritten Text Recognition (HTR) suffer from errors such as skipped or repeated words which often occur at the end of a sequence. In this paper, to combine the best of both approaches, we propose to use the CTC-Prefix-Score during S2S decoding. Hereby, during beam search, paths that are invalid according to the CTC confidence matrix are penalised. Our network architecture is composed of a Convolutional Neural Network (CNN) as visual backbone, bidirectional Long-Short-Term-Memory-Cells (LSTMs) as encoder, and a decoder which is a Transformer with inserted mutual attention layers. The CTC confidences are computed on the encoder while the Transformer is only used for character-wise S2S decoding. We evaluate this setup on three HTR data sets: IAM, Rimes, and StAZH. On IAM, we achieve a competitive Character Error Rate (CER) of 2.95% when pretraining our model on synthetic data and including a character-based language model for contemporary English. Compared to other state-of-the-art approaches, our model requires about 10–20 times less parameters. Access our shared implementations via this link to GitHub.

Autoren: Christoph Wick (PLANET AI GmbH), Jochen Zöllner (PLANET AI GmbH, University of Rostock), Tobias Grüning (PLANET AI GmbH)

Reihe: DAS 2022 – 15th IAPR International Workshop on Document Analysis Systems

DOI: 10.1007/978-3-031-06555-2_18

Currently, the most widespread neural network architecture for training language models is the so-called BERT, which led to improvements in various Natural Language Processing (NLP) tasks. In general, the larger the number of parameters in a BERT model, the better the results obtained in these NLP tasks. Unfortunately, the memory consumption and the training duration drastically increases with the size of these models. In this article, we investigate various training techniques of smaller BERT models: We combine different methods from other BERT variants, such as ALBERT, RoBERTa, and relative positional encoding. In addition, we propose two new fine-tuning modifications leading to better performance: Class-Start-End tagging and a modified form of Linear Chain Conditional Random Fields. Furthermore, we introduce Whole-Word Attention, which reduces BERTs memory usage and leads to a small increase in performance compared to classical Multi-Head-Attention. We evaluate these techniques on five public German Named Entity Recognition (NER) tasks, of which two are introduced by this article.

Autoren: Jochen Zöllner (PLANET AI GmbH, University of Rostock), Konrad Sperfeld (University of Rostock), Christoph Wick (PLANET AI GmbH), Roger Labahn (University of Rostock)

Journal: MDPI Information

DOI: 10.3390/info12110443

In order to apply Optical Character Recognition (OCR) to historical printings of Latin script fully automatically, we report on our efforts to construct a widely-applicable polyfont recognition model yielding text with a Character Error Rate (CER) around 2% when applied out-of-the-box. Moreover, we show how this model can be further finetuned to specific classes of printings with little manual and computational effort. The mixed or polyfont model is trained on a wide variety of materials, in terms of age (from the 15th to the 19th century), typography (various types of Fraktur and Antiqua), and languages (among others, German, Latin, and French). To optimize the results we combined established techniques of OCR training like pretraining, data augmentation, and voting. In addition, we used various preprocessing methods to enrich the training data and obtain more robust models. We also implemented a two-stage approach which first trains on all available, considerably unbalanced data and then refines the output by training on a selected more balanced subset. Evaluations on 29 previously unseen books resulted in a CER of 1.73%, outperforming a widely used standard model with a CER of 2.84% by almost 40%. Training a more specialized model for some unseen Early Modern Latin books starting from our mixed model led to a CER of 1.47%, an improvement of up to 50% compared to training from scratch and up to 30% compared to training from the aforementioned standard model. Our new mixed model is made openly available to the community.

Autoren: Christian Reul (University of Würzburg), Christoph Wick (PLANET AI GmbH), Maximilian Nöth, Andreas Büttner, Maximilian Wehner (all University of Würzburg), Uwe Springmann (LMU München)

Reihe: ICDAR 2021

Seiten: 112 – 126

DOI: 10.1007/978-3-030-86334-0_8

Most recently, Transformers – which are recurrent-free neural network architectures – achieved tremendous performances on various Natural Language Processing (NLP) tasks. Since Transformers represent a traditional Sequence-To-Sequence (S2S)-approach they can be used for several different tasks such as Handwritten Text Recognition (HTR). In this paper, we propose a bidirectional Transformer architecture for line-based HTR that is composed of a Convolutional Neural Network (CNN) for feature extraction and a Transformer-based encoder/decoder, whereby the decoding is performed in reading-order direction and reversed. A voter combines the two predicted sequences to obtain a single result. Our network performed worse compared to a traditional Connectionist Temporal Classification (CTC) approach on the IAM-dataset but reduced the state-of-the-art of Transformers-based approaches by about 25% without using additional data. On a signi cantly larger dataset, the proposed Transformer significantly outperformed our reference model by about 26%. In an error analysis, we show that the Transformer is able to learn a strong language model which explains why a larger training dataset is required to outperform traditional approaches and discuss why Transformers should be used with caution for HTR due to several shortcomings such as repetitions in the text.

Autoren: Christoph Wick (PLANET AI GmbH), Jochen Zöllner (PLANET AI GmbH, University of Rostock), Tobias Grüning (PLANET AI GmbH)

Reihe: ICDAR 2021

Seiten: 112 – 126

In this paper, we propose a novel method for Automatic Text Recognition (ATR) on early printed books. Our approach significantly reduces the Character Error Rates (CERs) for book-specific training when only a few lines of Ground Truth (GT) are available and considerably outperforms previous methods. An ensemble of models is trained simultaneously by optimising each one independently but also with respect to a fused output obtained by averaging the individual confidence matrices. Various experiments on five early printed books show that this approach already outperforms the current state-of-the-art by up to 20% and 10% on average. Replacing the averaging of the confidence matrices during prediction with a con dence-based voting boosts our results by an additional 8% leading to a total average improvement of about 17%.

Autoren: Christoph Wick (PLANET AI GmbH), Christian Reul (University of Würzburg)

Reihe: ICDAR 2021

Seiten: 385 – 399

DOI: 10.1007/978-3-030-86549-8_25



Alle relevanten internationalen Publikationen zu sichten, die Essenz für PLANETBRAIN zu extrahieren und gleichzeitig unsere eigenen ambitionierten Forschungsprojekte zu realisieren wäre ohne diese hochqualifizierten und engagierten Teams nicht möglich.

Zusätzlich werden wir seit einigen Jahren von der Europäischen Union gefördert.

CITlab und PLANET AI bündeln ihre Forschungskräfte seit vielen Jahren und in mehr als fünf großen Forschungsprojekten, die darauf abzielen, den Stand der Technik im Bereich der Künstlichen Intelligenz und des Cognitive Computing zu verbessern.

Gemeinsame Workshops, monatliche CITnet-Kolloquien und regelmäßige Technologiepräsentationen sind einige Beispiele für unsere spannende Zusammenarbeit.



Doctor AI

… ist eine revolutionäre Gesundheitslösung, die fortgeschrittene KI-Technologie nutzt, um die Genauigkeit und Effizienz von MRT-Diagnostikuntersuchungen zu verbessern.

Doctor AI

IRA Spine visualisiert jedes einzelne Ergebnis direkt im Schnittbild des MRTs, zeigt alle Messwerte an und setzt sie grafisch in Beziehung zur Referenzkohorte.

Abweichungen werden durch Ampelfarben gekennzeichnet und in die drei Klassen „unbedenklich“, „Hinweis“ und „Warnung“ eingeordnet.

Die Visualisierung als 3D-Modell im Sinne von „Explainable AI“ unterstützt Ärzt:innen nicht nur bei der Diagnostik, sondern auch in der Kommunikation mit Patient:innen.

Doctor AI

Security Engine

… ist eine Softwarelösung, die KI-gestützte Objekterkennung verwendet, um Röntgenbilder zu analysieren. Die Software dient dazu, bedrohliche Objekte an Flughäfen und weiteren Einrichtungen zu signalisieren.


Immer umfangreichere Listen von Bedrohungen auf mehreren Bildschirmen erschweren manuelle Gepäckkontrollen an Flughäfen oder in Regierungsgebäuden. Unsere Security Engine meistert die Herausforderung, große Mengen an Bildern zu überwachen und auszuwerten. Die Bildklassifikation bestimmt, ob eine Bedrohung vorliegt, während die Objektdetektion die Klasse der Bedrohung selbst erkennt. Neue Kategorien können dank neuronaler Netze leicht angepasst werden.

Öffentlich Geförderte FoschungsProjekte

Öffentlich Geförderte Foschungs-Projekte

Ziel: Entwicklung und Validierung eines radiologischen KI-Assistenzsystems zur Unterstützung der Demenzdiagnose

Laufzeit: 3 Jahre

Partner: DZNE, Institut für Diagnostische und Interventionelle Radiologie, Pädiatrische- und Neuroradiologie, webhub GmbH

Ziel: Echtzeitannotation von multimodalen Endoskopieaufnahmen durch künstliche Intelligenz beim Bauchspeicheldrüsenkrebs, wodurch Tumorzellen während der Untersuchung erkannt und medikamentös behandelt oder direkt entfernt werden können

Laufzeit: 3 Jahre

Partner: PolyDiagnost GmbH, Institut für Diagnostische und Interventionelle Radiologie der Universitätsmedizin Göttingen, Fakultät Ingenieurwissenschaften & Gesundheit der Hochschule für angewandte Wissenschaft und Kunst

Ziel: Ganzheitliche Betrachtung und einheitliche Auswertung von Daten aus mehreren Kontexten (Nutz- und Steuerungsdaten), die bisher meist getrennt gesammelt und verarbeitet wurden

Laufzeit: 3 Jahre

Partner: EvoLogics GmbH, IAV GmbH, Fraunhofer IGD, Universität Rostock, IOW

Ziel: Erweiterung bestehender Umweltüberwachungsverfahren aquatischer Lebensräume um neue, innovative Analyseverfahren auf der Grundlage mikrobieller Nukleinsäuren (16S rRNA Gene) sowie vorliegender Umwelt-Nukleinsäuren (eDNA; 18s rRNA Gene) aus Wasserproben

Laufzeit: 3 Jahre

Partner: Leibnitz-Institut für Ostseeforschung Warnemünde, IOW, LGC Genomics, Hydrobios, Fraunhofer IGD

Ziel: Auswertung bildgebender Verfahren (Röntgen, CT, MRT) mithilfe eines Assistenten mit Fokus auf Thorax-Scans und Reasonable/Explainable AI

Laufzeit: 3 Jahre

Partner: Universität Rostock