Dem PDF Wildwuchs Herr werden

2. Mai 2024 von Astute Redaktion

Es ist generell eine gute Idee, alle in einem Unternehmen, einer Behörde oder einer ähnlichen Institution verfassten PDF-Dokumente in einem Druckzentrum oder bei einem professionellen Druckdienstleister produzieren zu lassen. Aber PDF-Dokumente können auf unterschiedlichste Art und Weise erzeugt und Informationen darin hinterlegt werden. Alle können sich durch den inneren Aufbau voneinander unterscheiden. Wie kann damit eine einheitliche PDF-Verarbeitung realisiert werden, wenn unter anderem die Adresse ausgelesen werden soll?

PDF Normierung durch OCR Lesung

Natürlich können PDF-Dokumente in einem Druckzentrum oder bei einem professionellen Druckdienstleister effektiver und professioneller produziert und günstiger versendet werden als mit Bürodrucker und Poststelle.

Aber wie soll eine einheitliche PDF-Verarbeitung aussehen, die unter anderem das Auslesen der Postleitzahl aus der Adresse beinhaltet, wenn alle PDFs unterschiedlich sein können? Von unterschiedlichen PDF-Generatoren, unterschiedliche Schriftarten und Größen, Zeilenabstände und Positionen? Aber auch unterschiedlich in der inneren Struktur der Dokumente: Mal ist die Adresse komplett als Textblock positioniert, dann zeilenweise oder sogar auch zeichenweise. Mal in Klarschrift, mal codiert.

Klassisch würde man versuchen, für jedes PDF „Quelle“ festzulegen, wie in unserem Beispiel die Postleitzahl gefunden werden kann. Dazu kommt noch, dass man jedes Dokument seiner Quelle zuordnen muss. In einem Unternehmen, einer Behörde oder einer ähnlichen Institution kann die Anzahl der PDF-Quellen schnell dreistellig werden, dazu würde sich der „Zoo“ der PDF-Generatoren wahrscheinlich täglich ändern.

Also warum machen wir es nicht so, wie ein Mensch die Aufgabe lösen würde? Ein Mensch könnte all die Adressen lesen, sie ordentlich auf einen Zettel schreiben und diesen über die originale Adresse kleben. So hätte jedes PDF-Dokument – egal welchen Ursprung – ein genormtes Adressfeld und könnte mit einer einheitlichen PDF-Verarbeitung weiter verarbeitet werden.

Exzellente Qualität durch KI Learning

Mit dem hauseigenen Workflow Tool wird der eigentlichen PDF-Verarbeitung eine Vorverarbeitung vorgeschaltet. Zunächst wird von der ersten Seite eines jeden Dokuments ein Bild erstellt. Aus diesem Bild wird dann ein kleineres JPEG mit dem Bereich der Adresse herausgeschnitten, auf dem denn durch eine OCR Lesung die Adressdaten herausgelesen werden.

In dem originalen Dokument wird die ursprüngliche Adresse mit einem weißen Rechteck abgedeckt. In diesen nun weißen Bereich wird mit den Daten aus der OCR Lesung für alle Dokumente einheitlich die Adresse neu hineingeschrieben. Einheitlich in Position, Schriftart und Schriftgröße.

Die Qualität dieser PDF-Normierung hängt ausnahmslos von der Qualität der OCR Lesung ab. Hier entschied man sich bei Astute Technology für eine KI basierten Ansatz. Mithilfe künstlicher Intelligenz wird die OCR Lesung auf die vorkommenden Adressvarianten trainiert und verbessert sich selbstständig immer weiter.

So wird eine Qualität und eine Geschwindigkeit erreicht, sodass diese Art der PDF-Normierung selbst im hochvolumigen Transaktionsdruck hervorragend geeignet ist.