Was bedeutet OCR-Zeichenerkennung? 🔎
Was ist OCR? Die Abkürzung OCR steht für optical character recognition (optische Zeichenerkennung) und bezeichnet eine Technologie zur Texterkennung für digitales Bildmaterial.
Was haben dann z. B. Rechnungen damit zu tun? Eine Rechnung ist ja kein Bild, sondern ein Textdokument. Stimmt – und gleichzeitig auch wieder nicht. Beim OCR-Prozess bei CAYA scannen wir zuvor Unterlagen als Bilddatei ein. Dabei werden z. B. gedruckte Dokumente oder per Hand geschriebener Text ausgelesen und einhergehend mit der Erkennung einzelner Zeichen in eine digitale Form umgewandelt. Dabei kann es sich beim Originaldokument sowohl um einen Text (wie bei einer Rechnung) oder auch um Bildmaterial mit Text handeln (z. B. in Werbegrafiken, Flyern, Prospekten). Das Ursprungsdokument wird zuerst als digitales Image erfasst und im OCR-Vorgang anschließend ausgelesen. Der OCR-Prozess zur Dokumentendigitalisierung und Datenerfassung wird u. a. auch für Passdokumente, Kontoauszüge und Visitenkartendaten genutzt.
Die OCR-Texterkennung und OCR Software ist auch ein Forschungsgebiet der künstlichen Intelligenz (KI) und der Merkmals- (Feature Matching) und Mustererkennung (Pattern Matching). Bei der Datenerfassung, z. B. von Briefen in Papierform wird durch OCR-Software die Dokumentenstruktur analysiert. Dabei wird diese in verschiedene Elemente wie Absender, Betreffzeile und Textkörper unterteilt. Hier kommt eine globale Strukturerkennung im Rahmen einer Layoutanalyse zum Einsatz. Diese kann Textblöcke von Grafikelementen unterscheiden und somit sowohl Zeilenstrukturen als auch einzelne Zeichen erkennen. Das Programm speichert, wo sich welche Inhalte befinden.
Bei der Textkonvertierung werden einzelne, extrahierte Textzeilen in Wörter und darüber hinaus in einzelnen Buchstaben zerlegt. Ein durch einen Scan erzeugtes Bild besteht aus einer Ansammlung von Bildpunkten, so auch bei jedem Buchstaben. Zur optischen Zeichenerkennung werden diese Pixel durch Algorithmen mit einer Reihe von Mustern abgeglichen (Pattern Matching). Dadurch lassen sich einzelne Buchstaben in verschiedensten Typografien definieren. Über die eingescannte Bilddatei wird anschließend wieder eine Textebene mit rechnerinterpretierbaren Zeichen (ASCII-Zeichen) gelegt.
OCR Scan - Korrektes Auslesen von Textinformationen aus Bildmaterial ⚖️
Sowohl Typographie / Schriftart von Briefen, wie auch die Handschrift bei geschriebenen Briefen, unterscheidet sich je Absender stark. Bei der OCR Erkennung von einer Bilddatei muss das korrekte Auslesen der vorhanden Informationen durch die OCR Texterkennungssoftware sicher funktionieren. Dazu findet ein zusätzliches System zur Kontexterkennung „ICR“ (intelligent context recognition) Anwendung. ICR unterstützt hierbei so, dass falsch erkannte Zeichen im Kontext berichtigt werden können. Was heißt das? Beispiel: Es wäre ein Auslesefehler, eine Zahl „8“ anstatt dem Großbuchstaben „B“ auszulesen. Ohne eine ICR-Kontexterkennung würde aus „Bus“ schnell „8us“ werden. ICR sorgt hier für die entsprechende Korrektur. Alternativ wird auch gewährleistet, dass alphanumerische Begriffe wie „8ter“ aus Kontextgründen nicht umgewandelt werden.
Wichtig zu bemerken ist auch, dass die Fehlerkorrektur mit einer steigenden Anzahl von digitalen Textkonvertierungen mit jedem Scan besser wird. Hier greift das sogenannte Machine Learning. Das passiert, da OCR-Technologie sich merkt, wo standardisierte und wiederkehrenden Inhalte (z. B. ein Briefkopf oder ein Rechnungsfeld) platziert sind. Hierdurch wird die Textkonvertierung schnell lernend mit jedem neuen Scan optimiert. Ein weiterer Vorteil von durch OCR-Software digitalisierten Dokumenten ist, dass eine neu erstellte PDF-Datei anschließend durch Volltextsuche auf durchsuchbar ist. Das ist auch bei der CAYADocument Cloud der Fall. In der Dokumentenzentrale lassen sich Dokumente auf Suchbegriffe oder Textpassagen durchsuchen.
Scan als OCR - kein händisches Abtippen mehr ⌨️
Die Digitalisierung von Dokumenten durch OCR Scan steigert die Produktivität von Unternehmen erheblich. Eine automatisierte Datenverarbeitung erleichtert Ihren Arbeitsablauf im Vergleich zur manuellen Eingabe der in Dokumenten enthaltenen Informationen immens. Dokumente sind oft auf alle enthaltenen Begriffe durchsuchbar. Bei der Verknüpfung mit z. B. smarter Buchhaltungssoftware ist oft auch kein manuelles Abtippen in andere Systeme mehr nötig. Bei entsprechender Verknüpfung passiert die Datenübertragung in andere Software automatisch.
Zusätzlich erhöht der Einsatz einer OCR-Lösungen auch unternehmensinterne Sicherheitsstandards. Kostspielige und unsichere lokale Datenspeicherung wird überflüssig, wenn Sie einen GoBD zertifizierten Anbieter wie CAYA als Ihre Dokumentenzentrale wählen.
Automatisch kategorisierte Dokumentenablage dank OCR-Texterkennung 🏷️
Wichtige Information wie Absender oder der Betreff werden beim OCR-Vorgang automatisch erfasst. Dies gilt auch für die Rechnungsverarbeitung, für Daten wie z. B. Rechnungsbetrag, Zahlungsempfänger, IBAN, BIC oder Überweisungszweck.
CAYA klassifiziert eingehende Dokumente automatisch. Dadurch lässt sich ganz einfach z. B. nach Rechnungen filtern. Eine eingehende Rechnung wird auch als solche erkannt (Rechnungserfassung) und entsprechend kategorisiert. Dokumente können außerdem automatisch an die entsprechende Abteilung weitergeleitet werden. Scannen und archivieren wird bei der Rechnungsverarbeitung durch einen automatisch kategorisierten Scan stark erleichtert. Auf dem Weg zum papierlosen Büro wird somit das lästige händische Ablegen von (digitalen) Dokumenten überflüssig.
Generell lassen sich für das papierlose Büro u. a. folgende Vorteile von OCR-Texterkennung ausmachen:
- Zeit- & ortsunabhängiger Dokumentenzugriff
- Erleichterter Zugriff auf Informationen für andere
- Scan als PDF dank Volltextsuche komplett durchsuchbar
- Erhöhte Bearbeitungsfunktionen (u. a. copy & paste Option)
- Automatische Post-Kategorisierung (tagging)
- Digitale, revisionsssichere Dokumentenablage in CAYA Document Cloud
- Möglichkeiten, automatisierte Prozesse an digitalisierte Dokumente anzubinden
OCR-Vorgang als Basis für automatisierte Workflows🖇️
Ein Schritt, der in den Prozessketten des Dokumentenmanagements meist am Anfang steht, ist die Briefpost. CAYA digitalisiert Ihren Posteingang. Dazu leiten wir Ihre Post in Zusammenarbeit mit der Deutschen Post und PIN AG zu einem unserer Scancenter um. Anschließen digitalisieren wir Ihre Post in einem hochautomatisierten Verfahren. Das Digitalisieren des Posteingangs ermöglicht erst, Dokumente in Papierform in den digitalen Prozess einzubinden und beschleunigt deren Bearbeitung.
Eingelesene Rechnungsdaten von Unternehmen können über Integrationen automatisch an die entsprechenden Buchhaltungstools übertragen werden. Rechnungen werden dabei gescannt und über Schnittstellen automatisch in die Masken der Buchhaltungstools eingefügt. Verwaltungsaufgaben wie Abtippen entfallen. Verknüpft mit der passenden Abrechnungssoftware werden eingelesene Daten automatisch in die Programme eingepflegt. In der Regel muss nur noch geprüft und bestätigt werden. Zuständige Mitarbeiter erhalten nur noch im Überwachungsprozess alle Daten für eine endgültige Entscheidung (decisionready). Das schafft Entlastung, sodass Sie den Fokus auf wertschöpfende Tätigkeiten richten können. Rechnungen können darüber hinaus auch online über das CAYA-Konto mit nur wenigen Klicks bezahlt werden. Die Zahlung erfolgt als SEPA-Überweisung direkt vom Konto.
Übrigens: Wir haben einen Ratgeber für die Auswahl von Buchhaltungssoftware entwickelt.💻 Ob Sie eine All-in-One-Software oder eine spezialisierte Softwarelösung bevorzugen: 💳 Mithilfe unseres Vergleichs (inkl. Experten-Interviews) finden Sie das passende Tool für Ihre Buchhaltung. ✔️
Bestehende Papierarchive jetzt digitalisieren 🗄️
Haben Ihr Unternehmen noch viele Papierdokumente in Ihren Aktenschränken archiviert? CAYA scannt auf Wunsch Ihr papierbasiertes Archiv und stellt Ihnen anschließend Ihre Unterlagen digital und revisionssicher zur Verfügung. Sprechen Sie bei Bedarf mit unseren Digitalisierungsexperten auf individueller Basis und lassen Sie Ihre Unterlagen einscannen. Durch eine Digitalisierung Ihrer Unterlagen schützen Sie diese vor Verlust oder Beschädigung und sorgen dafür, dass diese revisionssicher in der Cloud abgelegt sind.