Zum Verfahren der Digitalisierung und Artikelerkennung:

  • Die Zeitungsseiten werden verzerrungsfrei mit einer Auflösung von 300 dpi bezogen auf das Originalformat gescannt.
  • Im zweiten Schritt werden die Seiten bearbeitet (gesäubert, geradegerichtet, auf Format beschnitten).
  • Im dritten Schritt erfolgt die OCR. Hier werden die Texte in eine maschinenlesbare Form gebracht. Eine korrekte Spalten- und Texterkennung ist für die weitere Verarbeitungsqualität ausschlaggebend.
  • Die OCR erkennt nicht immer die Zusammengehörigkeit der Artikelelemente. Hier kommt eine Software zum Einsatz, die über eine semantische und typografische Analyse die Artikelelemente wie Titel, Untertitel, Vorspann, Text usw.erkennt und in der richtigen Reihenfolge zusammengeführt, auch wenn sich ein Artikel über mehrere Seiten erstreckt.