OCR-Technologien im Vergleich:

Von Handschriften und Altdrucken zu Datenbankenstrukturen und HTR-Modellen

Das in der digitalen Sprachwissenschaft verankerte Projekt zielt auf die Erarbeitung einer Grundlage für die computergestützte Untersuchung vormoderner lexikographischer Werke und historischer Sprachkontakte im Bereich der Lexik und Begriffsgeschichte ab. Zum Ausbau einer technischen Infrastruktur für die digitale Erfassung mehrsprachiger Wörterbücher (Handschriften und Altdrucke) werden die lexikographischen Daten mit Hinblick auf ihre Verknüpfung in einer Datenbank aufbereitet. Hierzu wird für jede der fraglichen Sprachen (Griechisch, Kirchenslavisch, Lateinisch) ein Lemmatisierer weiterentwickelt und eingesetzt. Gleichzeitig soll der zu untersuchende Datensatz mithilfe der HTR-Tools Transkribus und eScriptorium erweitert werden. In diesem Zusammenhang werden HTR-Modelle trainiert, für weitere automatische Transkriptionen angewandt und im Anschluss veröffentlicht. Parallel werden auch verschiedene OCR-Engines (CITlab HTR+, PyLaia, kraken) evaluiert und ihre Vor- und Nachteile abgewogen. Ein weiteres Ziel bildet das Knüpfen internationaler Kontakte und Kooperationen mit anderen Projekten, die lexikographische Daten sowie ganze Wörterbücher in Datenbanken und Portalen zusammenführen (Gorazd, LiLa, Logeion, Perseus, MLW digital).

Laufzeit: 01.10.2021–31.03.2022