Digitalisierung

Aus Pedocs
Wechseln zu: Navigation, Suche

1 Arbeitsschritte bei der Digitalisierung

1.1 Scannen

Zunächst wird die Vorlage durch einen Scan erfasst. Dabei ist zu beachten, dass die Qualität der Digitalisate zwar zu einem sehr großen Teil von der Beschaffenheit der Vorlage abhängt, jedoch ebenfalls von der Qualität des verwendeten Scanners. Am fortgeschrittensten, aber auch am kostenintensivsten sind für diesen Vorgang derzeit Aufsichtsscanner.
Da es sich bei den für pedocs zu digitalisierenden Dokumenten in der Regel um Vorlagen im DIN A 5 bzw. max. DIN A 4-Format handelt, bei denen keine erhöhte Schutzwürdigkeit in dem Sinne vorliegt, dass eine Belastung des Einbandes bzw. der Vorlage durch UV-Licht und Wärme vermieden werden muss, kann der Flachbettscanner des hauseigenen Multifunktionsgeräts (MP C 2500, von nashuatec) genutzt werden.
Bei den Anforderungen an den Scan ist zum einen das Dateiformat, zum anderen die Auflösung zu beachten. Außerdem muss entschieden werden, ob die Digitalisierung in Schwarz-Weiß, Graustufen oder Farbe erfolgen soll.

  • a) S/W oder Farbe: Die für pedocs relevanten Texte enthalten fast ausnahmslos Schrift bzw. wenige Tabellen oder Grafiken. Daher kann auf einen Farb-Scan, der große Datenmengen erzeugen würde, verzichtet werden. In der Regel wird also in schwarz-weiß, bei Texten, die mit Fotos illustriert waren, mit dem Modus „s/w lineart bzw. Foto“ digitalisiert.
  • b) Auflösung: Der Wert 300dpi hat sich als ein Standard für Digitalisate in Graustufen herausgestellt und wird auch für pedocs-Dokumente benutzt, nachdem ein Vergleich der OCR-Fehlerrate bei den Auflösungen 300dpi und 600dpi nur minimale Unterschiede bei einer allerdings viermal größeren Datenmenge zeigte. Es ist in der Regel nur bei besonders kleinen Schriften nötig, eine bis zu doppelt so hohe Auflösung zu wählen.
  • c) Dateiformat: In die engere Auswahl möglicher Dateiformate für Digitalisate fallen JPEG, PNG und TIFF. Aufgrund der jeweiligen Vor- und Nachteile akzeptiert die Deutsche Forschungsgemeinschaft (DFG) in den von ihr geförderten Projekten die Formate JPEG und PNG lediglich als Bereitstellungsformate. Bestätigt durch die DFG-Richtlinien, die das TIFF-Format für die Langzeitarchivierung empfehlen, werden Scans innerhalb des Projekts pedocs in diesem Format (Multipage-TIFF, verlustfreie Komprimierung) erstellt.


1.2 OCR-Erkennung

Nachdem die durch den Scan erzeugten Bilder in einem Zwischenschritt beschnitten und ausgerichtet worden sind, werden sie mit Hilfe des automatisierten Schrifterkennungsverfahrens OCR (Optical Character Recognition) bearbeitet, damit sie in durchsuchbare Volltexte umgewandelt werden können. Das Problem dabei ist die Fehleranfälligkeit, die jede automatisierte Texterkennung aufweist. Diese wird stark von der Qualität der Vorlage bzw. des Scans beeinflusst. Große Probleme bereiten beispielsweise Scans von zerknittertem oder beschädigtem Papier, das vergilbt, verblasst oder fleckig sein kann und im schlimmsten Fall von Text, der handschriftliche Anmerkungen (Unterstreichungen, Anmerkungen am Rand) enthält. Auch mehrspaltige Texte insbesondere mit Tabellen, Grafiken oder Bildern können für Schwierigkeiten bei der Texterkennung sorgen. Während beispielsweise Schreibmaschinenschrift normalerweise leicht und überdurchschnittlich sicher zu erkennen ist, hat OCR-Software erfahrungsgemäß größere Probleme mit der Erkennung von Proportional- oder Designerschriften. In diesen Fällen sollte also ein höherer Nachbearbeitungsaufwand einkalkuliert werden, um die Fehlerquote zumindest zu reduzieren. Be- und anerkanntermaßen ist ganz ohne intellektuelle Nachbearbeitung lediglich eine Fehlerfreiheit von maximal 98-99% möglich. Als wirtschaftlich bzw. wissenschaftlich nutzbar wird der Einsatz von OCR angesehen, wenn die Erkennungsgenauigkeit bei ca. 99,5-99,9% liegt, was jedoch praktisch nur bei manueller Nachkorrektur erreichbar ist. Für eine solche dürften jedoch nur in äußerst seltenen Fällen Kapazitäten vorhanden sein. Aus diesen Gründen beschränkt sich auch pedocs in der Regel auf ein sogenanntes „schmutziges OCR“. Damit ist gemeint, dass die erstellten Volltexte keinen Anspruch auf Fehlerlosigkeit erheben können, worauf in den Verträgen hingewiesen wird. Vor diesem Hintergrund sollte jedoch einige Energie für die Auswahl einer geeigneten OCR-Software verwendet werden, da es auch in diesem Bereich zu unterschiedlichen Resultaten hinsichtlich der Erkennungsrate kommen kann. Es empfiehlt sich daher, Tests und Versuche mit unterschiedlichen Programmen durchzuführen und auf diese Weise zu eruieren, welches Produkt bzw. welcher Modus die besten Resultate liefert. Auf diese Weise kann zumindest ein Arbeiten auf aktuellstem und höchstem Niveau gewährleistet werden. Nach Versuchen mit der Texterkennungsleistung der Software Acrobat 7.0 bzw. 7.0 extended der Firma Adobe sowie von Omnipage 16.0 (Nuance Communications) fiel die Wahl schließlich auf die aktuellste Version des ABBYY FineReader (Abbyy FineReader 10 Professional Edition). Dieses Programm wird auch von dem externen Dienstleister genutzt, den pedocs mit der Digitalisierung größerer Konvolute beauftragt hat. pedocs kann auf diese Weise eine Fehlerfreiheit der Volltexte von ca. 98,5-99,8% erzielen.


1.3 Abspeichern als PDF/A

Nach der Volltexterkennung kann das Digitalisat in unterschiedlichen Modi als PDF bzw. PDF/A abgespeichert werden Es gibt erstens die Möglichkeit, dass der erkannte Volltext das sichtbare Schriftbild ersetzt (Acrobat-Modus „formatierter Text & Grafik“). Es bietet sich jedoch an das Originalschriftbild zu erhalten und das OCR-Ergebnis auf einer unsichtbaren Ebene hinter dem angezeigten Bild abzulegen (Acrobat-Modus „Durchsuchbares Bild (exakt)“. Auf diese Weise sieht man den Scan als Faksimile, während der Volltext im Hintergrund abgelegt maschinell recherchierbar ist. Dies hat den Vorteil, dass mögliche Fehler in der OCR-Erkennung sich nicht im Textbild widerspiegeln. Dem Nutzer wird der Text, so wie er sich in der Vorlage findet, unverfälscht und authentisch zur Verfügung gestellt. In der Variante PDF/A ist das offene und weit verbreitete PDF-Format inzwischen einer der Standards für digitale Archivierung. Insbesondere im Hinblick auf Erfordernisse der Langzeitarchivierung achtet pedocs darauf, möglichst alle Dokumente als PDF/A-1b zur Verfügung zu stellen, da in diesem Format mehr Metadaten enthalten bzw. bereits eingebettet sind als im einfachen PDF-Format. Dies bringt allerdings mit sich, dass sich das Volumen mancher Dateien nach einer Konvertierung in das PDF/A-Format um das vier- bis zehnfache erhöht. Bei besonders großen Dokumenten kann dies leicht zu Problemen beim Up- und Download führen. Das Abspeichern in PDF/A wird bei pedocs mit der Software Acrobat 9 Pro durchgeführt, ebenso die letzten Schritte der Endbearbeitung: die Angleichung der PDF-Paginierung mit der Seitenzählung des Dokuments sowie die Optimierung des PDF durch eine verlustfreie oder –arme Komprimierung. Das von pedocs angestrebte Zielformat ist also ein volltextdurchsuchbares PDF/A mit verlustfreier Kompression in 300dpi.


2 Probleme

2.1 Verlagsversionen

Bei der Digitalisierung bereits veröffentlichen Materials wird in der Regel auf die Verlagspublikation als Vorlage zurückgegriffen. Dies birgt jedoch ein Problem: Durch die einfache Übertragung der Online-Nutzungsrechte durch den Autor erhält ein Dokumentenserver zwar das Recht zur Open Access-Veröffentlichung eines bestimmten Textes, nicht jedoch das Recht an der bereits beim Verlag erschienenen optischen Gestaltung dieses Textes. Rein rechtlich darf also das Werk nicht im vom Verlag urheberrechtlich geschützten Layout vervielfältigt und verbreitet werden (es sei denn der Verlag ist damit einverstanden) sondern das Digitalisat muss, sofern der Autor nicht seinerseits eine digitale (Vor )Version seines Dokuments liefern kann, wieder auf den reinen Text reduziert werden (OCR). Dies hat pedocs zunächst versucht zu beherzigen. Allerdings bringt ein solches Vorgehen einen deutlichen Mehraufwand mit sich und gefährdet im Zweifelsfall auch die Authentizität und damit die Zitationssicherheit des Dokuments, da der Text auf diese Weise nicht in dem oben beschriebenen Verfahren (gescanntes Bild als Oberfläche, OCR-Text als Hintergrund) abgebildet werden kann, sondern der durch OCR erzeugte Text bildet die Oberfläche. Zudem müssen Seitenumbrüche künstlich markiert werden. Da inzwischen auch in der Rechtsprechung unterschiedliche Auslegungen und Ansichten zur Problematik der Schöpfungshöhe eines Verlagslayouts verhandelt und kontrovers diskutiert werden, haben sich die pedocs-Bearbeiterinnen und -Bearbeiter inzwischen darauf beschränkt, lediglich deutliche Layout-Darstellungen zu eliminieren und reine Textseiten, bei denen die gestalterische Eigenleistung des Verlags als gering einzustufen ist, unbearbeitet zu lassen.

2.2 Barrierefreiheit

Nach der Hessischen Verordnung über barrierefreie Informationstechnik (HVBIT) ist eine barrierefreie Gestaltung von Internetseiten und Dokumenten in Repositorien die Teil von Internetauftritten öffentlicher Einrichtungen in Hessen sind, verpflichtend. Dazu zählt auch das DIPF. Um die im Zuge von Digitalisierungen erzeugten PDF-Dateien in jeder Hinsicht barrierefrei zu gestalten, sind aufwändige händische Bearbeitungen nötig, wie z.B. die Auszeichnung von Strukturelementen, Abbildungen und Tabellen durch das Einarbeiten sogenannter Tags und das Verfassen von Textbeschreibungen von Abbildungen. Diesen Anspruch zu verwirklichen wurde zu Beginn des pedocs-Projekts angestrebt. Jedoch zeigte sich in der Praxis schnell, welch unverhältnismäßiger Aufwand damit verbunden ist. Zu unserem eigenen Bedauern mussten wir daher von der gesetzlichen Möglichkeit in §2 Abs. 2 HVBIT Gebrauch machen und von einem vollständig barrierefreien Angebot absehen. Die Verpflichtung dem Drittmittelgeber gegenüber die gesteckten Projektziele zu erreichen erforderten eine zeitliche Obergrenze für die Nachbearbeitung von Dokumenten. Dadurch war es nicht in jedem Fall und in vollem Umfang möglich, einzustellende Texte wie gesetzlich gefordert zu behandeln.

2.3 Validierung der erzeugten PDFs

Die Validierung der im Rahmen des pedocs-Projekts erzeugten PDF-Dateien ist stellenweise problematisch. Mit Hilfe des Validierung-Tools JHOVE (Version 1.5) wird jede PDF-Datei, die auf den Dokumentenserver eingestellt wird, auf Validität und Wohlgeformtheit überprüft. In vielen Fällen ist nicht nachvollziehbar, warum eine Datei als nicht valide eingestuft wird. Die Fehlermeldungen lassen nicht in allen Fällen eine Ursachenklärung zu, die eine gezielte Fehlerbehebung erlaubt Zudem konnte beobachtet werden, dass eine als valide und wohlgeformt geprüfte PDF-Datei allein durch das Öffnen auf einem anderen Rechner zu einer nicht-validen Datei wurde. Die bisherige Erfahrung zeigt, dass das Konvertieren in PDF/A-1b in den meisten Fällen die Validität der Datei gewährleistet. Auf der anderen Seite wurden aber auch Verzerrungen des Schriftbilds in Folge einer PDF/A-Konvertierung beobachtet, die durch ein Umstellen des Konvertierungsmodus (keine Korrekturen durchführen) in den meisten Fällen dann wieder vermieden werden konnten. Dateien im Format PDF/A-1a können mit dem derzeit zur Verfügung stehenden Validierungs-Tool JHOVE nicht validiert werden (vgl. http://hul.harvard.edu/jhove/pdf-hul.html, 5.1 Profiles, PDF/A). Daher werden in pedocs die Dateien in das Format PDF/A-1b konvertiert. Insgesamt zeigt sich immer mehr, wie komplex sich dieser Problembereich darstellt, so dass für nähere Erforschungen der Zusammenhänge und der Entwicklung von Lösungsstrategien eigentlich ein eigenes Projekt initiiert werden müsste.


3 Fazit

Digitalisierung bedeutet in jedem Fall einen enormen und nicht zu unterschätzenden Aufwand an Arbeitskraft! Es ist immer zu empfehlen, auf digitale Volltexte zurückzugreifen, anstatt selbst Digitalisate anzufertigen. Lässt es sich nicht vermeiden, dürfte sich die Inanspruchnahme eines externen Dienstleisters für diese Zwecke besonders bewähren, wenn die nötige Ausstattung oder die personellen Ressourcen im eigenen Haus fehlen. Selbstverständlich muss vorher geklärt sein, ob und von welcher Seite die dabei anfallenden Kosten zu tragen sind. Innerhalb des Kooperationsmodells, in dem Digitalisate von Verlagsveröffentlichungen zur Bereitstellung in Open Access angefertigt werden, konnte beispielsweise schon erfolgreich mit Verlagen über eine Aufteilung der Kosten verhandelt werden. Bei Inhouse-Digitalisierungen ist darauf zu achten, eine möglichst aktuelle und bewährte Scan- und OCR-Soft- bzw. -Hardware zu verwenden, da neben der Qualität der Vorlage, die sich selten beeinflussen lässt, diese ebenfalls einen deutlichen Einfluss auf das Endresultat haben kann. Es ist abzuwägen, ob sich die Anschaffung eines Hochleistungs-Scanners lohnt, indem man die Resultate von bereits vorhandenen Multifunktionsgeräten hinsichtlich der Erfüllung der Ansprüche an einen Digitalisierungsscan überprüft. Auch im Hinblick auf die Bearbeitung und Optimierung der Digitalisate ist das Verhältnis von Aufwand und Ergebnis im Auge zu behalten.
(Stand: Juni 2011)

Meine Werkzeuge