Weniger hält länger Langzeitarchivierung mit dem ISO-Standard PDF/A

Ordnungsmerkmale

erschienen in: <kes> 2007#3, Seite 54

Rubrik: Management und Wissen

Schlagwort: Langzeitarchivierung

Schlagwort-2: PDF/A

Zusammenfassung: Wie man PDF-Dokumente so erstellt, dass sie auch noch in vielen Jahren lesbar sind, beschreibt ISO 19005-1. Welche Prinzipien, Randbedingungen und Werkzeuge dabei zum Einsatz kommen, beschreibt dieser Beitrag.

Autor: Von Roberto Nagel und Roy Grunewald, Bielefeld

Ende September 2005 hat die International Organization for Standardization (ISO) einen neuen Standard für die Regelung der Archivierung elektronischer Dokumente verabschiedet: ISO 19005-1 [1] definiert "ein Dateiformat basierend auf PDF, genannt PDF/A, welches einen Mechanismus zur Verfügung stellt, um elektronische Dokumente auf eine Weise darzustellen, sodass das visuelle Erscheinungsbild über die Zeit erhalten bleibt, unabhängig von den Werkzeugen und Systemen zur Herstellung, Speicherung und Reproduktion".

Mit der steigenden Verwendung digitaler Archivierung rückt naturgemäß auch die Frage nach dem zu speichernden Format in den Vordergrund. Viele Dateiformate sind abhängig von einem spezifischen Hersteller – damit verbunden ist das Risiko, dass dieser seine Schwerpunkte verlagert oder vollständig vom Markt verschwindet. Schon mit fehlendem Support wäre eine Nutzung gesicherter Daten eventuell nicht oder nur eingeschränkt möglich.

Eine übliche Option ist daher die Archivierung in Form von Bilddateien, denen aufgrund der breiten Unterstützung durch viele Anbieter eine längere "Lebenserwartung" zugemessen wird. Die verwendeten Formate wie JPG oder TIFF G4 haben aber den gravierenden Nachteil, dass keine Volltextsuche in den als Bildpixeln abgelegten Dokumenten möglich ist. Ein effektives und zeitgerecht arbeitendes Dokumenten-Management ist damit kaum durchführbar.

Parallel dazu hat sich das Portable Document Format (PDF) von Adobe als Defacto-Standard etabliert, wenn es darum geht, Dokumente in ihrer "ursprünglichen" Form zu speichern und zu verteilen (Layout-Treue). Laut Adobe liegen etwa zehn Prozent aller Dokumente im Internet in PDF vor; so gut wie jeder PC ist mit dem Adobe Reader ausgerüstet. PDF ist zwar ebenfalls von einem einzelnen Hersteller spezifiziert worden, aber plattformübergreifend konzipiert und offengelegt.

PDF findet als Dateiformat außer für den Informationsaustausch und die hausinterne Speicherung auch Anwendung für die Output-Erstellung im Hochvolumenbereich, für digitale Dokumente mit Schutz- und Formular-Funktionen sowie für die Langzeitarchivierung. Neben seiner großen Verbreitung beruht die Attraktivität von PDF nicht zuletzt auf folgenden Vorzügen:

Im Laufe der Zeit hat Adobe das Dateiformat häufig angepasst und in immer schneller werdender Folge um zusätzliche Funktionen erweitert (vgl. [2]) – beispielsweise von der Unterstützung neuerer Image-Formate (JPG, CAD, 3D), über die Einbindung von Metadaten und die Erweiterung in Richtung elektronischer Formulare bis hin zur Implementierung von Berechtigungen und JavaScript. Für diese neuen Eigenschaften wurden jeweils neue Versionen des Adobe Readers und der PDF-Spezifikation veröffentlicht. Als Folge der zunehmenden Anzahl zu archivierender PDF-Dateien und einer drohenden Inkompatibilität entstand gleichzeitig aber die Besorgnis, dass neuere Versionen des Readers irgendwann einmal alte PDF-Dateien nicht mehr unterstützen werden.

----------Anfang Textkasten----------

Zweigleisige Archive

Mit Blick auf die Zukunft setzt sich hinsichtlich der Archivierung von Dokumenten allmählich der Gedanke durch, dass es durchaus sinnvoll sein kann, mehrere Archiv-Verfahren für unterschiedliche Zielsetzungen einzurichten: Ein System erfüllt dann (vorrangig) die gesetzlichen Anforderungen an eine revisionssichere Archivierung und verwaltet beispielsweise Dokumente als einzelne Objekte zusammen mit den jeweiligen Ressourcen via PDF/A. Dieses "gesetzliche Archiv" lässt sich als Domäne der Hersteller von umfangreichen Enterprise-Content-Management-Systemen (ECM) ausmachen.

Daneben könnte ein zweites, "operationelles" Archiv (OA) existieren, das sich (stärker) an den jeweiligen Geschäftsanforderungen orientiert – beispielsweise der raschen Wiedergabe auch bei extrem hohem Dokumenten-Aufkommen und gleichzeitig vielen (Internet-)Benutzern. Ein solches Archiv ließe sich deutlich schneller konfigurieren und in bestehende Systeme und Abläufe integrieren. Außerdem sind ohne die spezifischen Anforderungen der Langzeitarchivierung (auch kurzlebige) Anpassungen an neuere technische Entwicklungen vergleichsweise unproblematisch.

Operationelle Archive arbeiten entweder auf der Basis originaler (Druck)-Datenströme oder konvertieren diese in geeignetere Dateiformate, um eine schnelle (Web-)Wiedergabe zu erreichen. So können beispielsweise große Druckdateien intakt bleiben und hoch komprimiert werden, um die Investitionen für Speichermedien in Grenzen zu halten. Zur Wiedergabe sind solche Archive dann schnell genug, um das angefragte Dokument in Echtzeit in das jeweilige (Web-)Wiedergabeformat zu konvertieren.

----------Ende Textkasten----------

Von PDF nach PDF/A

In relativ kurzer Zeit wurde daher ein Standard entwickelt, der auf Adobes PDF-Spezifikation 1.4 von November 2001 basiert [3]: PDF/Archive (kurz "/A"). Hierzu ist eine mehrteilige Standardreihe angelegt: Bislang ist jedoch nur PDF/A-1 (Part 1) verabschiedet, der die Nutzung von PDF und die Übereinstimmungsgrade PDF/A-1a und PDF/A-1b definiert. Beide Konformitätslevel stellen sicher, dass sowohl Text als auch der übrige Seiteninhalt korrekt angezeigt werden. Der weiter gehende Level 1a enthält zusätzlich in Form von Metadaten Informationen über den Inhalt und die Dokumentenstruktur. PDF/A ist damit das erste international standardisierte Format, das den Anforderungen der Langzeitarchivierung Rechnung trägt.

PDF/A ist aber letztlich nur ein Teil einer vollständigen Archivierungslösung und garantiert alleine keine taugliche Langzeitarchivierung. Das Dateiformat PDF/A muss vielmehr in eine Archiv-Strategie eingebettet sein, die sich an den jeweiligen gesetzlichen und branchenspezifischen Regelungen orientiert und auch die Speichermedien berücksichtigt, die hinreichend lange Archivzeiträume unterstützen müssen.

Hinzu kommen – unter dem Stichwort Compliance – auch organisatorische Aspekte. Der Umgang mit Informationen muss transparent sein, auch wenn es digitale und vielleicht wenig dynamische Archive betrifft. Dazu gehören beispielsweise unternehmensweite Standards und Prozeduren, verlässliche Datenquellen, Qualitätsmanagement und spezifische, auf den Anwendungszweck zugeschnittene Anforderungen. Letztlich ist auch eine Migration bestehender Papier- oder TIFF-Archive nach PDF/A keine unbedeutende Aufgabe und muss deshalb sorgfältig geplant werden.

Der Standard selbst ist sehr technisch und wohl nur für Experten mit fundiertem Wissen über Seitenbeschreibungssprachen wirklich verständlich. Allein die PDF-Referenz 1.4 umfasst fast rund 1000 Seiten. Um den Anforderungen der Langzeitarchivierung gerecht zu werden, schränkt PDF/A im Sinne von Vollständigkeit, Eindeutigkeit, Zugänglichkeit sowie Erschließung der Daten einige kritische Wahlmöglichkeiten im PDF ein, die möglicherweise dazu führen könnten, dass Dokumente nach längeren Zeiträumen auf dem einen oder anderen System überhaupt nicht oder zumindest nicht mehr originalgetreu darstellbar wären. Im Einzelnen:

Durch die genaue Beschreibung von verpflichtenden, erlaubten und verbotenen Funktionen in PDF/A ist ein Dateiformat entstanden, das der Adobe Reader garantiert unterstützt – jetzt und auch zukünftig. Aus den Restriktionen ergeben sich einerseits relativ einfach zu lösende technische, aber andererseits auch – teilweise komplexe – organisatorische Veränderungen: Das kann beispielsweise die Verwendung von Zeichensätzen sowie neue notwendige Zugriffsregelungen im Archiv betreffen, da die Dokumente selbst keine Schutzfunktion mehr aufweisen dürfen.

Ein Schlüsselfaktor für die Reproduzierbarkeit von PDF/A-Dokumenten ist die angesprochene Vollständigkeit, also dass alle notwendigen Informationen im Dokument selbst enthalten sind. Dies umfasst sichtbaren Inhalt wie Texte, Vektorgraphiken, Rasterbilder, Schriftarten, Farbräume und vieles mehr. Ein PDF/A-Dokument darf weder direkt noch indirekt auf externe Quellen angewiesen sein (z. B. Verbindungen zu Bildern im Netz oder nicht-eingebettete Schriften).

PDF/A-Tools

Seit etwa Mitte 2006 sind Werkzeuge zur Erzeugung, Verarbeitung und Validierung von PDF/A-Dokumenten erhältlich. Adobe selbst hat entsprechende Funktionen in die im Herbst 2006 erschienene Version 8 von Adobe Acrobat integriert. Auch Microsoft stellt beispielsweise für das Office-2007-Paket ein (separat herunterzuladendes) Plug-in bereit, um PDF/A-konforme Dateien direkt aus Office-Programmen heraus erzeugen zu können. Angesichts etlicher bereits erschienener Produkte ist es mittlerweile sehr wichtig geworden, die jeweils erstellten Dokumente bezüglich ihrer einwandfreien PDF/A-Konformität zu überprüfen. Gerade eingehende PDF/A-Dokumente sollte man mit einem entsprechenden Software-Tool prüfen, bevor sie in das eigene Archiv aufgenommen werden.

Außerdem kann PDF/A eine interessante Option für die Langzeitarchivierung von Transaktionsdokumenten sein: Viele Softwarehersteller aus den Bereichen Dokumenten- und Output-Management unterstützen PDF/A. Dabei handelt es sich vor allem um Systeme zur Erstellung von Dokumenten, zu Datenstrom-Konvertierung sowie -Transformation und Workflow-Management. Diese Werkzeuge ermöglichen beispielsweise, den Output aus ERP-Systemen nach PDF/A umzuwandeln und so für eine Langzeitarchivierung vorzubereiten.

Auch im Hochvolumenbereich sind PDF/A-Werkzeuge verfügbar: Hierdurch können etwa Dokumente aus Druckdateien im Output-Zentrum nach PDF/A umgewandelt und digital archiviert werden. Document Dialog liefert beispielsweise eine Lösung, mit der XML-Dateien für die Archivierung umgewandelt werden können.

Fazit

PDF/A könnte nach Meinung der Autoren zu einem der wichtigsten Standards für die Archivierung werden. Es ist eine bedeutende Entwicklung, dass Adobe sich auf Initiative von Anwendergruppen für einen neuen PDF-Standard einsetzt, der alle diesbezüglichen Anforderungen erfüllt. Dokumente werden dadurch langfristig sicher darstellbar – ungeachtet der Lösungen und Systeme, die für ihre Erstellung, Archivierung und Speicherung verwendet werden. Hierzu hat sich eine Anbieter-Allianz für sichere Langzeitarchivierung gegründet, die als PDF/A Competence Center auftritt [4]. Ihr Ziel ist die langfristige Etablierung von PDF/A als freier ISO-Standard im Dokumenten-Management, der auch im Jahr 2100 noch sicheren Zugriff ermöglichen soll.

Jedoch garantiert – wie bereits angesprochen – die Anwendung von PDF/A allein noch keine taugliche Langzeitarchivierung. Wo eine entsprechende Expertise hausintern fehlt, sollte man erwägen externe Experten hinzuzuziehen, um die PDF/A-Anforderungen zu verstehen und daraus eine unternehmensweite Archivierungsstrategie herzuleiten.

Roy Grunewald ist Sales Manager, Roberto Nagel ist technischer Direktor beim Softwareintegrator Document Dialog.

Literatur

[1]
ISO 19005-1:2005, Document management – Electronic document file format for long-term preservation – Part 1: Use of PDF 1.4 (PDF/A-1), erhältlich über [externer Link] www.iso.org
[2]
Adobe PDF Technology Center, PDF Reference, [externer Link] www.adobe.com/devnet/pdf/pdf_reference.html
[3]
Adobe, PDF Reference, Third Edition, version 1.4, Addison-Wesley, ISBN 0-201-75839-3 – oder als PDF-Datei [externer Link] www.adobe.com/devnet/pdf/pdfs/PDFReference.pdf
[4]
PDF/A Competence Center, Homepage, [externer Link] www.pdfa.org