Langzeitarchivierung

Aus edlex
Wechseln zu: Navigation, Suche

Unter dem Begriff (digitale) Langzeitarchivierung versteht man Methoden und Technologien zur Aufbewahrung und zum Erhalt digitaler Daten mit dem Ziel der authentischen, dauerhaften Verfügbarkeit und Nutzbarkeit von Informationen, unabhängig von Herausforderungen des technologischen Wandels und über Format-, Soft- und Hardwaregrenzen hinweg. Der Begriff steht in der Nähe zum Begriff Konservierung bei analogen Materialien. Im englischsprachigen Raum wird deshalb von „digital preservation“ gesprochen.

Langzeitarchivierung ist nicht mit dem im deutschsprachigen IT-Bereich gebräuchlichen Begriff Archivierung zu verwechseln, der eine langfristige Speicherung von Daten auf separaten Datenträgern (Backup) meint. Backups sind format- und systemgebunden und deshalb einem „natürlichen“ Verfall anheim gestellt (Material und Technologie).

=Explikation?

Der Fokus der Langzeitarchivierung auf der authentischen Bewahrung von digitalen Objekten jeglicher Art, seien es digitale Faksimiles von Archivalien oder genuine Born-digitals wie Textdateien, elektronische Bücher und Zeitschriften, Datenbanken, Forschungsdaten, E-Mail oder ganze Websites, wie z. B. Digitale Editionen. Im Gegensatz zur analogen Archivierung und Bestandserhaltung, bei welchen die Methoden und Verfahren lange erprobt und verbessert sind, müssen im digitalen Bereich neue Strategien entwickelt werden. Hier hat sich auch das Verhältnis geändert: Sind analoge Objekte meist schwieriger in der Herstellung und mit einfachen Methoden zumindest grundlegend zu bewahren, so lassen sich im Gegensatz dazu digitale Objekte schnell und in Masse produzieren - die Techniken und Verfahren zur Langzeitarchivierung sind hier jedoch weitaus komplexer zu erstellen und anzuwenden.(1)


Grundideen

Angelehnt an die Grundpfeiler der IT-Sicherheit müssen bei digitalen Daten verschiedene Mechanismen greifen, um sicherzustellen, dass die durch die Daten repräsentierten Informationen nicht verändert oder beschädigt wurden. Nur wenn die Authentizität garantiert ist, kann sich ein digitales Archiv vertrauenswürdig nennen. Diese wären:
  • Authentizität: Garantie der Echtheit von Informationen und Daten und eines persistenten Zugangs zu den Objekten
  • Integrität: Garantie der Unversehrtheit von Informationen und Daten
  • Zugänglichkeit: Garantie der Verfügbarkeit von Informationen und Daten
  • Vertraulichkeit: Garantie, dass unberechtigten Dritten kein Zugriff auf die Informationen und Daten gewährt wird.(2)

Herausforderungen der digitalen Langzeitarchivierung

Im Gegensatz zur analogen Archivierung tritt beim digitalen Pendant eine neue Erscheinung zutage: Die Archivierung muss auf verschiedenen Ebenen erfolgen, um die Langzeitverfügbarkeit garantieren zu können. So müssen neben den Daten selbst ihre Formate und die Hard- und Software mit einbezogen zu werden. Dies stellt die archivische Fachwelt vor neue Herausforderungen, für welche Lösungen bereitgestellt werden müssen. Probleme betreffen vor allem:

  • das Altern von Datenträgern (äußerlich);
  • die Degradation von Trägerschichten (innerlich);
  • die Obsoleszenz von Laufwerken und Abspielumgebungen;
  • die Flüchtigkeit und Verzweigtheit von Online-Dokumenten;
  • der Variantenreichtum von interaktiven Objekten;
  • die auch wirtschaftlich getriebene Obsoleszenz von Dateiformaten.

Erhaltungsstrategien

Um den Herausforderungen der digitalen Langzeitarchivierung gerecht zu werden, wurden verschiedene Strategien entwickelt, um die Verfügbarkeit der digitalen Objekte über die Lebensdauer von Technikgenerationen und -brüchen hinweg zu garantieren. Die Anwendung dieser richtet sich nach den „signifikanten Eigenschaften“ eines digitalen Objektes.

Computermuseum

Bei dieser Strategie werden Soft- sowie Hardware aus den verschiedensten Generationen gesammelt, um Daten in ihrer Originalumgebung öffnen und darstellen zu können. Vor allem in der Wartung der Geräte ist dies problematisch, da Ersatzteile meist nicht oder nicht einfach zur Verfügung stehen. Außerdem ist das fachliche Know-how für die Benutzung der Geräte vorzuhalten. Die Nutzbarkeit der Daten unabhängig von genuiner Soft- und Hardware kann so nicht garantiert werden. Sinn macht diese Strategie nur, wenn sie als Zusatz zu anderen Methoden der Langzeitarchivierung erfolgt oder ein erhaltender Wert in den Geräten selbst gesehen wird.

Bitstream Preservation

Die Bitstream Preservation kann als unterstes Level der Langzeitarchivierung bezeichnet werden. Ohne die Sicherung der „Einsen und Nullen“ auf Datenträgern sind keine Langzeitarchivierungsmaßnahmen auf logischer Ebene möglich. Die Datenträger, auf welchen die langzeitarchivierungswürdigen, digitalen Objekte gespeichert werden, müssen intakt bleiben bzw. muss eine Medienmigration bei drohendem Ausfall erfolgen. Außerdem gehören zur Bitstream Preservation die Replikation der Daten auf mehreren, ausfallsicheren RAID-Systemen (Redundanz). Auf der Bitebene wird außerdem die Datenintegrität überprüft - nur so kann sichergestellt werden, dass die Daten weder korrupt noch beschädigt sind.

Migration

Objekte, welche in veralteten und proprietären Formaten vorliegen, in offene und langzeitarchivierungsgeeignete Formate zu überführen, beschreibt die Strategie der Migration. So kann sichergestellt werden, dass die Daten immer in aktuellsten Formaten vorliegen, welche mit zeitgemäßer Hard- und Software zugänglich gemacht werden können. Um diese Migrationen sinnvoll durchführen zu können, muss im digitalen Archiv eine sogenannte Preservation watch im Rahmen des Preservation planning stattfinden. Dies kann für verschiedene Formatarten ein sehr aufwändiger Prozess sein. Außerdem ist es immer möglich, dass Daten bei der Migration Verluste erleiden. Außerdem schützt die Migration nicht vor Geräte- und Datenträgerobsoleszenz, so dass diese Strategie als eine dauerhafte Aufgabe zu verstehen ist.

Emulation

Bei der Emulation werden nicht mehr verfügbare Hard- und Softwarekomponenten mittels eines Emulators imitiert, um so die Daten auf modernen Geräten in ihrer eigentlichen Umgebung anzeigen zu lassen. So kann sichergestellt werden, dass alle Komponenten den genuinen Stand erreichen und auch die Formate in ihrer ursprünglichen Form ausgelesen werden können. Je nach Anforderungen werden aber unterschiedlichste Emulatoren benötigt und dies kann schnell sehr aufwendig und teuer sein. Außerdem erhöht sich das Risiko der Darstellung dadurch, dass die Langzeitverfügbarkeit von Emulatoren ebenfalls mit abgefangen werden muss.(3)

Vertrauenswürdiges Langzeitarchiv

Das Kompetenznetzwerk Nestor ist ein Kooperationsverbund aus verschiedenen Partnern im Bereich der digitalen Langzeitarchivierung in Deutschland und veröffentlicht Handbücher, Ratgeber und Leitfäden in diesem Themenbereich. Der Nestor-Kriterienkatalog (DIN 31644) für vertrauenswürdige, digitale Langzeitarchive beschreibt ein digitales Archiv als „eine Organisation (bestehend aus Personen und technischen Systemen), die die Verantwortung für den Langzeiterhalt und die Langzeitverfügbarkeit digitaler Objekte sowie für ihre Interpretierbarkeit zum Zwecke der Nutzung durch eine bestimmte Zielgruppe übernommen hat.“(4)

In Übereinstimmung mit dem OAIS-Modell, der internationalen Norm für die Konzipierung von digitalen Langzeitarchiven, geht ein Langzeitarchiv somit weit über die reine Verfügbarkeit von technischen Methoden und Werkzeugen hinaus. Die Wahrnehmung der Aufgabe muss wie bei herkömmlichen Archiven und Bibliotheken durch die Übernahme der Verantwortung des digitalen Archivs sowie geeignetes Personal und Mittel langfristig sichergestellt werden.

ISO 14721:2012-09: Open Archival Information System - Referenzmodell (OAIS)

Das Open Archival Information System (OAIS) ist ein Referenzmodell für digitale Archive und international anerkannt, welches das der NASA unterstellte Consultative Committee for Space Data Systems (CCSDS) entwickelte und seit 2013 als ISO Magenta Book (empfohlene Praxis) vorliegt.

Das Modell beschreibt ein digitales Archiv als ein Konstrukt, in dem Menschen und Systeme zusammen wirken mit dem Ziel, digitale Daten langfristig für Nutzer verfügbar zu machen. Es beschreibt keine konkreten Systemlösungen, sondern bleibt auf abstrakter und konzeptioneller Ebene, was Spielraum bei der Umsetzung lässt. Ein OAIS-konformes Archiv kann seinen Nutzern weitere Leistungen über die in der Norm genannten hinaus, bereit stellen.(5)
In seiner Relevanz für den Aufbau eines digitalen Archivs ist das OAIS-Modell beispiellos, da es die einzige Norm ist, die alle Bereiche eines digitalen Archivs beschreiben. Die OAIS-Konformität kann mit verschiedenen Zertifizierungen (Data Seal of Approval, Nestor Zertifizierung) bestätigt werden.(6)

Metadaten im digitalen Archiv

Ausgehend vom OAIS-Referenzmodell ist es erforderlich, Datenpakete und Metadaten zu definieren, welche in Informationspakete transformiert und langfristig im digitalen Archiv aufbewahrt werden. Die benötigten Repräsentationsinformationen werden im Referenzmodell durch Metadaten realisiert.

Metadaten spielen in der digitalen Archivierung eine größere Rolle als in der klassischen Archivierung. Neben den deskriptiven und archivtechnischen Informationen, welche auch in der analogen Archivierung erfasst werden, sind im digitalen Archiv weitere Metadaten erforderlich. Dazu gehören Informationen zur Herkunft der digitalen Objekte, zur Formatkonversion, Bestandserhaltungsmaßnahmen sowie Struktur- und Kontextinformationen.

Im OAIS-Modell werden verschiedene Metadatentypen benötigt, um ein vollständiges Informationspaket generieren und ablegen zu können:

Um ein Informationspaket im Sinne des OAIS Modells generieren zu können, müssen die Metadaten aufgenommen werden, welche sich mit dem archivischen Prozess, den technischen Spezifika der Objekte sowie bestandserhaltenden Informationen beschäftigen. Standard in diesem Bereich ist PREMIS - Preservation Metadata.(7)

Langzeitarchivierungswürdige Formate

Ist ein Format eines digitalen Objektes nicht hinreichend bekannt oder existiert die zum Format gehörige Software nicht mehr, so wird sehr wahrscheinlich die ursprüngliche Information des logischen Objektes nicht mehr vollständig zu rekonstruieren sein. Die für den Nutzer essentielle konzeptionelle Ebene kann dann nicht bereit gestellt werden. Das Ziel eines digitalen Langzeitarchivs ist es, die Nutzbarmachung von digitalen Objekten auf allen Ebenen zu gewährleisten. Dabei soll die Darstellung so nahe wie möglich am Originalzustand des Objektes orientiert werden.(8)

Formate sind in unterschiedlichem Maße dem Risiko zu veralten ausgesetzt. Daher werden in der archivischen Fachwelt Formate verwendet, die eine positive Beurteilung erhalten haben, potentiell langfristige Nutzbarkeit sicherzustellen. Aber auch wenn Formate in nach bestem Wissen und Gewissen ausgewählten Formaten vorliegen, heißt es nicht, dass diese nicht veralten können. Dann müssen Bestandserhaltungsmaßnahmen ergriffen werden um einen Verlust der Nutzbarkeit der Informationsobjekte vorzubeugen. Trotzdem lassen sich eine Reihe von allgemeinen Faktoren aufführen, um zu entscheiden, welche Formate für die langfristige Erhaltung von digitalen Objekten sinnvoll sind:

  • Lizenzfreiheit,
  • offener Sourcecode,
  • hohe Verbreitung,
  • wenig Funktionalität,
  • eichte Implementierbarkeit,
  • geringe Speicherdichte,
  • Verifizierbarkeit.
Die Bewertung von gängigen Formaten nach diesen Kriterien wurde im Kriterienkatalog archivischer Dateiformate der Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen durchgeführt. Als langzeitarchivierungswürdig werden so beispielsweise TIFF, TXT; PDF/A und WAV eingestuft.(9)

Zu beachten ist, dass die Auswahl der Formate auf Basis der vorhandenen digitalen Daten individuell für ein Langzeitarchiv getroffen werden muss, wobei die Anzahl der Formate so gering wie möglich gehalten werden soll. Die Entscheidung, ob die genuinen digitalen Objekte aufbewahrt werden sollen, ist eine konzeptionelle Entscheidung des jeweiligen digitalen Archivs.


Siehe auch


Literatur

  • Altenhöhner, Reinhard und Sabine Schrimpf, Langzeitarchivierung, in: Rainer Kuhlen (Hg.), Grundlagen der praktischen Information und Dokumentation. 6. Ausgabe, Berlin: De Gruyter Saur, S. 529-540, speziell S.533-534.
  • Digital Preservation Coalition: Introduction: Definitions and Concepts. Digital Preservation Handbook, York, UK, 2008.
  • Neuroth, Heike, Achim Oßwald und Regine Scheffel, Regine (Hg.), nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3, Göttingen: Verlag Werner Hülsbusch, 2010.


Webressourcen

https://wiki.dnb.de/display/NESTOR/Allgemeines+zur+LZA


Referenzen

(1) Digital Preservation Coalition: Introduction: Definitions and Concepts. Digital Preservation Handbook, York, UK, 2008, S. 23ff.
(2) Susanne Dobratz und Astrid Schoger, Vertrauenswürdigkeit digitaler Langzeitarchive; Heike Neuroth, Achim Oßwald und Regine Scheffel (Hg.), nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3, Göttingen: Verlag Werner Hülsbusch, 2010, 5:3-5:5.
(3) Stefan E. Funk, Dagmar Ullrich, Karsten Huth und Christian Keitel, Digitale Erhaltungsstrategien, in: Heike Neuroth, Achim Oßwald und Regine Scheffel, nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3, Göttingen: Verlag Werner Hülsbusch, 8:1-8:34.
(4) nestor - Materialien 8: nestor - Kompetenznetzwerk Langzeitarchivierung / Arbeitsgruppe Vertrauenswürdige Archive – Zertifizierung: nestor-Kriterien, Kriterienkatalog vertrauenswürdige digitale Langzeitarchive, Version 2, Frankfurt am Main: 2008; online unter: http://d-nb.info/1000083241/34, letzter Zugriff 30.06.2017.
(5) Consultative Committee for Space Data Systems: Reference Model for an Open Archival Information System (OAIS). Recommended Practice. CCSDS 650.0-P-1.1. Magenta Book, Washington DC: 2012; online unter: http://public.ccsds.org/publications/archive/650x0m2.pdf, letzter Zugriff 30.06.2017.
(6) nestor - Kompetenznetzwerk Langzeitarchivierung: Audit & Certification. Zuletzt aktualisiert 17.01.2017; online unter: https://wiki.dnb.de/pages/viewpage.action?pageId=87588993, letzter Zugriff 30.06.2017.
(7) Preservation Metadata: Implementation Strategies, online unter: http://www.loc.gov/standards/premis/, letzter Zugriff 30.06.2017.
(8) Jens Ludwig, Formate, in: Heike Neuroth, Achim Oßwald Achim und Regine Scheffel (Hg.), nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 2.3, Göttingen: Verlag Werner Hülsbusch, 2010, 7:3 - 7:8.
(9) KOST: Kriterienkatalog archivischer Datenformate; online unter: http://kost-ceco.ch/wiki/whelp/KaD/index.php, letzter Zugriff 30.06.2017.

mrc