ArchiveDie ewige Aufbewahrung des Internets

Wer bewahrt die Schätze des Internets – und wie? Archivare und Bibliotheken suchen nach Strategien, weil Dateiformate und Abspielgeräte immer kürzere Lebenszeiten haben. von Astrid Herbold

Library of Congress

Das James Madison Memorial Building der Library of Congress in Washington, D.C.  |  © Tim Sloan/AFP/Getty Images

Ehre, wem Ehre gebührt: Wer von Internetarchivierung spricht, kommt an Brewster Kahle nicht vorbei. Schon 1996 hatte der amerikanische Informatiker die Idee eines vollständigen, globalen Internetarchivs. Seitdem gilt sein Internet Archive als erste Anlaufstelle für alle, die nach längst verschollenen Web-Welten suchen. Die Zeitreise hat allerdings ihre Haken: Inhalte, die älter als zehn Jahren sind, werden oft nicht richtig dargestellt oder bleiben unauffindbar. Von vielen Seiten existieren ohnehin nur zufällige, in unregelmäßigen Abständen erstellte Schnappschüsse. Auch die Suchfunktion der multimedialen Datenbank ist alles andere als ausgereift: Eine Suche nach Angela Merkel ergibt gerade einmal 80 Treffer.

Weltweit suchen Archivare nach besseren Strategien und nach Richtlinien, wie sich das Internet, diese überbordende, hochdynamische Datenflut, sinnvoll sortieren, ablegen und aufbewahren lässt. Zumindest haben sie erkannt, dass der Anspruch des Internet Archive einfach zu hoch ist.

Anzeige

In den Nationalbibliotheken, also den staatlichen Institutionen, die traditionell für die Sammlung aller Publikationen eines Landes zuständig sind, werden jedenfalls kleinere Brötchen gebacken. "Wir konzentrieren uns im Moment auf E-Books, Online-Journale, wissenschaftliche Publikationen und digitale Ausgaben von Tageszeitungen", erklärt Stephan Jockel, Pressesprecher der Deutschen Nationalbibliothek (DNB). Den dazugehörigen gesetzlichen Sammelauftrag hat die DNB seit 2006, seitdem sollen und müssen alle deutschsprachigen Netzpublikationen aus dem In- und Ausland archiviert werden. Eine Auswahl trifft die Bundesbehörde dabei nicht: Von der Doktorarbeit bis zum Roman aus dem Self-Publishing-Verlag gilt alles als bewahrenswert .

Trotzdem ist die Beschränkung auf Formate wie Epub oder PDF fragwürdig. Was ist mit Blogs, Foren, Nachrichtenseiten, was mit Wikipedia, Facebook oder Twitter? Die Grenzen zwischen Lesenden und Schreibenden, zwischen Sendern und Empfängern sind im Netz hinfällig geworden, letztlich ist alles eine Form der Publikation. Stephan Jockel bestreitet das gar nicht. "Der Sammelauftrag geht natürlich weiter, demnächst fangen wir deshalb auch an, Webseiten von Parteien, Bundesbehörden und gemeinnützigen Organisationen zu archivieren." Noch müsse man sich notgedrungen auf solche relativ statischen Inhalte beschränken. "Denn wir sollen ja nicht nur sammeln, sondern auch erschließen und zugänglich machen."

Große Einzeldossiers bei der Library of Congress

Weil die Fragen nach dem Wie drängend und die Antworten schwierig sind, wurde ein Dachverband gegründet, das International Internet Preservation Consortium . Regelmäßig treffen sich die Mitglieder auf Kongressen, vergeben Fördergelder, tauschen Erfahrungen aus. Das ist bitter nötig, denn bislang gibt es noch keinen internationalen Standard in Sachen Netzarchivierung.

Während in Deutschland erst seit sechs Jahren massenhaft elektronische Publikationen gesammelt werden, hat in den USA die Library of Congress schon vor zwölf Jahren begonnen, thematische Sammlungen anzulegen. Mittlerweile stehen zu etlichen außen- und innenpolitischen Ereignissen, darunter die amerikanischen Präsidentschaftswahlen, die Anschläge des 11. September, der Irakkrieg und die Krise von Darfur umfassende Einzelarchive zur Verfügung.

In Großbritannien wiederum setzt man seit 2004 auf die kontinuierliche Speicherung einiger Tausend repräsentativer Webseiten . "Bislang geschieht das manuell", erklärt Helen Hockx-Yu, Leiterin der Abteilung Web Archiving der British Library. Das sei aber personell aufwändig und inhaltlich unzureichend. Ihr Team entwickelt deshalb gerade ein Tool, mit dem sich der Prozess teilautomatisieren lässt, Twittervane heißt das Programm . "Damit werten wir über einen bestimmten Zeitraum die Tweets zu einem Ereignis aus, zum Beispiel zu den Olympischen Spielen." Das Programm ermittelt dabei die Links, auf die sich die Twitternutzer gegenseitig aufmerksam machen. "So können wir erkennen, welche Inhalte besonders beliebt sind und die meistempfohlenen Webseiten bei unserer Archivierung berücksichtigen."

Leserkommentare
  1. Ich denke ein solches Unterfangen ist nur mit dezentraler Unterstützung möglich. So könnte man z.B. auf jedem Rechner eine Art verschlüsselten Internetcache ablegen, der vielleicht 10-100 MB einnimmt. Dort werden dann Bruchstücke des Webs abgelegt, die für sich nicht auswertbar sind aber zusammengesetzt wieder ein ganzes ergeben.

    So könnte z.B. bei diesem Artikel bei jedem Besucher ein Bruchteil abgespeichert werden. Sagen wir 10 Zeichen des Textes sowie 10 Bits des Bildes. Natürlich müssen diese Bruchstücke mehrmals bei unterschiedlichen Usern gespeichert werden.

    Irgentwo existiert dann eine Serverfarm, die die verschiedenen Bruchstücke wieder zusammensetzen kann.

    Ich denke so eine dezentrale Lösung könnte man sehr gut als Unterstützung für die Speicherung so großer Datenmengen nehmen.

  2. Reaktionen auf diesen Kommentar anzeigen

    Danke für die wunderbare Unterhaltung zum Thema. Auch sonst findet sich da wunderbare Ironie.

  3. von welchen dateiformaten sprechen denn die herren? ich kann völlig unabhängig von dateiformaten auch alles roh auslesen - und wenn ein dateiformat wirklich ausdient, heist es nicht das die daten die darin gespeichert waren auch alle ins datennirvana wandern.

    Reaktionen auf diesen Kommentar anzeigen
    • okmijn
    • 23. August 2012 14:47 Uhr

    Da wir gerade im WWW sind nehme ich als Beispiel eine Internetseite, die mittels eines clientseitigen JavaScript-Frameworks die Seite in Abhängigkeit von den Mausbewegungen des Users zusammenstellt und sich Teilinhalte dynamisch nachlädt.

    Viel Spaß bei der Entwicklung einer generischen Archivierung.

    • brazzy
    • 23. August 2012 17:00 Uhr

    ich glaube da handelt es sich um Wortschnipsel die in diesem Zusammenhang von Journalisten ohne Fachwissen immer wieder ausgegraben werden weil es so plakativ klingt, aber eigentlich seit Jahrzehnten nicht mehr aktuell sind.

    Sowohl bei physischen Speichermedien, aber auch und besonders bei logischen Dateiformaten ist inzwischen eigentlich alles standardisiert und abwärtskompatibel. Früher war das anders, und ein mit einem proprietären Archivformat eines obskuren kommerziellen Unix beschriebenes Magnetband auszulesen manchmal wirklich nahezu unmöglich. Aber ein JPEG-Bild oder PDF wird ziemlich sicher auch in 100 Jahren noch jeder Computer darstellen können.

    Wenn man natürlich dynamischere Gebilde wie Spiele und ganze Webseiten mit Serverlogik betrachtet, dann wird es wesentlich schwieriger.

    • nik--
    • 29. August 2012 1:59 Uhr

    Viele Formate sind propreitär, das heißt bspw. Binärformate wie eben PDF oder alte Videodateien (Quicktime anyone?) sind eben nicht einfach auslesbar und mit Metainformationen in andere Formate überführbar. Als das nächste große sterbende Ding wird Flash gehandelt. Und man mache sich klar, welche Bedeutung dieses Format heute hat und noch vor kurzem hatte! „Roh auslesen“ bringt da gar nichts ohne passende Plugin- oder Abspieltechnik. Und gerade bei Flash (Shockwave …) kommt eben vielleicht auch noch eine API-Anbindung dazu, die das ganze nur im Kontext Sinn ergeben lässt.
    Und selbst bei Klartext-Formaten braucht man nicht allzu weit schauen: HTML, das auch Netscape4 oder IE5 zugeschnitten war, wird heute auch nicht mehr vorbehaltlos in modernen Browsern laufen. Und historische Browser nicht in moderen OS. Bei der Archivierung geht es nicht um das Abspeichern der Daten, sondern um Erhaltung des kulturellen Kontextes.

    • okmijn
    • 23. August 2012 14:42 Uhr

    Viele WWW-Inhalte haben eher den Charakter eines Gespräches oder eines Vortrages als eines Buches. Es wäre unsinnig, das komplette WWW zu archivieren (und das trifft auch schon ohne dark net Inhalte zu). Schon immer gab es Entscheidungen über die Auswahl der erhaltenswerten zu archivierenden Inhalte. Vergessen und Verlieren sind wichtige Funktionen von Kulturen. Sie stellen so etwas wie eine Auslese dar, die eine gewisse Qualität der Information sichert, die bewahrt wird. Eine vollständige Verfügbarkeit alles Geäußerten würde lediglich eine nicht zu handhabende Lawine an Daten fragwürdigen Informationsinhaltes Bedeuten.

    Das Problem der Formate ist real und sollte jedem Menschen im Rahmen der schulischen Allgemeinbildung bewusst gemacht werden, so dass ein Großteil der vom Ersteller für bewahrenswert gehaltenen Information in wenigen Formaten publiziert wird, die erschließbar gehalten werden.

    • okmijn
    • 23. August 2012 14:47 Uhr

    Da wir gerade im WWW sind nehme ich als Beispiel eine Internetseite, die mittels eines clientseitigen JavaScript-Frameworks die Seite in Abhängigkeit von den Mausbewegungen des Users zusammenstellt und sich Teilinhalte dynamisch nachlädt.

    Viel Spaß bei der Entwicklung einer generischen Archivierung.

    Reaktionen auf diesen Kommentar anzeigen

    Sorry, aber die Datengrundlage soll gespeichert werden, nicht wie der User diese Daten für sich selbst aufbereitet. Von daher ist das kein Problem. Nehmen wir als einfaches Beispiel die Wikipedia. Jeder Uer kann sich seinen Style selbst zusammenbasteln wie er will, die Basisdaten ändert das nicht...

    • nik--
    • 29. August 2012 2:14 Uhr

    ist ein denkbar ungünstiges Beispiel. Denn WP ist stark meta-bezogen, lexikalisch aufgebaut und sehr einheitlich. Das gilt für die meisten Inhalte im www eben nicht. Im Gegenteil spielen Layout, UI und daraus resultierendes Nutzerverhalten eine wesentliche Rolle der Inhaltsvermittlung. Eine Archivierung nur darauf zu beschränken, was der Textprozessor sieht, greift hier archivarisch überhaupt nicht. Von Kunst- und interaktiven Designseiten ganz zu schweigen.

  4. Wie schon angemerkt, muss nicht alles bewahrt werden, was existiert. Meine ersten eigene Versuche einer Homepage habe ich nicht umsonst gelöscht. Allerdings stellt sich die Frage, wer auswählt und wo die Grenzen gezogen werden zwischen wichtigen Inhalten und unwichtigen Sachen. Interessiert es die zukünftige Generation, dass Kathie Holmes Scheidung rechtskräftig ist, wie heute auf einer Website zu lesen war?

    • brazzy
    • 23. August 2012 17:00 Uhr
    7. Ja...

    ich glaube da handelt es sich um Wortschnipsel die in diesem Zusammenhang von Journalisten ohne Fachwissen immer wieder ausgegraben werden weil es so plakativ klingt, aber eigentlich seit Jahrzehnten nicht mehr aktuell sind.

    Sowohl bei physischen Speichermedien, aber auch und besonders bei logischen Dateiformaten ist inzwischen eigentlich alles standardisiert und abwärtskompatibel. Früher war das anders, und ein mit einem proprietären Archivformat eines obskuren kommerziellen Unix beschriebenes Magnetband auszulesen manchmal wirklich nahezu unmöglich. Aber ein JPEG-Bild oder PDF wird ziemlich sicher auch in 100 Jahren noch jeder Computer darstellen können.

    Wenn man natürlich dynamischere Gebilde wie Spiele und ganze Webseiten mit Serverlogik betrachtet, dann wird es wesentlich schwieriger.

    • DrUKff
    • 23. August 2012 19:30 Uhr

    Aus zukümnftiger Sicht eines Historikers kann man nur sagen: "Willkommen im dunklen Zeitalter der frühen Informationskultur!"
    Alle Massnahmen der öffentlich-rechtlichen Institutionen sind ein Tropfen auf den heißen Stein. "Freie" Initiativen wie das Internet Archive sind vom Goodwill von Firmen wie Oracle abhängig und werden der Flut auch nicht Herr. Die Archivierung von Web-Inhalten ist eine offene Flanke. Zumindest wir haben es geschafft, seit 1997 alle Webseiten und alle Inhalte ohne "404"-Error nutzbar online zu halten: http://www.project-consul... . Es geht also. Was wir brauchen ist aber ein Anlauf, bei dem die großen Softwareanbieter für ihre Versäumnisse in Punkto Archivierungsfähigkeit von Informationen zur Kasse gebeten werden. Mein schon älterer Vorschlag: http://www.project-consul... . Erkki Liikanen, seiner Zeit EU-Kommissar für die Informationsgesellschaft, sagte 1999 "Electronic Archives are the Memory of the Information Society". Dieses Gedächtnis liegt heute schon in Trümmern. Ulrich Kampffmeyer

Bitte melden Sie sich an, um zu kommentieren

  • Artikel Auf einer Seite lesen
  • Quelle ZEIT ONLINE
  • Schlagworte Angela Merkel | E-Book | Hardware | Internet | Migration | Großbritannien
Service