Das James Madison Memorial Building der Library of Congress in Washington, D.C. © Tim Sloan/AFP/Getty Images

Ehre, wem Ehre gebührt: Wer von Internetarchivierung spricht, kommt an Brewster Kahle nicht vorbei. Schon 1996 hatte der amerikanische Informatiker die Idee eines vollständigen, globalen Internetarchivs. Seitdem gilt sein Internet Archive als erste Anlaufstelle für alle, die nach längst verschollenen Web-Welten suchen. Die Zeitreise hat allerdings ihre Haken: Inhalte, die älter als zehn Jahren sind, werden oft nicht richtig dargestellt oder bleiben unauffindbar. Von vielen Seiten existieren ohnehin nur zufällige, in unregelmäßigen Abständen erstellte Schnappschüsse. Auch die Suchfunktion der multimedialen Datenbank ist alles andere als ausgereift: Eine Suche nach Angela Merkel ergibt gerade einmal 80 Treffer.

Weltweit suchen Archivare nach besseren Strategien und nach Richtlinien, wie sich das Internet, diese überbordende, hochdynamische Datenflut, sinnvoll sortieren, ablegen und aufbewahren lässt. Zumindest haben sie erkannt, dass der Anspruch des Internet Archive einfach zu hoch ist.

In den Nationalbibliotheken, also den staatlichen Institutionen, die traditionell für die Sammlung aller Publikationen eines Landes zuständig sind, werden jedenfalls kleinere Brötchen gebacken. "Wir konzentrieren uns im Moment auf E-Books, Online-Journale, wissenschaftliche Publikationen und digitale Ausgaben von Tageszeitungen", erklärt Stephan Jockel, Pressesprecher der Deutschen Nationalbibliothek (DNB). Den dazugehörigen gesetzlichen Sammelauftrag hat die DNB seit 2006, seitdem sollen und müssen alle deutschsprachigen Netzpublikationen aus dem In- und Ausland archiviert werden. Eine Auswahl trifft die Bundesbehörde dabei nicht: Von der Doktorarbeit bis zum Roman aus dem Self-Publishing-Verlag gilt alles als bewahrenswert .

Trotzdem ist die Beschränkung auf Formate wie Epub oder PDF fragwürdig. Was ist mit Blogs, Foren, Nachrichtenseiten, was mit Wikipedia, Facebook oder Twitter? Die Grenzen zwischen Lesenden und Schreibenden, zwischen Sendern und Empfängern sind im Netz hinfällig geworden, letztlich ist alles eine Form der Publikation. Stephan Jockel bestreitet das gar nicht. "Der Sammelauftrag geht natürlich weiter, demnächst fangen wir deshalb auch an, Webseiten von Parteien, Bundesbehörden und gemeinnützigen Organisationen zu archivieren." Noch müsse man sich notgedrungen auf solche relativ statischen Inhalte beschränken. "Denn wir sollen ja nicht nur sammeln, sondern auch erschließen und zugänglich machen."

Große Einzeldossiers bei der Library of Congress

Weil die Fragen nach dem Wie drängend und die Antworten schwierig sind, wurde ein Dachverband gegründet, das International Internet Preservation Consortium . Regelmäßig treffen sich die Mitglieder auf Kongressen, vergeben Fördergelder, tauschen Erfahrungen aus. Das ist bitter nötig, denn bislang gibt es noch keinen internationalen Standard in Sachen Netzarchivierung.

Während in Deutschland erst seit sechs Jahren massenhaft elektronische Publikationen gesammelt werden, hat in den USA die Library of Congress schon vor zwölf Jahren begonnen, thematische Sammlungen anzulegen. Mittlerweile stehen zu etlichen außen- und innenpolitischen Ereignissen, darunter die amerikanischen Präsidentschaftswahlen, die Anschläge des 11. September, der Irakkrieg und die Krise von Darfur umfassende Einzelarchive zur Verfügung.

In Großbritannien wiederum setzt man seit 2004 auf die kontinuierliche Speicherung einiger Tausend repräsentativer Webseiten . "Bislang geschieht das manuell", erklärt Helen Hockx-Yu, Leiterin der Abteilung Web Archiving der British Library. Das sei aber personell aufwändig und inhaltlich unzureichend. Ihr Team entwickelt deshalb gerade ein Tool, mit dem sich der Prozess teilautomatisieren lässt, Twittervane heißt das Programm . "Damit werten wir über einen bestimmten Zeitraum die Tweets zu einem Ereignis aus, zum Beispiel zu den Olympischen Spielen." Das Programm ermittelt dabei die Links, auf die sich die Twitternutzer gegenseitig aufmerksam machen. "So können wir erkennen, welche Inhalte besonders beliebt sind und die meistempfohlenen Webseiten bei unserer Archivierung berücksichtigen."