Von den rund sieben Milliarden Erdbewohnern hatten im vergangenen Jahr etwa 2,4 Milliarden Internetzugang. Ein Großteil ihres Datenverkehrs ging über amerikanische Kabel. Angenommen, Edward Snowden hätte recht und der Geheimdienst NSA hätte Zugang zu diesen Signalen – kann er überhaupt all jene Verbindungsdaten verarbeiten, die er abgreift? Kann er den Datenstrom auch inhaltlich prüfen? Falls ja, wie?

Darüber zu schreiben heißt, Vermutungen anzustellen. Geheimdienste handeln geheim. Aber es gibt plausible Annahmen. Zum Beispiel die, dass die NSA nicht über schlechtere Technik verfügt als die Wirtschaft oder die Spitzenforschung. Es existieren immerhin Anhaltspunkte wie dieser: In der vergangenen Woche schrieb die Computerzeitschrift c’t, dass die Computeranlage der NSA, die derzeit in Bluffdale (Utah) gebaut wird, 65 Megawatt Strom benötige. Das wäre mehr als zweieinhalbmal so viel, wie der leistungsfähigste Supercomputer der Welt frisst. Mit anderen Worten: Die NSA hat eine Menge vor.

Der gewaltige Energiebedarf, ja überhaupt die unvorstellbaren Dimensionen des globalen Datensammelns, -speicherns und -auswertens, sie rufen nach einem erdschweren Vokabular. Data-Mining, also Datenbergbau, heißt passenderweise seit Mitte der neunziger Jahre jene Disziplin der Informatik, die gigantische Datenschätze analysieren will, so, als suche man in Tonnen schweren Gesteins nach wenigen Gramm Erz. Data-Mining ist die Schwerindustrie des Informationszeitalters.

Kaum vorstellbar, dass ausgerechnet die NSA da nicht aktiv sein sollte. Und wieder gibt es Indizien. Die US-Akademie der Wissenschaften zum Beispiel hat kürzlich einen Bericht an die Regierung veröffentlicht, in dem sie formuliert: "Data-Mining gewaltiger Datenmengen ändert die Art und Weise, wie wir über…Cybersicherheit und Geheimdienstarbeit denken."

Um sich ein Bild davon zu machen, was die NSA womöglich kann und was nicht, ist es daher sinnvoll, sich die Werkzeuge des Data-Minings anzusehen: Methoden der Mathematik und der Informatik, vor allem Statistik, Mustersuche und Netzwerkanalyse. Der Blick in Wissenschaft, Großforschung und Netzwirtschaft lehrt einiges über den Stand dieser Techniken und erlaubt plausible Rückschlüsse auf die Arbeit und die Fähigkeiten der NSA.

Data-Mining ist längst Alltag. Telefongesellschaften zum Beispiel wollen herausfinden, welche Kunden ihnen von der Fahne gehen könnten – um diese dann zum Bleiben zu bewegen. Malcolm Atkinson, eine Autorität in der Szene, beschreibt in dem im Frühjahr erschienenen Praktiker-Handbuch The Data Bonanza detailliert das Vorgehen: Telefonfirmen verfügen über Angaben zur Person, zu Vertragsdauer, Bezahlverhalten und Verbindungsdaten; sie suchen in diesen Daten Verhaltensmuster, die typisch sind für Kunden mit Wechselgedanken. Als Alarmsignal gilt natürlich ein Anruf bei einer konkurrierenden Telefonfirma – fragt der Kunde vielleicht nach günstigeren Konditionen? Solches Wissen lasse sich mit Daten über die Aktivitäten desselben Kunden auf Twitter oder Facebook noch anreichern, wie Atkinson unbekümmert schreibt.

Schon eine solche relativ simple Überwachung erfordert die Analyse großer Datenmengen aus mehreren Quellen. Die Daten haben unterschiedliche Formate und Qualität. Die Kunst des Dateningenieurs besteht zunächst darin, sie so zu "normalisieren", dass sie zu Einträgen einer wohlgeordneten Tabelle werden. Um aus ihr die Wechselkunden herauszusortieren, muss die Empfindlichkeit des Algorithmus fein justiert werden: Einerseits soll er die meisten potenziellen Wechsler frühzeitig erkennen, andererseits aber nicht zu viele "falsch positive" Ergebnisse liefern, also Telefonnummern treuer Kunden, die sich dann durch einen Anruf des Kundenberaters belästigt fühlen würden. Übertragen auf die Arbeit der NSA, hieße das, dass ihre Computer möglichst viele potenzielle Terroristen identifizieren sollen, ohne dass Fahnder allzu viele harmlose Bürger auskundschaften müssen.