Von den rund sieben Milliarden Erdbewohnern hatten im vergangenen Jahr etwa 2,4 Milliarden Internetzugang. Ein Großteil ihres Datenverkehrs ging über amerikanische Kabel. Angenommen, Edward Snowden hätte recht und der Geheimdienst NSA hätte Zugang zu diesen Signalen – kann er überhaupt all jene Verbindungsdaten verarbeiten, die er abgreift? Kann er den Datenstrom auch inhaltlich prüfen? Falls ja, wie?

Darüber zu schreiben heißt, Vermutungen anzustellen. Geheimdienste handeln geheim. Aber es gibt plausible Annahmen. Zum Beispiel die, dass die NSA nicht über schlechtere Technik verfügt als die Wirtschaft oder die Spitzenforschung. Es existieren immerhin Anhaltspunkte wie dieser: In der vergangenen Woche schrieb die Computerzeitschrift c’t, dass die Computeranlage der NSA, die derzeit in Bluffdale (Utah) gebaut wird, 65 Megawatt Strom benötige. Das wäre mehr als zweieinhalbmal so viel, wie der leistungsfähigste Supercomputer der Welt frisst. Mit anderen Worten: Die NSA hat eine Menge vor.

Der gewaltige Energiebedarf, ja überhaupt die unvorstellbaren Dimensionen des globalen Datensammelns, -speicherns und -auswertens, sie rufen nach einem erdschweren Vokabular. Data-Mining, also Datenbergbau, heißt passenderweise seit Mitte der neunziger Jahre jene Disziplin der Informatik, die gigantische Datenschätze analysieren will, so, als suche man in Tonnen schweren Gesteins nach wenigen Gramm Erz. Data-Mining ist die Schwerindustrie des Informationszeitalters.

Kaum vorstellbar, dass ausgerechnet die NSA da nicht aktiv sein sollte. Und wieder gibt es Indizien. Die US-Akademie der Wissenschaften zum Beispiel hat kürzlich einen Bericht an die Regierung veröffentlicht, in dem sie formuliert: "Data-Mining gewaltiger Datenmengen ändert die Art und Weise, wie wir über…Cybersicherheit und Geheimdienstarbeit denken."

Um sich ein Bild davon zu machen, was die NSA womöglich kann und was nicht, ist es daher sinnvoll, sich die Werkzeuge des Data-Minings anzusehen: Methoden der Mathematik und der Informatik, vor allem Statistik, Mustersuche und Netzwerkanalyse. Der Blick in Wissenschaft, Großforschung und Netzwirtschaft lehrt einiges über den Stand dieser Techniken und erlaubt plausible Rückschlüsse auf die Arbeit und die Fähigkeiten der NSA.

Data-Mining ist längst Alltag. Telefongesellschaften zum Beispiel wollen herausfinden, welche Kunden ihnen von der Fahne gehen könnten – um diese dann zum Bleiben zu bewegen. Malcolm Atkinson, eine Autorität in der Szene, beschreibt in dem im Frühjahr erschienenen Praktiker-Handbuch The Data Bonanza detailliert das Vorgehen: Telefonfirmen verfügen über Angaben zur Person, zu Vertragsdauer, Bezahlverhalten und Verbindungsdaten; sie suchen in diesen Daten Verhaltensmuster, die typisch sind für Kunden mit Wechselgedanken. Als Alarmsignal gilt natürlich ein Anruf bei einer konkurrierenden Telefonfirma – fragt der Kunde vielleicht nach günstigeren Konditionen? Solches Wissen lasse sich mit Daten über die Aktivitäten desselben Kunden auf Twitter oder Facebook noch anreichern, wie Atkinson unbekümmert schreibt.

Schon eine solche relativ simple Überwachung erfordert die Analyse großer Datenmengen aus mehreren Quellen. Die Daten haben unterschiedliche Formate und Qualität. Die Kunst des Dateningenieurs besteht zunächst darin, sie so zu "normalisieren", dass sie zu Einträgen einer wohlgeordneten Tabelle werden. Um aus ihr die Wechselkunden herauszusortieren, muss die Empfindlichkeit des Algorithmus fein justiert werden: Einerseits soll er die meisten potenziellen Wechsler frühzeitig erkennen, andererseits aber nicht zu viele "falsch positive" Ergebnisse liefern, also Telefonnummern treuer Kunden, die sich dann durch einen Anruf des Kundenberaters belästigt fühlen würden. Übertragen auf die Arbeit der NSA, hieße das, dass ihre Computer möglichst viele potenzielle Terroristen identifizieren sollen, ohne dass Fahnder allzu viele harmlose Bürger auskundschaften müssen.

Die Hardware und Statistik

Die Nadel im Heuhaufen wäre da ein irreführendes Bild. Es ist eher ein Gebirge aus Heu. Und man weiß noch nicht einmal genau, was Halme sind und was Nadeln. Auf jeden Fall muss massiv maschinell vorsortiert werden, bevor die Computer mit diesen Daten rechnen können – lange bevor auch nur ein Menschenauge die Ausbeute sichtet.

Erfahrung im Durchforsten riesiger Datenmassen können die Naturwissenschaftler vorweisen, allen voran die Physiker und Astronomen. Am Cern in Genf spuckt der größte Teilchenbeschleuniger der Welt jährlich etwa 15 Petabytes Rohdaten aus – das sind 15 Billiarden Zeichen, so viel wie heute auf 15.000 große Computerfestplatten passt. Das Radioastronomieprojekt SKA, das 2020 starten soll, würde pro Tag mehr Daten abwerfen, als heute täglich durchs gesamte Internet rauschen. Klimamodellierer, Gen-, Zell- und Hirnforscher schlagen sich ebenfalls mit unermesslichen Datenmengen herum. Avancierte Methoden, diese zu bewältigen, haben daher in der Forschung ihren Ursprung.

Aber auch die Datenaufkommen von Weltkonzernen wie Microsoft, Google oder Facebook erreichen mittlerweile solche Größenordnungen. Diese Daten sind das Kapital der Firmen, deshalb treiben die ebenfalls das Data-Mining voran.

Der Datenflutspezialist Atkinson unterteilt die Bergmänner in drei Gruppen: die Gebietsexperten, die Datenanalytiker und die Dateningenieure. Die Gebietsexperten kennen sich mit dem Gegenstand der Daten aus, sie sind zum Beispiel Astronomen, Marktstrategen oder eben Geheimdienstler; die Datenanalytiker versuchen, mit der richtigen Kombination von mathematischen Werkzeugen nach Schätzen zu graben; die Dateningenieure schließlich entwerfen den dafür nötigen Programmcode.

Die Hardware: Bei allen Tera-, Peta-, Exa- und Yottabytes – die Bergleute der Informatik müssen knappe Ressourcen verwalten. Denn die Leistung der Hardware-Komponenten entwickelt sich nicht gleichmäßig. Rechentempo und Speicherkapazität schreiten zwar immer noch brav nach dem sogenannten Mooreschen Gesetz voran (sie verdoppeln sich etwa alle 18 Monate), doch für die Umdrehungsgeschwindigkeit der Festplatten gilt das nicht. Malcolm Atkinson resümiert: Schon heute sind in manchem Großprojekt die Prozessoren die meiste Zeit untätig, während die Speicherplatten unausgesetzt rotieren.

Hilfe kommt von Google, und das auch noch gratis. Hadoop heißt ein Open-Source-Paket aus den Programmierzentren des Suchmaschinenkonzerns. Es ist ein ganzes Bündel von Methoden, die überall dort verwendet werden, wo heute schweres Datenschürfen nötig ist – wie bei der NSA, die nach Angaben des Wall Street Journal Hadoop nutzt. Ein wichtiger Teil des Pakets ist MapReduce, die Kombination zweier Rechenstrategien, die in Höchstgeschwindigkeit Treffer aus enorm langen und breiten Tabellen gewinnt. Und zwar arbeitsteilig auf vielen, vielleicht Tausenden Rechnern, allesamt im gleichen Gebäude miteinander verdrahtet. Auf jedem Rechner ruht jeweils ein Teil der Daten. Denn wenn Datenmassen im Petabytebereich verarbeitet werden sollen, würde es die Hardware nicht schnell genug schaffen, sie innerhalb vertretbarer Zeit kreuz und quer durch die Welt zu schaufeln. "Die Verarbeitung muss zu den Daten wandern", lautet daher das Mantra der Data-Miner. Das Rechenzentrum ist der Speicherort, gerechnet wird in der Datenbank selbst. So lässt sich auch erklären, warum die NSA in Utah ein zentrales Riesenrechenzentrum baut.

Aufbereitung und Statistik: Die Hauer und Steiger im Datenbergwerk sprengen erst einmal alles weg, was nach Abraum aussieht. Danach müssen die Daten "gereinigt" werden, wie es die Autoren des Standardwerks Handbook of Statistical Analysis & Data Mining ausdrücken: In den Tabellen finden sich oft unsinnige Werte. Von Hand lässt sich dieses Rauschen nicht entfernen, aber es gibt automatische Filter (die für völlig andere Aufgaben entwickelt wurden, etwa für die Verarbeitung von Radarsignalen).

Nach der Aufbereitung kann die Analyse beginnen. Zunächst wird die Datenmenge statistisch untersucht, da geht es um Mittelwerte, Verteilungen, Abweichungen und Ähnliches. Geheimdienstler werden ein Interesse an seltenen Auffälligkeiten haben. Aus der Privatwirtschaft sind entsprechende Methoden bekannt, etwa für die Aufdeckung von Kreditkartenbetrug: Wie beim Terrorismus muss der Algorithmus hier seltene, ungewöhnliche Vorgänge identifizieren und lieber einen Fehlalarm erzeugen als zu wenige echte Fälle erkennen. Außerdem existieren für die Suche typische Verdachtsmomente, etwa wenn jemand in kurzer Zeit übermäßig oft Geld abhebt.

Die Suche nach Mustern: Nach der statistischen Analyse folgt das Data-Mining im strengen Sinn, in der Wirtschaft wie für den Geheimdienst die ganz große Kunst: Anhand von Mustern in den Daten werden Modelle gebildet, die Vorhersagen erlauben. Also einen Blick in die Zukunft. Etwa, dass irgendwo mit einem Anschlag zu rechnen ist, weil gewisse Telefonnummern nach einem signifikanten Muster gewählt wurden und sich die Gesprächsteilnehmer auf bestimmte Weise bewegten. Die Grundidee dabei ist, dass sich die Dinge wiederholen. Mag post hoc ergo propter hoc (Y tritt nach X auf, also ist X die Ursache für Y) als klassischer logischer Fehlschluss gelten, für Big Data ist es Prinzip: Wenn umfangreiche Datenmassen eine Korrelation zweier Ereignisse nahelegen, dann behandelt man sie so, als seien sie ursächlich miteinander verbunden.

Diese Anfangsverdächtigungen werden vom Computer aufgestellt, die Modellbildung erfolgt automatisch. Nicht nur, weil Menschen solche Datenmengen nicht bewältigen könnten, sondern auch, weil Maschinen keine Vorurteile haben und deshalb auf unerwartete Zusammenhänge stoßen können. Software-Module werden anhand eines Datensatzes trainiert, bis sie sich auf ein Modell festgelegt haben, das verdächtige Muster am besten findet. Taugt es, so darf das Programm größere Datenmengen durchforsten. Früher nannte man so etwas künstliche Intelligenz.

Die Netzwerkanalyse

Namentlich im Interesse der Internetökonomie ist das "Text-Mining" entstanden, die Massenvariante dessen, was vor 20 Jahren noch maschinelle Sprachverarbeitung hieß. Das ist mehr, als nur kritische Wörter wie Bombe im Datenstrom zu entdecken. Kinderleicht zu nutzende Programme wie der im Internet verfügbare RapidMiner verwandeln Textmengen in Tabellen, aus denen sie zunächst einmal Krimskrams wie die Artikel der, die, das herauswerfen. Sie fassen Wörter mit gleichem Stamm zusammen (etwa mit der Wurzel "lauf-") und stellen typische Ballungen sowie Folgen von Wörtern fest. Programme, die bereichsspezifisches Wissen einbringen, werden erst ganz zum Schluss an die Daten gelassen – wenn überhaupt. Für Nachrichtendienstler mag es in vielen Fällen ausreichend sein, Muster zu erkennen, in denen bestimmte Begriffe auftauchen. Etwa in Stimmungsanalysen, die sich aus den Einträgen auf Twitter anfertigen lassen. Unternehmen nutzen diese Technik für die Pflege ihrer Marken (postet jemand Schimpfworte im Zusammenhang mit meinem Produkt?). Aber natürlich kann ein solches Werkzeug auch analysieren, wie sich die Sprache einer Gruppe von Usern im Lauf der Zeit radikalisiert.

Die Netzwerkanalyse, also die mathematische Untersuchung sozialer Beziehungen, ist die dritte Methode. Dass US-Sicherheitsbehörden Netzwerkanalyse betreiben, verraten Konferenzreferate militärischer Terrorismusforscher. Vorläufer dieser Technik tauchten bereits in den dreißiger Jahren des 20. Jahrhunderts auf, pikanterweise in der Analyse des Verhaltens von Gefängnisinsassen. Fahrt nahm der Forschungszweig in den neunziger Jahren auf und dann erst recht, als Facebook und Co. die Menschen weltweit vernetzten.

Ein Geflecht menschlicher Beziehungen lässt sich mathematisch als Gebilde aus Individuen (jedes einzelne ist ein "Knoten") und ihren Verbindungen (den "Kanten") beschreiben. Die Graphentheorie, ein Zweig der Mathematik, enthält ein großes Instrumentarium, solche Netze zu untersuchen. Naheliegende Fragen sind: Wer hat mit wem Kontakt? Gibt es zentrale Figuren, die wie die Spinne im Zentrum eines Netzes sitzen?

Auch für die Netzwerkanalyse gilt, dass ihre Methoden oft nicht – wie es im Informatikerjargon heißt – "skalieren": Was bei mittelgroßen Netzen noch funktioniert, braucht im Falle riesiger Geflechte unverhältnismäßig mehr Zeit. Der Einsatz massiv parallel arbeitender Rechner ist eine Reaktion darauf. Algorithmen, die sich dem richtigen Resultat lediglich annähern, eine andere. Noch haariger wird es, wenn die Daten als permanent veränderlicher Strom hereinschwemmen. Soziale Netze wie Facebook und Twitter verändern sich fortwährend, was hohe Anforderungen an die Rechengeschwindigkeit stellt. Und was gilt, wenn ein Knoten verschwindet: Hat sich der zugehörige Mensch abgemeldet, macht er nur mal Sendepause, oder ist er untergetaucht?

Die monumentalen Datenhaufen lassen überdies ein Grundsatzproblem der Informatik zutage treten. Die Leistungsfähigkeit ihrer Algorithmen wird nicht zuletzt daran gemessen, wie sich die Rechenzeit mit der Menge der zu verarbeitenden Daten erhöht. Für kleine Mengen bleibt es egal, ob die Zeit nur proportional zur Eingabe wächst oder vielleicht viel schneller. Big Data lässt aber manchen sonst leistungsfähigen Algorithmus ewig und drei Tage ackern. Es ist wichtig, da rechtzeitig die Bremse zu ziehen – also auch solche Probleme zu erkennen, die bis auf Weiteres nicht zu lösen sind.

Wie praktisch für die Geheimdienste, dass solche Fragen auch für finanzkräftige Konzerne und die Großforschung wichtig sind. Wirtschaft, Wissenschaft und Sicherheitsbehörden haben da ein gemeinsames Interesse.

Neben die traditionell computerfreundliche Naturwissenschaft ist ein weiterer Mitspieler getreten: die Sozialwissenschaft. Moderne Menschen erzeugen auf Schritt und Tritt Daten, die mit der richtigen Software zu wertvollem Rohstoff werden. "Zusätzlich zur guten, alten Umfrage mit 1.000 Teilnehmern können Forscher heute auf mehr als 100 Millionen tägliche Einträge in Sozialen Netzwerken zugreifen und sie mit automatischen Verfahren analysieren", resümiert der Sozialforscher Gary King von der Harvard-Universität den Stand der Technik in einer Ausgabe des Wissenschaftsjournals Science, die Big Data gewidmet ist.

Dann hebt er zu einer schier endlos anmutenden Aufzählung an. Man habe "die Möglichkeit, über Handys, IP-Adressen und Videoüberwachung Aufenthaltsorte zu ermitteln". Munter führt King weitere Datenquellen auf: Parteispenden, Unterschriftenlisten, Kreditkartenzahlungen, Grundstückskäufe, Funketiketten, Einkäufe via Internet, elektronische Patienten- und Krankenhausakten, Messwerte aus neuen Geräten zur Bewegungskontrolle, zur Messung des Pulses, der Leitfähigkeit der Haut und der Körpertemperatur, darüber hinaus Onlinespiele und Protokolle von Unternehmen über das Verhalten ihrer Angestellten… Ein "dramatischer Fortschritt" sei für die Sozialwissenschaften möglich, schwärmt der Autor.

Schon richtig. Aber nicht nur für sie.