George Yu hat vor kurzem den Funktionsumfang seines iPhones erweitert. Der 30- jährige Ingenieur aus Chattanooga in Tennessee (USA) war schon immer ein leidenschaftlicher Tüftler, und vor ein paar Monaten hat er ein neues Gerät namens Node erfunden. Node ist etwa so groß und so rund wie eine Batterie, steckt in einer Hülle aus weißem Plastik und ist gespickt mit LED-Lämpchen, kleinen Schaltern und Sensoren. Per Funk steht es stets mit einem iPhone in Kontakt.

Wer ein Node-Gerät besitzt, kann fortan eine Menge über seine Umwelt erfahren. Das Ding kann zum Beispiel aus einem halben Meter Abstand das Fieber eines Kranken messen – und das Ergebnis erscheint auf dem Bildschirm des Telefons oder wahlweise gleich im Internet. Es kann auch feststellen, ob die Luftfeuchtigkeit in einem Terrarium stimmt oder ob die Geschwindigkeit und die Flughöhe eines Heißluftballons in Ordnung sind, ob die Wärmeisolierung eines Hauses leckt, ob Gas in der Küche austritt, ob irgendwo in der Nähe nukleare Brennstäbe herumliegen und derlei Dinge mehr. »Ich wollte ein Gerät mit unendlich vielen Anwendungen schaffen«, sagt Yu, der immerhin schon ein paar Hundert Nodes verkauft hat und sich nun an große Industriekunden wenden will.

Der Bastler Yu steht an der Spitze einer Entwicklung, die unser Leben zu verändern beginnt. Noch nie wurden pausenlos so viele Daten über die Menschen und die Welt gesammelt – auf so viele unterschiedliche Arten, aus so vielen unterschiedlichen Quellen. Und noch nie wurden sie derart eifrig archiviert, in riesenhaften Datenspeichern abgelegt und über Netzwerke verknüpfbar gemacht.

Alltagsgeräte wie Smartphones, Kameras, Stromzähler und Autos bekommen heutzutage schon recht genau mit, was um sie herum geschieht. Industriegeräte wie Fertigungsstraßen in Fabriken, voll automatisierte Warenlager, stadtweite Netzwerke aus Überwachungskameras und sogar Flugzeugmotoren helfen per Fühler, Chip und Datenleitung, die Welt zu vermessen – ohne menschliches Zutun, Daten-Puzzlestück für Daten-Puzzlestück. Und dann ist da ohnehin jener anschwellende Strom von Daten, die Menschen selber erzeugen und ins Internet einspeisen: Stimmungsmeldungen auf Facebook oder Twitter, Gesuche auf Jobportalen im Internet, Laufzeiten beim Jogging, Zwangsvollstreckungen, Gebote bei Online-Auktionen, Eingaben in Suchmaschinen wie Google, Inserate zur Partnersuche.

Neuer Goldrausch

»Wir schätzen, dass sich die Menge der Daten, die innerhalb eines Jahres erstellt, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppelt«, heißt es bei der Unternehmensberatungsfirma IDC. Bloß meldet dieselbe Firma auch: Von all diesen Daten würden eigentlich bloß ein paar Prozent nutzbringend ausgewertet. Der Rest lande als Datenmüll in den Archiven – oder werde bald wieder gelöscht.

Aber wenn man in diesen Tagen IT-Unternehmern, Unternehmensberatungsfirmen und manchem elektrisierten Konzernchef zuhört, bekommt man den Eindruck: Die Zeiten ändern sich, es ist ein neuer Goldrausch ausgebrochen. Die Pioniere von heute graben keine Flusslandschaften mehr um wie vor mehr als hundert Jahren am Klondike, sondern sie baggern in digitalen Datenbergen. Ihre Mine nennen sie Big Data – den großen Datenhaufen.

»Big Data verändert das Wirtschaften an sich, und der Effekt ist enorm«, schwärmt James Manyika, Chef des McKinsey Global Institute, des Thinktanks der weltweit operierenden Unternehmensberatung. »Big Data ist größer als selbst das größte Unternehmen«, schrieb Phil Evans, der oberste Berater der Boston Consulting Group für die Computer-, Internet- und Medienindustrie, und prophezeite: »Big Data verschafft vielen westlichen Firmen einen Vorteil gegenüber aufstrebenden Wettbewerbern aus den Schwellenländern, weil westliche Konzerne mehr Daten gesammelt haben und besser darin sind, diese zu analysieren.« Die Erwartungen sind gewaltig.

Nun hat die heutige Datenflut tatsächlich eine Eigenschaft, die neu ist, die aber die Sache mit der Goldgräberei nicht gerade erleichtert: Sie stammt aus so vielen Quellen und bricht so schnell herein, dass sie völlig ungeordnet daherkommt.

Auch früher gab es in einigen Branchen schon gigantisch große Datensätze, aber sie waren wohlsortiert: Versicherungen, Ölexplorationsfirmen oder Handelsketten sammelten massenhaft Informationen über Transaktionen, Bohrungsdaten oder Regalbestände – und diese Daten wurden sorgfältig erhoben, ihren vorgesehenen Plätzen in der Datenbank des Unternehmens zugewiesen und nach etablierten Kriterien ausgewertet.

 Kreuzung aus Informationstechnik und Mathematik

Jetzt ist das anders: Die größten Durchbrüche bei Big Data verspricht man sich gerade dort, wo so unterschiedliche Datenquellen wie Twitter-Nachrichten, Wetterdaten, Verspätungsmeldungen eines städtischen Nahverkehrssystems oder Verkaufsdaten eines Supermarktes mit Computerhilfe kombiniert werden – um daraus Prognosen, Dienstleistungen oder gar neue Produktideen zu destillieren.

Geplant ist eine Kreuzung aus Informationstechnik und Mathematik, die die Datenmassen erst beherrschbar macht und sie dann in einen neuen Rohstoff für die Wirtschaft verwandelt. »Viele Firmen haben im Augenblick zwar große Datenmengen, kommen aber nicht an die Inhalte ran«, schildert Wolf Lichtenstein, Geschäftsführer der SAS Institute GmbH in Heidelberg, das Problem – und verspricht, dies für seine Kunden zu ändern.

Hal Varian, ein viel zitierter kalifornischer Ökonom und Google-Berater, hat vor einigen Jahren einmal vorausgesagt: »Der attraktivste Job in den kommenden zehn Jahren wird der des Statistikers sein.«

Reine Zukunftsmusik ist das längst nicht mehr. Seit ein paar Jahren entsteht eine wachsende Industrie rund um Big Data. Zahlreiche große Konzerne berichten heute von irgendwelchen Big-Data-Projekten; in Deutschland sind es beispielsweise die Allianz-Versicherung, die Drogeriemarktkette dm und der Autohersteller BMW. Nach wie vor gilt Big Data als eine riskante Investition – »44 Prozent aller Big-Data-Projekte werden gar nicht erst vollständig zu Ende geführt«, meldet die Beratungsfirma Infochimps aus Austin in Texas –, aber es gibt eben zunehmend Erfolgsgeschichten.

Funkende Flugzeugmotoren

Da ist zum Beispiel die Firma Vestas Wind Systems aus Århus. Der dänische Weltmarktführer für den Bau von Windkraftanlagen kann heute innerhalb weniger Stunden für praktisch jeden neuen Standort ausrechnen, wie viel Wind dort unter optimalen Bedingungen in den folgenden Jahrzehnten geerntet werden kann – also kann Vestas den Standort für eine neue Anlage optimieren, ein schlagendes Verkaufsargument.

Damit die Vorhersagen auch stimmen, führt Vestas historische Datenbanken über Temperatur, Feuchtigkeit, Niederschläge und Windrichtung zusammen, berücksichtigt Waldkarten, Gezeitenkalender und Satellitenbilder. Hinzu kommen die Turbinendaten über Leistung, Reparaturen und tatsächliche Laufzeiten der 50.000 Windräder, die Vestas bereits aufgestellt hat. Alles in allem fließen 160 Faktoren in die Analysen ein.

Flugzeugmotoren von Rolls-Royce tragen heutzutage nicht bloß Passagiere durch die Lüfte – sie hängen dabei auch laufend per Funk an einem Datennetz. Egal, wo auf der Welt ein Triebwerk gerade im Einsatz ist, schickt es einen steten Datenstrom an eine Zentrale im englischen Derby.

Die Motoren funken gleich auch mit, unter welchen Einsatzbedingungen sie gerade arbeiten, ob sie an einem Airbus A380 montiert sind oder an einer Boeing 747, und sobald ein Problem auftritt, analysieren die Techniker in Derby, was nach der nächsten Landung unternommen werden soll. Das geschieht auf der Basis riesiger Datenbanken, die mit der Nutzung weiter anschwellen – und die Auswertung geschieht, noch während das Flugzeug in der Luft ist. Das ist ein wesentliches Verkaufsargument für solche Motoren, weil die Fluggesellschaft nun mehrere Stunden Wartungszeit am Boden einsparen kann. Manchmal ist das nötige Ersatzteil schon auf dem Weg zum entsprechenden Flughafen, wenn das Problemtriebwerk noch gar nicht wieder am Boden ist.

300 Millionen Datensätze pro Woche

Die Drogeriemarktkette dm hat vor einiger Zeit die Umsatzströme mehrerer Jahre analysiert und weiß seither viel genauer, wann eine Filiale wie viel Personal braucht. Jahreszeiten, Feiertage und so fort werden im System berücksichtigt. Die Mitarbeiter können ihrerseits ihre Einsatzzeiten verlässlich vier bis acht Wochen im Voraus planen und müssen deutlich seltener als früher mit kurzfristig angeordneten Sonderschichten rechnen.

Der Versandhändler Otto verbessert mithilfe einer Spezialsoftware seine Bedarfsplanung für das gesamte Sortiment. Nach eigenen Angaben füttert das Unternehmen seine Software pro Woche mit 300 Millionen Datensätzen – und erstellt übers Jahr eine Milliarde Prognosen, wie sich der Absatz einzelner Artikel in den folgenden Tagen und Wochen entwickeln wird. Nach Konzernangaben ordert Otto durchschnittlich 30 Prozent weniger Ware als zuvor und hat dadurch deutlich weniger überschüssige Ware auf Lager. Von Einsparungen in zweistelliger Millionenhöhe ist die Rede.

Banken und Kreditkartenfirmen lassen große Datenmassen durchforsten, um Betrügern auf die Spur zu kommen. Manche überprüfen Hunderte von Millionen Webseiten – um zu verhindern, dass sich Webseiten von Betrügern als die Webseiten dieser Banken ausgeben und Kunden aufs Glatteis führen. Andere versuchen, Betrugsfälle in den Finanztransaktionen selbst zu finden – wobei verschiedenste Kriterien wie die Umsatzhöhe, der Ort, die Währung, der Zeitpunkt und so weiter herangezogen werden, um kriminelle Muster zu erkennen.

Und dann sind da all die frisch zu Marktführern aufgestiegenen Konzerne aus dem Internet, die ohnehin fast ausschließlich auf den Rohstoff »Datenmassen« setzen: Google, Facebook und Amazon beobachten ihre Kunden und die Besucher ihrer Websites bei jedem Schritt und jedem Klick, legen ihre Erkenntnisse in Datenspeichern ab – und entwickeln auf dieser Basis neue Dienstleistungen, weitere Produktempfehlungen und Werbeaktionen.

Problemlösungen aller Art dank Big Data

Die Zukunft solcher Konzerne, glauben viele, liegt im Erheben von noch mehr Informationen, aus noch mehr Quellen. So arbeiten einige dieser Firmen jetzt schon eifrig an der Erkennung von Gesichtern in den Strömen von Menschen, die durch Straßen oder Warenhäuser ziehen. Andere setzen darauf, dass Computer anhand unserer Mimik und Gestik verstehen lernen, wie wir uns gerade fühlen.

Der amerikanische Mobilfunk- und Internetkonzern Verizon hat kürzlich sogar ein Patent auf eine Technik angemeldet, die bestens zur Welt in Orwells Roman 1984 passt: »Wenn das System feststellt, dass ein Paar einen Streit hat, sendet es Anzeigen für Paartherapie auf den Fernseher oder auf ein Mobiltelefon im gleichen Raum«, heißt es in der Patentschrift. »Wenn das Paar offenbar miteinander schmust, würde es Werbung für ein romantisches Wochenende oder ein Verhütungsmittel erhalten.«

Für manchen Big-Data-Brancheninsider ist all das aber bloß der Anfang. Anthony Goldbloom gehört zu diesen Leuten. Der 30-jährige Australier, ein gelernter Ökonom und Statistiker, lebt seit einigen Jahren in San Francisco und ist dort Unternehmer geworden. 2010 hat er das Start-up Kaggle gegründet: eine Plattform für Problemlösungen aller Art – mithilfe von Big Data.

 Was kann man in einer Welt voller Big Data überhaupt fragen?

Firmen und Organisationen können auf der Website des Unternehmens eine Art Ausschreibung starten: Sie sagen, was ihr Problem ist. Sie geben bekannt, welche Daten sie gesammelt haben. Wer das Problem am besten löst, bekommt einen Preis.

Zuletzt wollte zum Beispiel der Gesundheitskonzern Heritage mithilfe von Kaggle erfahren, welcher Patient aus seiner Datenbank wohl im kommenden Jahr ins Krankenhaus muss (3 Millionen Dollar Preisgeld). Der Musikkonzern EMI Music wollte herausfinden, welches Musikstück der nächste große Hit wird (10.000 Dollar); eine Aufklärungskampagne über Gefahren im Internet interessierte sich sogar dafür, welcher User des Nachrichtendienstes Twitter wohl wahrscheinlich ein Psychopath ist (1.000 Dollar). Mal klingt das spielerisch, mal akademisch, aber Goldbloom sagt: »Sie können sich ja ausrechnen, wie wertvoll für eine Bank oder eine Versicherung die Vorhersage sein kann, ob Sie im kommenden Jahr Ihr Auto zu Schrott fahren.«

An Kaggle merkt man auch, wie sehr die Auswertung von Big-Data-Beständen bisher noch eine Mischung von Wissenschaft und Tüftelei ist. Rund 45.000 Datendetektive haben sich bei Kaggle registriert, um dort Probleme zu knacken – »und wir machen die Erfahrung, dass Physiker und Elektroingenieure am besten abschneiden, und zwar solche mit einem gewissen Schuss Common Sense. Oh, und es gibt einen Gletscherforscher, der regelmäßig mit guten Ergebnissen dasteht.«

Warum? Goldbloom zuckt mit den Schultern: Es sei eben nicht alles nur fortgeschrittene Mathematik und reine Wissenschaft, man brauche auch Intuition und praktisches Verständnis. »Eins meiner Lieblingsbeispiele war ein Wettbewerb für einen sehr großen Gebrauchtwagenhändler in den USA«, erzählt Goldbloom. »Diese Leute brachten uns historische Daten aus zehn Jahren und wollten wissen: Welche Gebrauchtwagen erweisen sich auf lange Sicht als besonders haltbar? Und es stellte sich heraus, dass nicht die Zahl der gefahrenen Kilometer den Ausschlag gab oder die Größe des Motors, sondern dass Autos mit ungewöhnlichen Farben sich als am haltbarsten erwiesen.« Über den Grund kann man bloß spekulieren. Aber statistisch gesehen hält das Ergebnis, und für den Händler ist es äußerst wertvoll.

So tasten sich Datentüftler auf Kaggle, wissenschaftliche Organisationen und eine wachsende Schar von Hightech-Unternehmen Einzelproblem für Einzelproblem an die Frage heran, was man in einer Welt voller Big Data so alles fragen kann.

Big Data für die Polizei

Am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin arbeiten Experten gerade an einem ambitionierten Projekt, das eines Tages Polizei und Notdienste unterstützen soll: Der Plan ist, alle möglichen Mobilfunkdaten und Internetinformationen wie zum Beispiel Twitter-Meldungen auszuwerten – und dann automatisch den Einsatzkräften mitzuteilen, ob irgendwo im Land gerade ihre Hilfe benötigt wird, ob etwa eine Großveranstaltung aus dem Ruder läuft. Dazu müssen Ballungen von Menschen daraufhin untersucht werden, ob sie von vergangenen Ballungen abweichen – sprich, man braucht historische Datenbanken. Und Twitter-Nachrichten müssen beispielsweise daraufhin durchforstet werden, ob sie eher Freude ausdrücken – oder Panik. Big-Data-Systeme der Zukunft, davon ist man bei Fraunhofer überzeugt, werden die menschliche Sprache gut zu deuten wissen.

Womit sich sogleich das nächste ungelöste Problem stellt: Was ist mit dem Datenschutz? Die Verarbeitung personenbezogener Daten könne gleich mehrere Grundrechte beeinträchtigen, sagt der EU-Abgeordnete Jan Philipp Albrecht. Auch viele Forscher haben das Problem erkannt. Stefan Wrobel vom Fraunhofer-Insitut sagt: »Es reicht keineswegs aus, nur Namen, Vornamen, Alter und Adresse von einem Datensatz zu trennen, um ihn zu anonymisieren. Auch wenn man den Namen von den Bewegungsdaten trennt, muss man ja nur schauen, wo das Signal nachts ist, dann weiß man, wo der Besitzer des Handys wohnt, darüber können Sie die meisten Menschen leicht identifizieren.«

Für dieses Problem habe Fraunhofer eine technische Lösung gefunden. Man habe, »grob gesagt, die Datensätze in Teile zerlegt und diese Teile neu durchgewürfelt«. Aber diese eine Lösung habe schon mehrere Jahre gekostet. Mit anderen Worten: Big Data kann gerade in Europa, wo man den Datenschutz sehr ernst nimmt, langwierig und teuer werden.

Und es gibt noch ein anderes Grundsatzproblem, das die gewinnbringende Nutzung von Big-Data-Lösungen erschwert: Es hat mit den Entscheidungsstrukturen in Konzernen zu tun.

Neue Art der Entscheidungsfindung

In der Firmenzentrale des Big-Data-Experten SAS Institute in Heidelberg lässt sich die Zukunft moderner Konzernführung besichtigen. Im Besprechungsraum wirft ein Projektor die Geschäftszahlen eines international operierenden Spielzeugkonzerns an die Wand – Verkäufe von Teddybären, Spielzeugautos und dergleichen mehr. Gegliedert nach Regionen, nach Gewinnen, nach Lieferzeiten; unterschieden nach der jeweiligen Saison, nach Standorten mit viel Konkurrenz und mit wenig Konkurrenz, die Möglichkeiten erscheinen unendlich.

Man kann das alles mit ein paar Mausklicks sortieren, ja sogar wahllos in den Datenbeständen des Konzerns herumdaddeln: Immer wieder erstellt der Computer dann automatisch ein paar übersichtliche Grafiken, anhand derer man ein bisschen mehr über die Geschäfte, Herausforderungen und Chancen des Spielzeug-Metiers lernen kann.

Es ist eine Demo. Aber ziemlich ähnlich – das versprechen sie zumindest bei Big-Data-Firmen – kann Konzernführung heute laufen. Das Chefzimmer verwandelt sich in eine Art Kommandobrücke, auf der der Computer den Überblick über das Konzernschiff herstellt und dazu nach Bedarf in sämtlichen Daten aus dem Unternehmen und seiner Umwelt stöbert. Spielerisch kann man Szenarien ausprobieren: Was wäre, wenn man die Teddybären in China billiger anbieten würde? Was wäre, wenn die Lieferanten in Osteuropa streikten? »Big Data bringt die Möglichkeit einer völlig neuen Art der Entscheidungsfindung«, schrieben kürzlich drei Forscher des McKinsey Global Institute. »Mit kontrollierten Experimenten können Unternehmen Hypothesen testen und ihre Geschäfts- und Investitionsentscheidungen von den Ergebnissen leiten lassen.«

Die Rede ist also von einem weiteren Schub der Verwissenschaftlichung in Konzernzentralen. Das Problem ist, dass eine wirklich konsequente Orientierung an den Daten klar den etablierten Führungsstrukturen widerspricht.

Daten seien bisher Entscheidungshilfen gewesen, aber die Entscheidung habe dann doch beim Chef gelegen, sagen Andrew McAfee und Erik Brynjolfsson, zwei MIT-Experten für die Erforschung von Geschäften im Digitalzeitalter. Sie schlagen allerdings vor, dass sich das in den Zeiten von Big Data ändern sollte: Chefs sollten ihre Leute am besten ab sofort umerziehen. Und selber mit gutem Beispiel vorangehen, fordern die Experten. »Sie sollten es sich bei einer wichtigen Entscheidung zur Gewohnheit machen, erst mal zu fragen: Was sagen die Daten?«