Bislang war vor allem Google dafür bekannt, mithilfe seiner Datenmassen Voraussagen über den wirtschaftlichen Zustand der Welt und über die Gesundheit der Menschen treffen zu können. Nun ist auch Twitter groß genug dafür. Mithilfe von Tweets lassen sich etwa Grippewellen beobachten, wie zwei Wissenschaftler aus Baltimore in einer Studie zeigen.

Big Data ist nicht nur der englische Ausdruck für sehr große Datenmengen. Big Data meint das Vorhandensein von so vielen Informationen, dass sie mit herkömmlichen Methoden der Datenbankverarbeitung nicht sinnvoll analysiert werden können. Einerseits. Andererseits liegt in solchen Datenwolken eine große Chance: Mit ihrer Hilfe können Antworten gefunden werden, die fast prophetisch wirken. Notwendig sind dazu vor allem Algorithmen – komplexe Rechenmodelle, die bei der Analyse helfen.

Der Doktorand Michael Paul und Mark Dredze , Professor für Computerwissenschaft an der Johns-Hopkins-Universität, haben einen solchen Algorithmus entworfen, um Tweets auszuwerten. Sie zeigen in ihrer Studie You Are What You Tweet: Analyzing Twitter for Public Health , wie sich damit Informationen über Allergien, Schlaflosigkeit, Übergewicht und anderes aus den Tweets extrahieren lassen.

Die Forscher konnten sowohl das Aufkommen und den Verlauf bestimmter Krankheiten über die Zeit verfolgen, als auch den Ort, an dem sie auftraten. Auch der Einsatz von Medikamenten ließ sich anhand der Tweets zum Teil nachvollziehen.

Twitter liefert bessere Daten als Google

Die beiden Wissenschaftler sind nicht die ersten, die in Twitter eine Chance zur Beobachtung von Trends und Ereignissen sehen. Gerade die Ausbreitung von Grippe wurde schon mehrfach untersucht, nachdem Google 2009 vorgemacht hatte, dass solche Daten so gut sind wie die der staatlichen amerikanischen Seuchenbehörde CDC – oder sogar besser, weil schneller.

Paul und Dredze glauben, dass Twitter noch viel mehr kann. Denn bei Diensten wie Google würden die Menschen Informationen suchen. In Social-Media-Angeboten jedoch sagten sie etwas über sich und ihren Zustand aus, wie Dredze in einem Vortrag ausführte . Twitter liefere dadurch mehr und detailliertere Informationen als die Sucheingaben bei Google das könnten, die Basis anderer Modelle sind. In ihren Augen könne der Dienst daher einen neuen Weg zur Erforschung der öffentlichen Gesundheit eröffnen. Schließlich enthielten Tweets nicht nur den übermittelten Text. Über seine Schnittstelle (API) erlaubt Twitter auch, diverse Informationen über Ort, Zeit und Übermittlungsarten abzurufen.

Noch einen Vorteil hat dieser neue Weg: Bislang stammen die Daten über den Gesundheitszustand der Bevölkerung vor allem von Ärzten und Krankenhäusern. Was heißt, sie stammen von Kranken und sind damit also nicht repräsentativ für die Gesamtbevölkerung. Auch Menschen, die erkrankt sind, aber nicht zum Arzt gehen, werden von Ärzten oder den Gesundheitsbehörden üblicherweise nicht erfasst. Twitter bildet dagegen gleich mehrere Aspekte aus verschiedenen Lebensbereichen ab.