Statistische Formel, die zwei Forscher der Johns-Hopkins-Uni nutzen, um in Tweets Krankheiten zu analysieren

Bislang war vor allem Google dafür bekannt, mithilfe seiner Datenmassen Voraussagen über den wirtschaftlichen Zustand der Welt und über die Gesundheit der Menschen treffen zu können. Nun ist auch Twitter groß genug dafür. Mithilfe von Tweets lassen sich etwa Grippewellen beobachten, wie zwei Wissenschaftler aus Baltimore in einer Studie zeigen.

Big Data ist nicht nur der englische Ausdruck für sehr große Datenmengen. Big Data meint das Vorhandensein von so vielen Informationen, dass sie mit herkömmlichen Methoden der Datenbankverarbeitung nicht sinnvoll analysiert werden können. Einerseits. Andererseits liegt in solchen Datenwolken eine große Chance: Mit ihrer Hilfe können Antworten gefunden werden, die fast prophetisch wirken. Notwendig sind dazu vor allem Algorithmen – komplexe Rechenmodelle, die bei der Analyse helfen.

Der Doktorand Michael Paul und Mark Dredze , Professor für Computerwissenschaft an der Johns-Hopkins-Universität, haben einen solchen Algorithmus entworfen, um Tweets auszuwerten. Sie zeigen in ihrer Studie You Are What You Tweet: Analyzing Twitter for Public Health , wie sich damit Informationen über Allergien, Schlaflosigkeit, Übergewicht und anderes aus den Tweets extrahieren lassen.

Die Forscher konnten sowohl das Aufkommen und den Verlauf bestimmter Krankheiten über die Zeit verfolgen, als auch den Ort, an dem sie auftraten. Auch der Einsatz von Medikamenten ließ sich anhand der Tweets zum Teil nachvollziehen.

Twitter liefert bessere Daten als Google

Die beiden Wissenschaftler sind nicht die ersten, die in Twitter eine Chance zur Beobachtung von Trends und Ereignissen sehen. Gerade die Ausbreitung von Grippe wurde schon mehrfach untersucht, nachdem Google 2009 vorgemacht hatte, dass solche Daten so gut sind wie die der staatlichen amerikanischen Seuchenbehörde CDC – oder sogar besser, weil schneller.

Paul und Dredze glauben, dass Twitter noch viel mehr kann. Denn bei Diensten wie Google würden die Menschen Informationen suchen. In Social-Media-Angeboten jedoch sagten sie etwas über sich und ihren Zustand aus, wie Dredze in einem Vortrag ausführte . Twitter liefere dadurch mehr und detailliertere Informationen als die Sucheingaben bei Google das könnten, die Basis anderer Modelle sind. In ihren Augen könne der Dienst daher einen neuen Weg zur Erforschung der öffentlichen Gesundheit eröffnen. Schließlich enthielten Tweets nicht nur den übermittelten Text. Über seine Schnittstelle (API) erlaubt Twitter auch, diverse Informationen über Ort, Zeit und Übermittlungsarten abzurufen.

Noch einen Vorteil hat dieser neue Weg: Bislang stammen die Daten über den Gesundheitszustand der Bevölkerung vor allem von Ärzten und Krankenhäusern. Was heißt, sie stammen von Kranken und sind damit also nicht repräsentativ für die Gesamtbevölkerung. Auch Menschen, die erkrankt sind, aber nicht zum Arzt gehen, werden von Ärzten oder den Gesundheitsbehörden üblicherweise nicht erfasst. Twitter bildet dagegen gleich mehrere Aspekte aus verschiedenen Lebensbereichen ab.

"More data is better data"

Der einzelne Tweet ist dabei bedeutungslos, es geht um die Masse. Oder, wie es die Autoren der Studie formulieren: "Der Informationsgehalt der meisten Botschaften ist sehr gering, aber die Aggregation von Millionen von Nachrichten kann entscheidendes Wissen hervorbringen."

Die größte Schwierigkeit dabei ist, in dieser Masse die sinnvollen Informationen zu finden. Der Ausdruck "Fieber" beispielsweise, im englischen fever , sei nicht wirklich hilfreich gewesen, sagte Michael Paul in einem Video zu der Untersuchung. Denn viele Nutzer bei Twitter seien vom sogenannten Bieber-Fever befallen, der Aufregung um den Sänger Justin Bieber .

Der Algorithmus musste also unterscheiden lernen – zwischen der ironischen Äußerung eines Popfans und der Mitteilung eines Kranken über seinen Zustand. Wobei letztere auch durchaus kryptisch daherkommen kann, beispielsweise in dem in der Studie als Beispiel zitierten Satz: " Had to pop a Benadryl....allergies are the worst....ughh. " Ein Mensch mag noch verstehen, dass da jemand eine Benadryl-Tablette eingenommen hat, um seine Allergie-Symptome zu mildern. Ein Computer aber hat mit diesem Verständnis seine Probleme.

Außerdem mussten die Forscher aussagekräftige Schlagworte identifizieren und verknüpfen, die im Zusammenhang mit einer Krankheit häufig verwendet werden. Der Algorithmus konnte schließlich aus der Häufigkeit solcher Begriffe und den Umständen ihrer Erwähnung die relevantesten Tweets identifizieren. Zusammen mit den bei Twitter gespeicherten Zusatzinformationen ergab sich ein umfassendes Bild zum Auftreten bestimmter Erkrankungen.

Kommunikationskanal für die ganze Gesellschaft

Solche Informationen könnten komplett den Weg verändern, wie man in Gesundheitsfragen Rückmeldungen von der Bevölkerung bekommt, sagte Mark Dredze in dem Video – Twitter wird so vom individuellen zum gesellschaftlichen Kommunikationskanal. Weswegen beispielsweise Geheimdienste enormes Interesse daran haben , diese Daten ebenfalls auszuwerten.

Die Studie enthält zum Beispiel eine Karte der US-Bundesstaaten, auf der die Allergie-Raten in den Monaten Februar, April, Juni und August sichtbar sind. Daran lassen sich gleichzeitig die Grenzen des Modells erkennen: Denn nicht in jedem Bundesstaat sind zu jedem Zeitpunkt genug relevante Tweets vorhanden. Erst wenn große Datenmengen einlaufen, werden diese statistisch signifikant.

Ob ein einzelner oder eine bestimmte Risikogruppe häufiger von einer Krankheit betroffen sind, kann der Algorithmus nicht errechnen; auch nicht, welcher Lebensstil mit Erkrankungen zusammenhängt. Die Frage, welche Medikamente am besten wirken, kann Twitter ebenso wenig beantworten. Dazu müssten einzelne Twitterer viele Nachrichten verschicken und den Krankheitsverlauf dokumentieren. 71 Prozent der Versuchspersonen hatten aber lediglich einen für die Analyse relevanten Tweet veröffentlicht.

"Je mehr Daten, desto besser" ( more data is better data ), ist der Schluss der Forscher daraus. Sie haben immerhin zwei Milliarden Tweets ausgewertet, die zwischen Mai 2009 und Oktober 2010 versendet wurden. Allerdings stellt diese hohe Zahl nur einen Bruchteil der vorhandenen Informationen dar. Nach Angaben von Twitter werden inzwischen täglich mindestens 50 Millionen Botschaften verschickt.