Der Traum von der maschinenlesbaren Wikipedia

"Wikipedia ist heute noch an viel zu vielen Stellen gebunden an Kompromisse der Print-Zeit", sagt Mathias Schindler, Projekt-Manager beim Verein Wikimedia Deutschland . So sei zum Beispiel die Aufteilung des Weltwissens in einzelne Artikel eine Reminiszenz an ein "lineares, statisches Speichermedium", wie es gedruckte Enzyklopädien waren.

Schindlers Vision geht weiter: In der Zukunft könnte die Online-Enzyklopädie zu einem Wissensspeicher werden, der Wissen nicht über den Umweg des Textes enthält, sondern die faktischen Zusammenhänge direkt erfasst.

Die technische Entwicklung ist in den vergangenen Jahren ein wenig an der Online-Enzyklopädie vorbeigegangen. Während andere Angebote die Einbindung von Fotos, Videos und anderen Medien auf Mausklick erlauben, ist die Wikipedia noch weitgehend Handarbeit. Jeder Artikel muss nicht nur geschrieben, sondern auch von erfahreneren Autoren an die Wikipedia-Konventionen angepasst werden.

Die Folge sind Inkonsistenzen. Die Wikipedia-Community ist recht gut darin, aktuelle Fakten wie Todesfälle oder Skandale einzupflegen. Bei weniger prominenten Themen hinken die Freiwilligen jedoch oft hinterher. Nur ein Beispiel: Im englischen Artikel über  den ehemaligen Präsidenten des Bundesverfassungsgerichts Hans-Jürgen Papier ist das Ende seiner Amtszeit korrekt verzeichnet. Seine ebenfalls aus dem Amt geschiedene Kollegin Lerke Osterloh wird dort jedoch noch als Verfassungsrichterin geführt. In den 250 anderen Sprachversionen wird die Richterin gleich überhaupt nicht erwähnt.

Lösung für das Problem könnte eine semantische Komponente sein. Schon seit Jahren versuchen Suchmaschinenbetreiber mit semantischer Analyse den Inhalt von Texten zu erfassen und so die Fragen ihrer Kunden direkt zu beantworten. Statt nur nach Suchwörtern zu fischen, sollen die Server Anfragen verstehen und die relevanteste Antwort präsentieren.

So bemühte sich das Suchmaschinen-Startup Powerset bereits 2008 um die automatische Auswertung von Wikipedia-Texten. Such-Algorithmen sollten die Artikel in ihrem Kontext analysieren und Beziehungen zwischen den verschiedenen Faktensplittern oder "Factz" herstellen. Doch die Intelligenz der Algorithmen reichte nicht aus, den Fleiß der Wikipedia-Autoren wesentlich zu übertrumpfen: Die Fakten, die Powerset aus den Artikeln herauslesen konnte, hatten die Wikipedia-Nutzer längst in handliche Listen zusammengefasst. Bevor der Ansatz weiterverfolgt werden konnte, kaufte Microsoft Powerset auf.

Ein anderer Ansatz versucht, gleich selbst Fakten zu liefern, statt sie umständlich aus Texten zu klauben. Das Projekt dazu heißt Semantic MediaWiki und erweitert die der Wikipedia zugrunde liegende Software um die Fähigkeit, Zusammenhänge darzustellen. Schon 2005 hatten die Wikipedia-Enthusiasten Markus Krötzsch und Denny Vrandecic das Konzept vorgestellt, das die Wikipedia von der Textsammlung zur Wissenssammlung machen soll.

"Eine semantische Wikipedia wäre frei von Inkonsistenzen", hofft Schindler. Mit Semantik lassen sich logische und faktische Zusammenhänge in einer Datenbank abbilden. Kern der Idee: Anstatt den Satz "Berlin ist die Hauptstadt Deutschlands" in 250 verschiedenen Sprachen aufzuschreiben, könnte die Beziehung zwischen Deutschland und Berlin einmal zentral festgelegt werden. Der Fakt könnte nicht nur in allen Artikeln über Berlin abrufbar sein, sondern auch die Länderartikel über Deutschland ergänzen. Zudem könnte Wikipedia automatisch eine Liste aller Hauptstädte erstellen, sie – geeignete Daten vorausgesetzt – nach Größe oder nach Kontinenten sortieren. Bis heute werden solche Listen in Wikipedia per Hand erstellt.

Zu groß, um sich noch schnell zu ändern

Bereits 200 Wikis weltweit setzen die Software ein – die Wikipedia jedoch gehört noch nicht dazu. Aus gutem Grund: Alleine die Anpassung an die riesigen Datenmengen bräuchte aufwändige Tests.

Vor fünf Jahren ging so etwas noch in einer Hauruck-Aktion. So trafen sich im Januar 2005 in Berlin zwei Dutzend Wikipedia-Enthusiasten, um 15.000 Namensartikel in der deutschsprachigen Wikipedia mit Grunddaten wie Name, Vorname und Geburtsdatum zu versehen. In der Folge war es zum Beispiel möglich, die Wikipedia-Artikel mit der Personennamensdatei der Deutschen Nationalbibliothek in Leipzig zu verknüpfen und automatisiert Literaturlisten abzurufen.

So einfach geht das heute nicht mehr. Allein die deutschsprachige Wikipedia ist sechs Mal so groß wie vor fünf Jahren, auch die anderen Sprachversionen sind stark gewachsen. Zudem müssen sich die Wikipedia-Autoren zunächst auf eine Struktur verständigen, welche Fakten und Beziehungen überhaupt maschinenlesbar erfasst werden sollen.

"Sprache ist sehr wandlungsfähig. So finden sich in Wikipedia drei verschiedene Werte zur Fläche von Frankreich – je nachdem welche Gebiete man mitzählt", sagt Denny Vrandecic. Was in natürlicher Sprache einfach auszudrücken ist, sorgt bei der logischen Verknüpfung von Fakten für Probleme: Jede mögliche Beziehung zwischen zwei Begriffen muss vorhergesehen werden, sonst versagt das System.

Profitieren von der Automatisierung könnten vor allem die kleinen Wikipedia-Ausgaben. "Zwar kann Semantic MediaWiki keine Texte schreiben, mit den Fakten aus den anderen Wikipedia-Ausgaben hätte man aber ein Skelett, auf dem man aufbauen könnte", sagt Vrandecic.

Ein weiterer Grund, warum die maschinenlesbare Wikipedia nicht so zügig voranschreitet: Viele Wikipedianer halten am Status quo fest. Eine der Fragen, die Vrandecic häufiger hört, lautet: "Wenn es so einfach ist, zentrale Fakten zu ändern – wie verhindert man, dass mehr Unsinn in die Wikipedia gelangt?"

Denn die Langsamkeit des Wikipedia-Prozesses ist auch eine Art Qualitätsgarant. Nur wer sich wirklich gut mit dem System auskennt, kann Informationen dauerhaft einbringen. Offensichtliche Falschinformationen werden von den freiwilligen Helfern schnell aussortiert und gelöscht. An den etablierten Prozessen etwas zu ändern fällt der Gemeinschaft schwer. Schließlich gibt es keinen Chef, der den Wandel von oben befehlen könnte.