"Bitte geben Sie die zwei Wörter ein, um Ihre Anmeldung abzuschließen." Jeder, der ein kostenloses E-Mail-Konto hat oder bei sozialen Netzwerken wie Facebook surft, musste sie schon einmal lösen: Captchas. Die Bilder von verzerrten und geschwungenen Wörtern dienen als Kontrolle, ob hier ein Mensch oder ein Computer versucht sich einzuloggen. Was oft so lästig erscheint, soll vor Datendieben schützen und gefährliche Spamprogramme daran hindern, das eigene Postfach vollzumüllen.

Leider, findet Captcha-Miterfinder Luis von Ahn, sei das Verfahren ineffizient. "Jeden Tag werden weltweit etwa 200 Millionen Captchas gelöst, das sind jedes Mal zehn Sekunden Zeit, die verschwendet werden", sagt der Informatik-Professor an der Universität in Pittsburgh. Deswegen hat er ein neues Programm entwickelt und sich damit eine Vision erfüllt: Er holt die verlorene Zeit zurück und stellt sie in den Dienst der Menschheit.

Wie die Software mit dem Namen Recaptcha funktioniert, erklärt von Ahn im Wissenschaftsmagazin Science: Es hilft, ausgeschriebene Wörter zu identifizieren, die normale Texterkennungsprogramme nicht lesen können. Die eigentliche Arbeit machen dabei Blogger, E-Mail-Schreiber und Mitglieder von sozialen Netzwerken, die die unlesbaren Wörter in Form von Captchas erkennen dann die korrekte Bedeutung per Tastatur eingeben. Schon liegt das Wort als Textdatei vor und nicht mehr, wie zuvor, als reine Bilddaten ohne  Bedeutung.

Doch warum das Ganze? Derzeit arbeiten mehrere Projekte weltweit daran, Bücher zu digitalisieren, um das Wissen, das in ihnen steht, haltbar zu machen und so vor dem Verfall zu retten. Dies wird möglich, indem große Buch-Archive eingescannt werden. Das Problem beim Digitalisierungsprozess: Um den Speicherplatz möglichst klein zu halten, werden die Buchseiten zwar zunächst als Bilder gescannt, später aber als Text gespeichert. Leider aber sind die Programme zur Texterkennung längst nicht frei von Fehlern: Buchstaben werden falsch gelesen, Wörter nicht erkannt und letztlich geht Wissen verloren.

"Das Menschheitswissen digital zu speichern und es jedem zugänglich zu machen, ist eines der wichtigsten Dinge, die wir tun können", sagt von Ahn. Millionen von Wörtern aus den Büchern ganzer Bibliotheken hat der Informatiker mithilfe seines Programms bereits digitalisieren lassen. Die gescannten Bilder aller unerkannten Wörter werden gesammelt und auf die verschiedenen Seiten mit Recaptcha-Software verteilt. Von dort kommen dann die hoffentlich richtigen "Übersetzungen" zurück. So löst die Masse der Netznutzer haufenweise Worträtsel, ohne dass es für den Einzelnen ein großer Aufwand wäre. Ein Phänomen, das als "Crowdsourcing" beschrieben wird.

Recaptcha spart damit nicht nur die Kosten für hauptberufliche menschliche Übersetzer, sondern arbeitet auch viel schneller, derzeit etwa für das amerikanische Internet Archive. Dieses Projekt speichert Hunderttausende von Büchern, deren Copyright abgelaufen ist. Auf über 45.000 Webseiten läuft Recaptcha bereits. Unter den Seiten, die Recaptcha nutzen, sind bekannte Namen wie Facebook, das Internetradio last.fm und eine Vielzahl an Online-Shops.

Der normale Internetnutzer bekommt davon wenig bis gar nichts mit, obwohl er die eigentliche Intelligenzleistung vollbringt: die visuellen Muster als Schriftzeichen zu erkennen. Damit Recaptcha weiß, dass der jeweilige Nutzer dabei nicht ebenso hilflos ist wie eine Maschine, bedarf es eines Tricks – schließlich kennt das System das unleserliche Wort ja selbst nicht. Recaptcha zeigt dem Nutzer ein zweites Wort, das es kennt. Wird dieser bekannte Text richtig erkannt, geht das System davon aus, dass der Nutzer auch das unbekannte Wort richtig übersetzt hat. Das unleserliche Wort geht dabei immer an mehrere Nutzer, um eine möglichst hohe Trefferquote zu erreichen. Das funktioniere ausgezeichnet, sagt von Ahn: "Wir erreichen eine Genauigkeit von insgesamt über 96 Prozent".