DigitalisierungDie Masse macht's

Millionen von Internetnutzern helfen durch die Beantwortung lästiger Sicherheitsabfragen, ganze Bibliotheken zu archivieren. Ohne, dass sie davon etwas merken

"Bitte geben Sie die zwei Wörter ein, um Ihre Anmeldung abzuschließen." Jeder, der ein kostenloses E-Mail-Konto hat oder bei sozialen Netzwerken wie Facebook surft, musste sie schon einmal lösen: Captchas. Die Bilder von verzerrten und geschwungenen Wörtern dienen als Kontrolle, ob hier ein Mensch oder ein Computer versucht sich einzuloggen. Was oft so lästig erscheint, soll vor Datendieben schützen und gefährliche Spamprogramme daran hindern, das eigene Postfach vollzumüllen.

Leider, findet Captcha-Miterfinder Luis von Ahn, sei das Verfahren ineffizient. "Jeden Tag werden weltweit etwa 200 Millionen Captchas gelöst, das sind jedes Mal zehn Sekunden Zeit, die verschwendet werden", sagt der Informatik-Professor an der Universität in Pittsburgh. Deswegen hat er ein neues Programm entwickelt und sich damit eine Vision erfüllt: Er holt die verlorene Zeit zurück und stellt sie in den Dienst der Menschheit.

Wie die Software mit dem Namen Recaptcha funktioniert, erklärt von Ahn im Wissenschaftsmagazin Science: Es hilft, ausgeschriebene Wörter zu identifizieren, die normale Texterkennungsprogramme nicht lesen können. Die eigentliche Arbeit machen dabei Blogger, E-Mail-Schreiber und Mitglieder von sozialen Netzwerken, die die unlesbaren Wörter in Form von Captchas erkennen dann die korrekte Bedeutung per Tastatur eingeben. Schon liegt das Wort als Textdatei vor und nicht mehr, wie zuvor, als reine Bilddaten ohne  Bedeutung.

Doch warum das Ganze? Derzeit arbeiten mehrere Projekte weltweit daran, Bücher zu digitalisieren, um das Wissen, das in ihnen steht, haltbar zu machen und so vor dem Verfall zu retten. Dies wird möglich, indem große Buch-Archive eingescannt werden. Das Problem beim Digitalisierungsprozess: Um den Speicherplatz möglichst klein zu halten, werden die Buchseiten zwar zunächst als Bilder gescannt, später aber als Text gespeichert. Leider aber sind die Programme zur Texterkennung längst nicht frei von Fehlern: Buchstaben werden falsch gelesen, Wörter nicht erkannt und letztlich geht Wissen verloren.

"Das Menschheitswissen digital zu speichern und es jedem zugänglich zu machen, ist eines der wichtigsten Dinge, die wir tun können", sagt von Ahn. Millionen von Wörtern aus den Büchern ganzer Bibliotheken hat der Informatiker mithilfe seines Programms bereits digitalisieren lassen. Die gescannten Bilder aller unerkannten Wörter werden gesammelt und auf die verschiedenen Seiten mit Recaptcha-Software verteilt. Von dort kommen dann die hoffentlich richtigen "Übersetzungen" zurück. So löst die Masse der Netznutzer haufenweise Worträtsel, ohne dass es für den Einzelnen ein großer Aufwand wäre. Ein Phänomen, das als "Crowdsourcing" beschrieben wird.

Recaptcha spart damit nicht nur die Kosten für hauptberufliche menschliche Übersetzer, sondern arbeitet auch viel schneller, derzeit etwa für das amerikanische Internet Archive. Dieses Projekt speichert Hunderttausende von Büchern, deren Copyright abgelaufen ist. Auf über 45.000 Webseiten läuft Recaptcha bereits. Unter den Seiten, die Recaptcha nutzen, sind bekannte Namen wie Facebook, das Internetradio last.fm und eine Vielzahl an Online-Shops.

Der normale Internetnutzer bekommt davon wenig bis gar nichts mit, obwohl er die eigentliche Intelligenzleistung vollbringt: die visuellen Muster als Schriftzeichen zu erkennen. Damit Recaptcha weiß, dass der jeweilige Nutzer dabei nicht ebenso hilflos ist wie eine Maschine, bedarf es eines Tricks – schließlich kennt das System das unleserliche Wort ja selbst nicht. Recaptcha zeigt dem Nutzer ein zweites Wort, das es kennt. Wird dieser bekannte Text richtig erkannt, geht das System davon aus, dass der Nutzer auch das unbekannte Wort richtig übersetzt hat. Das unleserliche Wort geht dabei immer an mehrere Nutzer, um eine möglichst hohe Trefferquote zu erreichen. Das funktioniere ausgezeichnet, sagt von Ahn: "Wir erreichen eine Genauigkeit von insgesamt über 96 Prozent".

Doch die Zeit von Recaptcha könnte schon bald vorbei sein, denn wie lange Captchas noch eingesetzt werden, ist ungewiss. Inzwischen gelten sie nicht mehr als uneingeschränkt sicher. "Automatisierte Computerprogramme, sogenannte Bots, brechen Captchas bereits innerhalb von wenigen Wochen oder sogar Tagen", sagt Marc Fischlin, Informatiker an der Technischen Universität in Darmstadt. Manche Captchas könnten Nutzer kaum noch vor Datendieben schützen. Erst Anfang des Jahres gelang es Spambots, das Captcha-System von Yahoo-Mail und Hotmail zu knacken. "Captchas waren noch nie sicher, sie steigern nur den Aufwand, Bots zu schreiben, die sie erkennen können", sagt Michael Backes, Professor für Informationssicherheit an der Universität Saarland. Allerdings erhöhen sie das Sicherheitsgefühl und fangen zumindest einfache Bots bislang gut ab.

Luis von Ahn sieht das Ganze gelassen: "Recaptcha, wie auch jedes andere Captcha, wird eines Tages gebrochen werden". Dieser Tag sei aber noch nicht allzu nah. Bis dahin werden wir alle wohl noch ein paar Millionen Captchas lösen – und nebenbei unbemerkt dabei helfen, unser Wissen auf Speicherchips abzulegen.

 
Leserkommentare
    • c321
    • 14.08.2008 um 21:03 Uhr

    ...

  1. Mag sein, dass ich etwas nicht richtig verstehe - dann moege man mich bitte eines besseren belehren. Aber war nicht der Grundgedanke dieser Wortraetsel (wie auch in der Einleitung des Artikels beschrieben) nachzuweisen, dass vor dem Bildschirm tatsaechlich ein Mensch sitzt und kein Computer?Wenn dem nun so ist, dann wuerde "Recaptcha" doch eben JEDEN Phantasiebegriff als "korrekte Uebersetzung" werten und den Zugang zur Seite gewaehren - die korrekte Loesung ist ja gerade noch unbekannt. Wuerde das wiederum nicht das gesamte Konzept der "Captchas" ueber den Haufen werfen, weil nun keine Sicherheitsabfrage mehr besteht? - Man klaere mich bitte auf.

    Reaktionen auf diesen Kommentar anzeigen

    So wie ich das verstanden hab, wird neben das unbekannte verzerrte Wort noch ein weiteres bekanntes verzerrtes Wort geschrieben. Dadurch wird die Sicherung aufrecht erhalten und man kann davon ausgehn, dass das unbekannte Wort korrekt übersetzt wurde. Ein unbekanntes Wort wird außerdem mehrmals verwendet um Fehler (Tippfehler, Manipulation...) auszuschließen.

    So wie ich das verstanden hab, wird neben das unbekannte verzerrte Wort noch ein weiteres bekanntes verzerrtes Wort geschrieben. Dadurch wird die Sicherung aufrecht erhalten und man kann davon ausgehn, dass das unbekannte Wort korrekt übersetzt wurde. Ein unbekanntes Wort wird außerdem mehrmals verwendet um Fehler (Tippfehler, Manipulation...) auszuschließen.

  2. So wie ich das verstanden hab, wird neben das unbekannte verzerrte Wort noch ein weiteres bekanntes verzerrtes Wort geschrieben. Dadurch wird die Sicherung aufrecht erhalten und man kann davon ausgehn, dass das unbekannte Wort korrekt übersetzt wurde. Ein unbekanntes Wort wird außerdem mehrmals verwendet um Fehler (Tippfehler, Manipulation...) auszuschließen.

    Antwort auf "Moment mal!"
    Reaktionen auf diesen Kommentar anzeigen

    das ist ja dann doppelt ärgerlich für den nutzer. ich sehe darin wenig sinn. erst recht wenn davor ausgegangen werden kann, dass 90% der anfragen an diese captchas ja nur bot-müll ist. das ist kein "crowd-sourcing", das ist "spam-sourcing".

    ...dann stimme ich "Hardliner" zu: Dadurch waere doch durch "Recaptcha" keinesfalls verschenkte Zeit genutzt worden (wie im Artikel grossartig verkuendet),
    sondern nur zusaetzliche Zeit des Menschen vor dem Computer geklaut
    worden.

    Ich habe beim Autor nachgefragt: Ladekontrollleuchte (Kommentar 3) beschreibt den Vorgang ganz richtig.Mit freundlichen Grüßen,Johannes Kuhn, Redaktion ZEIT ONLINE

    das ist ja dann doppelt ärgerlich für den nutzer. ich sehe darin wenig sinn. erst recht wenn davor ausgegangen werden kann, dass 90% der anfragen an diese captchas ja nur bot-müll ist. das ist kein "crowd-sourcing", das ist "spam-sourcing".

    ...dann stimme ich "Hardliner" zu: Dadurch waere doch durch "Recaptcha" keinesfalls verschenkte Zeit genutzt worden (wie im Artikel grossartig verkuendet),
    sondern nur zusaetzliche Zeit des Menschen vor dem Computer geklaut
    worden.

    Ich habe beim Autor nachgefragt: Ladekontrollleuchte (Kommentar 3) beschreibt den Vorgang ganz richtig.Mit freundlichen Grüßen,Johannes Kuhn, Redaktion ZEIT ONLINE

  3. das ist ja dann doppelt ärgerlich für den nutzer. ich sehe darin wenig sinn. erst recht wenn davor ausgegangen werden kann, dass 90% der anfragen an diese captchas ja nur bot-müll ist. das ist kein "crowd-sourcing", das ist "spam-sourcing".

  4. ...dann stimme ich "Hardliner" zu: Dadurch waere doch durch "Recaptcha" keinesfalls verschenkte Zeit genutzt worden (wie im Artikel grossartig verkuendet),
    sondern nur zusaetzliche Zeit des Menschen vor dem Computer geklaut
    worden.

  5. Wenn die Bots erst einmal so gut sind, dass sie jedes Captcha lösen können, kann man sie doch zumindest nutzen, um die fehlenden Wörter in den Scans der Bücher zu erkennen auch ohne Umweg über Captchas. Jeder Herrsteller von OCR-Software hätte Interesse daran, diese Technik zu erwerben. Ich vermute, dass es noch längst nicht so weit ist, sondern nur viel einfachere Captchas automatisch gelöst werden können.

  6. Ich habe beim Autor nachgefragt: Ladekontrollleuchte (Kommentar 3) beschreibt den Vorgang ganz richtig.Mit freundlichen Grüßen,Johannes Kuhn, Redaktion ZEIT ONLINE

    Reaktionen auf diesen Kommentar anzeigen

    Dann wuerde es sich anbieten, ebenfalls beim Autor nachzufragen und sich folgende dem Artikel entnommene Behauptung erklaeren zu lassen:""Jeden Tag werden weltweit etwa 200 Millionen Captchas gelöst, das sind
    jedes Mal zehn Sekunden Zeit, die verschwendet werden", sagt der
    Informatik-Professor an der Universität in Pittsburgh. Deswegen hat er
    ein neues Programm entwickelt und sich damit eine Vision erfüllt: Er
    holt die verlorene Zeit zurück und stellt sie in den Dienst der
    Menschheit."In der Tat holt der Herr Professor dann doch keine Zeit fuer die Menschheit zurueck, sondern schafft neue zusaetzliche Zeitverschwendung fuer den Einzelnen, die er dann in den Dienst seines Eigengewinns (in Form des verkauften Programmes "Recaptcha" stellt. Das ist so aehnlich, wie die Menschheit zum Laufradtreten und damit Energigewinnung "zum Nutzen der Menschheit" zu verdammen und gleichzeitig zu behaupten, man hole damit verlorene Energie beim Hausputz fuer die Menschheit zurueck. Die o.g. Behauptung des Herrn Professors ist damit als infame Luege enttarnt.

    Dann wuerde es sich anbieten, ebenfalls beim Autor nachzufragen und sich folgende dem Artikel entnommene Behauptung erklaeren zu lassen:""Jeden Tag werden weltweit etwa 200 Millionen Captchas gelöst, das sind
    jedes Mal zehn Sekunden Zeit, die verschwendet werden", sagt der
    Informatik-Professor an der Universität in Pittsburgh. Deswegen hat er
    ein neues Programm entwickelt und sich damit eine Vision erfüllt: Er
    holt die verlorene Zeit zurück und stellt sie in den Dienst der
    Menschheit."In der Tat holt der Herr Professor dann doch keine Zeit fuer die Menschheit zurueck, sondern schafft neue zusaetzliche Zeitverschwendung fuer den Einzelnen, die er dann in den Dienst seines Eigengewinns (in Form des verkauften Programmes "Recaptcha" stellt. Das ist so aehnlich, wie die Menschheit zum Laufradtreten und damit Energigewinnung "zum Nutzen der Menschheit" zu verdammen und gleichzeitig zu behaupten, man hole damit verlorene Energie beim Hausputz fuer die Menschheit zurueck. Die o.g. Behauptung des Herrn Professors ist damit als infame Luege enttarnt.

  7. Dann wuerde es sich anbieten, ebenfalls beim Autor nachzufragen und sich folgende dem Artikel entnommene Behauptung erklaeren zu lassen:""Jeden Tag werden weltweit etwa 200 Millionen Captchas gelöst, das sind
    jedes Mal zehn Sekunden Zeit, die verschwendet werden", sagt der
    Informatik-Professor an der Universität in Pittsburgh. Deswegen hat er
    ein neues Programm entwickelt und sich damit eine Vision erfüllt: Er
    holt die verlorene Zeit zurück und stellt sie in den Dienst der
    Menschheit."In der Tat holt der Herr Professor dann doch keine Zeit fuer die Menschheit zurueck, sondern schafft neue zusaetzliche Zeitverschwendung fuer den Einzelnen, die er dann in den Dienst seines Eigengewinns (in Form des verkauften Programmes "Recaptcha" stellt. Das ist so aehnlich, wie die Menschheit zum Laufradtreten und damit Energigewinnung "zum Nutzen der Menschheit" zu verdammen und gleichzeitig zu behaupten, man hole damit verlorene Energie beim Hausputz fuer die Menschheit zurueck. Die o.g. Behauptung des Herrn Professors ist damit als infame Luege enttarnt.

    Antwort auf "Richtig beschrieben"

Bitte melden Sie sich an, um zu kommentieren

Service