"Das sieht aus wie ... ein Himmel?"

Das geht ja gut los. Eigentlich bin ich an diesem Tag losgezogen, um die Welt aus der Sicht einer App zu betrachten: der von Google Lens, der Bildanalyse-App des Techunternehmens. Zumindest die kleine Welt von Berlin sollte sie mir erklären können im Laufe eines längeren Spaziergangs vom Potsdamer Platz über den Pariser Platz und Alexanderplatz bis hin nach Prenzlauer Berg. Lens, das ist das Versprechen von Google, soll alles erkennen, was man mit der Kamera eines Smartphones in den Fokus nimmt. Wie also blickt eine App, letztlich eine Maschine auf die Dinge, die man als Mensch mit bloßem Auge erkennt – und dank der Leistungsfähigkeit des Hirns problemlos zuordnen kann?

Am Potsdamer Platz habe ich mein Smartphone als Erstes auf die mit Glas verkleidete Fassade des Hochhauses gerichtet, auf dem groß das Deutsche-Bahn-Logo prangt. Doch die Bilderkennung sieht dort offenbar nur den etwas bewölkten Himmel, der sich im Glas spiegelt. Nicht das Gebäude selbst, auf das ich tippe.

Na gut, vielleicht ist so ein irgendwie auch verwechselbares Hochhaus schwer zu identifizieren. Ich knipse noch ein Foto von drei Türmen, die in jeder anderen Metropole einfach Wolkenkratzer wären. In Berlin, wo es gar keine richtigen gibt, verleihen die halbwegs hohen Hochhäuser aber gleich einem ganzen Platz sein charakteristisches Aussehen.

"Das sieht aus wie ... ein Himmel?", fragt die App erneut, so als hege auch sie selbst Zweifel an ihren Fähigkeiten.

Lern mehr über die Welt, sagt Google. Aber was, bitte?

Ich versuche es noch zweimal, einmal erkennt Google Lens wieder nur Himmel, ein anderes Mal ein Restaurant, das einige Hundert Meter entfernt am Askanischen Platz liegt.

Ich bin gleich zu Beginn meines Spaziergangs etwas ratlos. Die Bildanalyse-App ist seit Juni verfügbar, mittlerweile auch auf Deutsch. Mithilfe von künstlicher Intelligenz soll sie live Objekte erkennen und identifizieren können. "Learn more about the world", heißt es vollmundig im Play-Store über die App. Bisher habe ich lediglich gelernt, dass sehr viel nach Himmel aussehen kann. Nun ja. Vielleicht ist der Potsdamer Platz auch gar nicht so charakteristisch, wie ich dachte.

Ich laufe weiter, die Ebertstraße entlang. Der Weg führt als Nächstes am Denkmal für die ermordeten Juden Europas vorbei, ein einzigartiger Ort, beeindruckend und beklemmend. Ich fotografiere die Betonstelen des Holocaust-Mahnmals, das Peter Eisenman entworfen hat.

"Das sieht aus wie ... ein Baum?"

Bitte?

Im Hintergrund sind zwar tatsächlich ein paar Bäume zu sehen, doch der Bildvordergrund wird dominiert von den Stelen. Noch ein Foto, dieses Mal ohne Bäume.

"Das sieht aus wie ... eine Fliese?"

Beton vor den Augen

Vielleicht bringt ein Sprachwechsel etwas. In den Einstellungen wähle ich Englisch aus und drücke noch einmal auf den Auslöser. Aber nein, Lens sieht immer noch Bäume statt Stelen.

Allerdings habe ich der App auch eine Möglichkeit zu schummeln verwehrt. Schummeln jedenfalls im Sinne einer reinen Bilderkennung, die sich einzig auf die Informationen im Foto selbst beziehen kann: Ich habe Lens keinen Zugriff auf meinen Standort erlaubt. Die App benutzt die Geo-Daten des Smartphones sonst ganz selbstverständlich mit, und das hätte ihr bei einem so prominenten Ort wie dem Holocaustmahnmal sicher bei der Identifizierung geholfen. Ich habe sie auch nicht mit Google Maps verknüpft, auch damit soll sie sonst funktionieren. So hat sie nun nur Beton vor den Augen. Doch eine echte Bilderkennung müsste doch auch damit zurechtkommen.

Womöglich haben einige der Touristen, mit denen ich mich gerade an diesem absichtsvoll unwirtlichen Ort aufhalte, auch einfach Google Lens angeschaltet und kapieren nicht, warum die Stelen hier eigentlich stehen und was sie bedeuten. Anders jedenfalls ließen sich die Selfies, die die Herrschaften von sich machen im Stelenfeld, kaum erklären.

Eigentlich soll Lens eine intelligentere Version des Vorgängers Google Goggles darstellen. Lens funktioniert eigenständig, die App ist für das ebenfalls von Google bereitgestellte Betriebssystem Android und sogar für Apples iOS verfügbar. In manchen Android-Smartphones ist das Angebot zusätzlich im Sprachassistenten Google Assistant und in der Foto-Anwendung Google Photos integriert. Die Idee geht in Richtung Augmented Reality: Nutzerinnen und Nutzer können durch das Smartphone die Umgebung erfahren.

Daumen rauf oder runter?

Das Unternehmen hat die neue App zwar mit einer besseren Machine-Learning-Technologie ausgestattet als noch Goggles. Aber davon habe ich auf meinem Spaziergang bislang nicht viel bemerkt. Die Anwendung ist immer noch auf Feedback des Users angewiesen, jedenfalls erscheint unter jedem Ergebnis ein emojiartiger Daumen: hoch oder runter.

Ich drücke Daumen runter. Sofort will Google von mir genau wissen, was denn falsch an der Auszeichnung "Baum" war und blendet ein Feedback-Feld ein, inklusive des Bildes von den Stelen, das ich gemacht habe. Natürlich alles gekoppelt an meine Gmail-Adresse. Mir ist nicht klar, wo das Feedback landet, ob es öffentlich irgendwo angezeigt wird oder nicht. Google will mal wieder Daten über mich sammeln, sagt mir aber nicht, wofür es die verwendet. War ja klar. Ich breche ab.

Frustriert stapfe ich weiter Richtung Brandenburger Tor und drücke vor dem Wahrzeichen der Hauptstadt wieder auf den Knopf in der App.

"Brandenburger Tor."

Juchu, ein Treffer! Google zeigt auch gleich Weiterverknüpfungen zum Brandenburger Tor an, fast alle davon hauseigene: Google-Suche, Google Maps, YouTube, Street View – aber auch eine eigene Website. Ich wusste nicht mal, dass das Brandenburger Tor eine Website hat! Leider ist es dann nur ein Link auf berlin.de, aber immerhin: Wäre ich das erste Mal in Berlin, wüsste ich jetzt, dass ich am Brandenburger Tor stehe.

Kultur kann die Linse

Das hätte ich vielleicht aber auch so herausgefunden, steht schließlich in jedem Reiseführer. Doch jetzt läuft es jedenfalls: Die App erkennt auch problemlos den Reichstag (von hinten und mit Bäumen davor!), den Pariser Platz, das Hotel Adlon, später den Fernsehturm am Alex und den Alexanderplatz. Nur die Siegessäule ist auf dem Foto, das ich mache, offenbar zu weit weg, statt der auf dem Bild etwas pixeligen Sehenswürdigkeit im Hintergrund konzentriert sich Lens auf ein Auto im Vordergrund und benennt sogar das Modell, einen Nissan Livina.

Vielleicht wird es mit meinem Experiment ja doch noch was. Grundsätzlich finde ich die Idee von Google Lens nämlich sinnvoll. Texte kann man schon lange nach Schlagworten durchscannen. Und ziehe ich ein Bild in die Google-Suche im Browser, sagt Google mir auch, was darauf mutmaßlich zu sehen ist oder wo das Bild entstanden sein könnte. Nur im Alltag fehlt so eine Funktion, die schnell Fragen beantworten kann: Wie heißt dieses Denkmal? Was für ein Baum ist das eigentlich vor mir? Und was für eine Beere, die sich das Kind dort vorne gerade in den Mund zu stecken gedenkt?

Am Pariser Platz halte ich die Kamera wahllos auf ein paar Plakate und Schilder. Dalí-Ausstellung: erkannt. Madame Tussaud’s: erkannt. Werbung für das Musical Ghost, auf der Rückseite einer Rikscha angebracht: erkannt, inklusive Namen der Schauspieler. Kultur kann die Linse offenbar.

Oder genauer: Text.

Google weiß: Wir kommunizieren mehr über Bilder

Schon vor meinem Spaziergang habe ich ein paar Bücher und Visitenkarten im Büro abfotografiert (laut Website kann die App das besonders gut). Tatsächlich liest sie problemlos Buchtitel und Autoren sowie Namen, Unternehmen, Adressen, Telefonnummern aus. Man kann die Informationen auf der Visitenkarte direkt auch direkt als Kontakt anlegen. Das ist für mich bequem, keine Frage. Es gibt aber natürlich auch schon andere Scan-Programme, die so was anbieten. Und möchte ich ein Buch bestellen, kann ich auch einfach den Titel in mein Smartphone tippen. Dass Google, die Firma, deren Suche nun mal anfangs ganz auf Buchstaben basierte, Text analysieren kann, wusste ich nun wirklich schon vorher. Jetzt halt auch über Fotos, woohoo

Für Google-CEO Sundar Pichai ist allerdings genau das der große Wandel. "Google wurde gebaut, weil wir Text und Webseiten zu verstehen begannen", sagte er während der ersten Vorstellung von Lens im Oktober 2017. "Dass Computer jetzt auch Bilder und Videos erfassen, hat tiefgreifende Auswirkungen auf unsere Kernmission." Mit Lens reagiert das Unternehmen auf den Trend im Netz hin zur visuellen Sprache. Apps wie Instagram funktionieren nur noch über Bilder, Snapchat über Video, selbst Facebook hat das Bewegtbild entdeckt. Gerade jüngere kommunizieren oft über Fotos statt Text, diese Zielgruppe muss Google künftig irgendwie erreichen. Und was ist da als Suchmaschinenbetreiber logischer, als auch Bilder durchsuchbar zu machen: Sehenswürdigkeiten, Pflanzen, Tiere, modische Produkte wie Shirts oder Schuhe, selbst Kunst und eben auch Text auf Fotos soll die Google-Suche für den Alltag erkennen.

Unspektakulär bleibt das trotzdem irgendwie. Da erkunde ich mit Lens lieber die Flora des Prenzlauer Bergs, denn Biologie ist ein Gebiet, auf dem die App mir wirklich etwas beibringen kann. Obwohl ich Bio in der Schule gar nicht so uninteressant fand, hat sich wenig über die verschiedenen Baum- und Pflanzenarten eingeprägt. Ich kann die Blätter einer Färber-Eiche und einer Deutschen Eiche unterscheiden, viel mehr ist leider nicht hängengeblieben. Google verspricht, dass man da mehr lernen könne durch die Lens.

Ich halte die Kamera auf Pflanzen am Wegesrand und in Blumenkästen, Lavendel und Rhododendron (dafür reicht das Wissen aus dem Bio-Unterricht noch). Die App schlägt unterschiedliche Pflanzenarten vor: neben Lavendel etwa die Amerikanische Schönfrucht und eine Pflanze namens Monardella villosa, neben Rhododendron den Grönländischen Porst und den Rhodendron canadense.

"Das sieht aus wie … ein Wasser?"

Nur: Als Flora-Laie bringt mir das wenig. Im Netz muss ich erst einmal suchen, welche Arten man denn nun wirklich auf den Fotos sieht (es stellt sich heraus: einen schmalblättrigen Lavendel und einen Riesen-Rhodendron). Lernen kann man von Lens in diesem Bereich nicht wirklich viel. Außer wie man Pflanzen googelt.

Ich bin langsam so genervt von meinem digitalen Begleiter, dass ich die Kamera schließlich einfach auf alles draufhalte, was mir in den Blick kommt.

Parkautomat: "Madrid" oder "Handy-Parken" (die Kamera liest mal wieder Text, statt das Bild zu analysieren).

Telefonzelle (ja, so was gibt es in Berlin noch): "Das sieht aus wie … ein Mobilgerät?"

Haustür: "Das sieht aus wie … ein Schrank?"

Treppe: "Das sieht aus wie … ein Fußboden?"

Kopfsteinpflaster: "Das sieht aus wie … ein Wasser?" Immerhin glaubt Lens, dass ich über Wasser laufen kann. Kann ja auch nicht jeder. 

Was dem Algorithmus gefällt

Eine wesentliche Schlussfolgerung bleibt am Ende des Spaziergangs: Google Lens erkennt offenbar vor allem das, was dem Unternehmen selbst irgendwie nutzt. Bücher, weil Nutzerinnen und Nutzer die über Google suchen und dann im Netz bestellen können. Visitenkarten, die abzufotografieren und bei Google hochzuladen den Nebeneffekt haben könnte, dass das Unternehmen die Kontaktdaten von Millionen Personen erfährt. Events, weil es damit mögliche Nutzerinteressen herausfinden könnte. Sehenswürdigkeiten, weil es Personen dort orten könnte. Und wenn Text irgendwo vorkommt, umso besser. Google macht sich die Welt, wie sie dem Algorithmus gefällt, und der mag Buchstaben, Zahlen, Zeichen.

Für mich als Nutzerin eröffnet der Blick durch die Augen dieser App eine etwas diffuse Weltsicht, die mich mehr verwirrt als weiterbildet. Ich öffne die App ein letztes Mal und knipse einen Abfalleimer.

"Das sieht aus wie … ein Abfalleimer?" Wenigstens Müll erkennt Google Lens zuverlässig. Das ist doch schon mal was.