Unser Gehirn ist gebaut, um Muster wiederzuerkennen. Eine breite Nase, lange Wimpern und schmale Lippen setzt es beispielsweise zu einem Gesicht zusammen, die zwölf dorischen Säulen mit der Quadriga auf dem Dach werden zum Brandenburger Tor. Muster zu erkennen lernen auch Ärztinnen und Ärzte. Im Krankenhaus rettet die ausgebildete Fähigkeit Leben, wenn etwa eine Hautärztin erkennt, dass ein vermeintlicher Leberfleck doch Hautkrebs ist. Oder wenn ein Hausarzt einen winzigen Fleck im Röntgenbild entdeckt und seine Patientin an einen Fachmann überweist.

Dabei arbeitet das Gehirn meist sehr akkurat. Immer wieder aber unterläuft ihm ein Fehler – und dem Arzt damit schlimmstenfalls eine Fehldiagnose. Zudem braucht die Ärztin oft lange, um Aufnahmen auszuwerten. Weil Bilderkennungssoftware in den vergangenen Jahren deutliche Fortschritte gemacht hat, soll sie Ärzte in ihrer Arbeit unterstützen. Das Potenzial, da sind sich Experten einig, ist riesig: genauere Diagnosen, kürzere Wartezeiten, vielleicht gar mehr Zeit für das Arzt-Patienten-Gespräch. Mit den Hoffnungen einher geht die Sorge: Wird die Software manchen Radiologen und manche Hautärztin ersetzen?

Bilderkennungssoftware nutzt meist eine Form der künstlichen Intelligenz, das Deep Learning. Dabei gibt ein Mensch der Software ein Bild und ein bestimmtes Merkmal vor, das sie in anderen Aufnahmen wiedererkennen muss. Um das vorgegebene Merkmal zu finden, teilt sie die Bilder in mehrere Ebenen, um von einzelnen Pixeln – unterste Ebene – zu einem ganzen Bild – höchste Ebene – zu kommen. Unser Gehirn macht es ähnlich, wenn es bestimmte Dinge, die wir sehen, hören oder fühlen, zuordnen muss. Aufgrund dieser Analogie werden die Programme auch als künstliches neuronales Netzwerk bezeichnet. In der Medizin lernt die Software, indem man sie zum einen Bilder – etwa CT-Scans oder Fotos von verdächtigen Hautstellen – einlesen lässt und ihr zum anderen die vorher von einem Arzt bestimmte Diagnose mitteilt.

Kein Hautarzt diagnostiziert nur anhand eines Fotos

Das jüngste Beispiel eines solchen selbstlernenden Systems, das die Medizin verbessern könnte, kommt aus Heidelberg. Dort entwickelten Wissenschaftler und Wissenschaftlerinnen eine Software, die den gefährlichen schwarzen Hautkrebs, das maligne Melanom, von harmlosen Muttermalen unterscheiden soll. Die Software trainierten sie mit 100.000 Fotos und der jeweils richtigen Diagnose. Dann ließen sie die Software gegen Hautärzte antreten.

58 Dermatologen aus insgesamt 17 Ländern mit unterschiedlicher Berufserfahrung werteten dieselben 100 Bilder aus wie die Maschine. Die Bilder waren wohlgemerkt neu, weder die Maschine noch die Ärzte kannten sie oder die richtige Diagnose. Auf 80 dieser Bilder waren Muttermale zu sehen und auf den restlichen 20 Melanome.

Die Ergebnisse des Wettstreits sind vor Kurzem in der Fachzeitschrift Annals of Oncology erschienen (Haenssle et al. 2018). Sie sind – zumindest auf den ersten Blick – sehr beeindruckend. Der Computer schlug bei 95 Prozent der Hautkrebsfälle tatsächlich Alarm, bei den Ärzten waren es nur 86,6 Prozent. In einem zweiten Anlauf bekamen die Ärzte zusätzliche Informationen wie Alter oder Geschlecht zu den Fotos. Dadurch kamen sie auf 88,9 Prozent korrekte positive Tests. Eine kleine Verbesserung, doch noch immer schlechter als die Software. 

In einem sehr wichtigen Punkt aber schlugen die Ärztinnen und Ärzte die Software deutlich. Der Computer erkannte die Gesunden nicht so akkurat wie die Fachleute. So hielt er lediglich 63,8 Prozent der Gesunden für gesund, die Ärztinnen immerhin 71,3 Prozent. Anders ausgedrückt: Der Computer gab 29 Patienten eine Hautkrebsdiagnose, obwohl die Flecken auf der Haut nur Muttermale waren. Die Ärzte hingegen stellten mithilfe der Zusatzinformationen nur 20 fälschlicherweise positive Diagnosen.

Was die Studie außerdem nicht berücksichtigt: Kein Hautarzt stellt die Diagnose nur anhand eines Fotos. Im Normalfall führt er eine umfassende Untersuchung durch, er befragt die Patientin nach ihrer Krankengeschichte und Risikofaktoren, zum Beispiel nach häufigen Sonnenbränden in der Kindheit. Außerdem tastet er den Fleck genau ab, um herauszufinden, ob die Stelle verhärtet ist oder leicht anfängt zu bluten – beides mögliche Hinweise für Hautkrebs.

Zudem meldet die Software nur, ob ein Patient schwarzen Hautkrebs haben könnte oder nicht, aber nicht, ob es sich in letzterem Fall um ein völlig normales Muttermal oder um weißen Hautkrebs handelt, der in Deutschland fast sechsmal so häufig vorkommt wie das maligne Melanom.