Suchmaschinen Das extrahierte Etwas
Wie eine norwegische Suchmaschine Sinn aus den Inhalten des Netzes zieht und damit Google angreift. Ein Gespräch mit dem Wirtschaftsinformatiker Conny Roloff
Conny Roloff ist Director Technical Sales Central, Eastern & Southern Europe bei Fast Search & Transfer. Sein Unternehmen wurde jüngst von Microsoft übernommen und gilt als Schmiede für Suchmaschinentechnik, die dem Marktführer Google ernsthafte Konkurrenz machen könnte.
ZEIT online: Herr Roloff, was genau bedeutet Fast?
Conny Roloff: 'Fast' ist englisch und heißt schnell.
ZEIT online: Ok, aber ist Fast ein Akronym?
Roloff: Nun ja, es ist ein sich selbst beschreibendes Akronym, ähnlich dem bekannten "GNU", das "GNU ist Not Unix" bedeutet. Fast heißt "FAST Search and Transfer". Meist benutzen wir die Kurzform, weil Fast eben schneller ist und weil es sich auch schneller spricht. 'FAST' ist auch das Börsenkürzel an der Osloer Börse.
ZEIT online: Es gab in den Anfängen, noch vor 1997, eine sehr populäre FTP-Suchmaschine von Fast, ftpsearch.no ...
Roloff: Stimmt, von der habe ich auch schon einmal gehört, aber das ist bei uns nicht mehr so präsent. „ AllTheWeb “ als Suchmaschine für das WWW ist dagegen noch sehr bekannt. „AllTheWeb“ war auch von Fast. Es ist von Overture gekauft worden und Overture dann von Yahoo!. Als Suchmaschine war „AllTheWeb“ mindestens genauso gut, wenn nicht besser als Google, damals 2000/2002.
ZEIT online: Kannte „AllTheWeb“ das Prinzip des Pageranks, also die Gewichtung der Dokumente nach der Anzahl der Links auf dieses Dokument?
Roloff: Ja. Zuerst dominierte Altavista - und plötzlich kam Google, dessen Ranking erstaunlicherweise viel besser war. Mit Inktomi und AllTheWeb gab es dann aber sehr bald bessere oder gleich gute Wettbewerber, auch der Umfang, damals rund drei Milliarden Dokumente, war in etwa gleich und weniger mit SPAM gefüllt als der von Google. Insider sagten: such damit, das ist besser. Aber Google war und blieb übermächtig und am bekanntesten.
ZEIT online: Warum? Weil Google einen Innovationsvorsprung hatte? Oder war es die schlichte Startseite?
Roloff: Beides. Es war aber auch nie das erklärte Ziel von Fast, mit der öffentlichen Suchmaschine AllTheWeb Geld zu verdienen, das ist nicht das Geschäftsmodell von Fast. Google hatte das Geschäftsmodell, mit Hilfe dieser Suchmaschine irgendwie reich zu werden, aber nicht, die Software zu verkaufen. Das tun die zwar auch, aber nur am Rande.
ZEIT online: Fast versucht, Software zu verkaufen?
Roloff: Genau, wir sind ein Softwareunternehmen, wir verkaufen Software.
ZEIT online: Ein öffentliches Suchportal betreiben Sie nicht mehr?
Roloff: Nein. Überhaupt nicht. Das machen unsere Kunden, wir 'motorisieren' die Wettbewerber von Google. Das sind beispielsweise die Medien und der ganze öffentliche Bereich. Das leuchtende Beispiel ist immer „ Sesam.no “ in Norwegen, weil die mit einem besseren Portal zumindest in Norwegen Google wirklich die Stirn bieten konnten. Wenn also jemand ein Suchportal aufbauen will, liefern wir ihm die Technik.
Ebenso wichtig ist der Einsatz als Suchmodul in anderen großen Produkten, in CoreMedia zum Beispiel, dem größten deutschen CMS ( Content-Management-System ) oder Siebel , dem CRM ( Customer Relationship Management ). Das ist möglich, weil unsere Produkte sehr modular und offen sind. Bei Fast können Sie überall eingreifen. Sie können die individuellen Anforderungen immer verwirklichen, weil Sie an allen Stellen mit weiteren, auch eigenen Entwicklungen, ansetzen können. Das ist ein wichtiger Unterschied zu unseren Konkurrenten.
Sprache und Wissen
Der andere Unterschied ist, dass es Dinge gibt, die Sie mit keinem anderen Produkt außer Fast überhaupt realisieren können. Wir haben wirkliche '
Unique-Selling-Points
', wie man das nennt.
Einer ist, dass wir Wissens-Entitäten extrahieren können – also die interessanten Begriffe aus den Volltexten. Wenn wir beispielsweise den
ZEIT
-Inhalt indexieren würden, dann könnte man hinterher genau sehen, welche Personen darin vorkommen, welche Orte, welche Firmen und vieles andere - wir ermitteln rund zwanzig verschiedene dieser Kriterien
Out-of-the-Box
.
ZEIT online: Welche Sprachen unterstützen Sie dabei?
Roloff: Wir können 80 Sprachen für die normale Suche erfassen. Für 32 dieser Sprachen unterstützen wir die Rechtschreibprüfung und die speziellen Besonderheiten wie Wortformen, Wortflektionen, damit man 'die Mäuse' finden kann, obwohl man nur 'Maus' eingetippt hat.
Wir können aus all diesen Sprachen auch Begriffe herausziehen, aber es gibt dann Abstufungen in der Qualität der Extraktion. In manchen Sprachen kann man das nur über Listen von bekannten Namen, die dann markiert werden. Aber im Deutschen oder im Englischen haben wir zusätzlich Regeln, über die man auch einen Firmennamen entdeckt, der vorher unbekannt ist – nur weil es aus dem Kontext und der Satzstellung heraus sehr wahrscheinlich ist, dass hier ein Firmenname steht. Das machen wir für 10 Sprachen.
ZEIT online: Diese regelbasierte Erkennung von Namen – klappt das gut?
Roloff: Ja, das klappt sehr gut – es gibt immer Raum für Verbesserungen, aber es klappt erstaunlich gut, und es ist auch unheimlich nützlich. Ein praktisches Beispiel: Wenn ich zu einem Interessenten gehe, dann erfasse ich vorher gerne mit unserer Standardlösung dessen Website. Während des Gesprächs kann ich dann sofort die normale Suche anhand seiner Inhalte demonstrieren – und eben etwas mehr. Neben der Ergebnisliste stehen dann unsere 'Navigatoren', also verlinkte Begriffe, Personen, Firmen, Orte, was auch immer, die wir aus seinem konkreten Inhalt herausgezogen haben. Und dann lassen sie sich das gar nicht lange erklären, sondern sagen ganz schnell: Ah, das ist ja interessant. Wieso kommt denn der da vor? Klicken Sie doch mal bitte hier drauf! Sie fangen sofort an, ihren eigenen Content mit Hilfe der Navigatoren zu untersuchen.
Das ist ein ganz wichtiger Unterschied: Wenn man nur Hinweise auf Dokumente bekommt, muss man raten, welches aus dieser langen Liste passen könnte. Wenn ich aber solche 'Navigatoren' habe, dann erhalte ich einen schnellen Überblick über alle Fundstellen, also inhaltliche Informationen über den Content, die mir helfen, das Wichtige zu finden. Das vermittelt eine ganz andere Erfahrung als eine herkömmliche Suche.
ZEIT online: Dann erzeugen Sie „ Tagclouds “, die in Blogs per Hand erstellt werden müssen, ganz automatisch?
Roloff: So könnte man es ausdrücken. Es ist ein wenig komplexer, weshalb wir es lieber „ Contextual Insight “ nennen. Denn wir extrahieren nicht nur die Begriffe und Namen, sondern wir ermitteln auch den Typ einer Information, also etwa, dass an dieser Stelle eine Person vorkommt. Das erlaubt eine neue Qualität von Fragen, die Google nicht beantworten kann. Man kann sagen: Gib mir alle Dokumente, in denen irgendeine Firma vorkommt, also nicht IBM, Microsoft oder Fast konkret, sondern die den Typ 'Firma' enthalten.
Kombiniert mit unserer Satzanalyse kann man dann tiefer gehen: Gib mir alle Dokumente mit Sätzen, in denen das Wort 'Fusion' und eine Firma vorkommen. Damit erhalte ich eine sehr nützliche Übersicht über alle Firmen, die etwas mit Fusionen zu tun haben. Ein Zusammenhang dieser Begriffe in einem Satz macht es sehr wahrscheinlich, dass die gefundenen Dokumente in diesem Sinne interessant sind.
Linguistik
ZEIT online: Wie wichtig sind linguistische Methoden für Fast?
Roloff: Die Sprachwissenschaft steht bei uns ganz vorne.
ZEIT online: Interessant, aber woher bekommen Sie die? Haben Sie selber ein Labor, in dem Sie Forschung und Entwicklung im Bereich Sprache betreiben?
Roloff: Ja, haben wir. Der Hauptteil ist in München, historisch bedingt. Dort gibt es das CIS ( Centrum für Informations- und Sprachverarbeitung ) unter Leitung von Professor Günthner, zu dem wir starke Kontakte unterhalten. Aus dem CIS heraus gab es vor vielen Jahren eine Ausgründung zur Entwicklung computerlinguistischer Werkzeuge für die Volltextsuche, die dann von Fast gekauft wurde. Wir beschäftigen dort 20 Wissenschaftler, dazu noch einige Studenten, die nichts anderes tun, als linguistische Tools, Grammatiken und linguistische Ontologien zu entwickeln und sie zu integrieren. Es gibt auch noch andere Einrichtungen in Rio de Janeiro, in Olso, in Tromsø. Die Kooperation mit Hochschulen war uns schon immer sehr wichtig - Fast selber ist ja auch ursprünglich eine Ausgründung der Norwegian University of Science and Technology in Trondheim.
Web 2.0
ZEIT online: Wen meinen Sie, wenn Sie sagen: 'Der Nutzer' ?
Roloff: Jeden. ( lacht )
ZEIT online: Gibt es einen Unterschied zwischen dem aktiv beteiligten 'Web-Zwo-Nuller' und dem Benutzer einer Suchmaschine?
Roloff: Ich meine, das gehört eng zusammen. Schauen wir auf www.derwesten.de. Auch dieses Portal basiert auf Programmen von Fast. Da hat man Social Tagging , das heißt, die Leute geben Informationen über sich und ihre Umgebung ein, und die kann man mit unserer Technik natürlich wieder finden. Das ist das eine.
Das andere ist unsere „
Recommendation Engine
“. Bisher war eine Suchmaschine meist nur ein Server im Hintergrund. Die Programme wussten nicht, wer der Nutzer ist; wir hatten keine Sessions, keine Cookies und solche Dinge. Doch mit der „Recommendation-Engine“ machen wir das jetzt erstmalig. Die Suchmaschine ist ein Portal, das mitschreibt, auf welchem Weg sich der Nutzer durch das Angebot bewegt. Jeder benutzt den Inhalt auf eine markante Art und Weise. Wir merken uns, wonach er sucht, was er will, welche Produkte aus einem Katalog er sich anschaut oder welche Dokumente, welche Suchergebnisse ihn interessieren.
Dieses Wissen nutzen wir dann bei seiner nächsten Suche, um die Resultate, die wir ihm anbieten, relevanter zu machen. Sie kennen den Effekt von Amazon. Ich bin immer wieder erschrocken, wie gut die Vorschläge dort sind.
ZEIT online:
Nutzen Sie die so gewonnenen Profile, um die Suchergebnisse auch für den nächsten unbekannten Nutzer zu optimieren? Wenn man feststellt, dass sich heute achtzig Nutzer für Winterurlaub interessiert haben, ist es wahrscheinlich, dass sich auch der 81ste Nutzer dafür interessiert.
Roloff:
Genau, man kann dann Cluster bilden und sehr schnell auch einen Benutzer, der wenig aktiv war, einer solchen Gruppe zuordnen – und mit diesem Hintergrund sein weiteres Verhalten vorhersagen. Eventuell bewegt er sich durch sein persönliches Verhalten dann wieder aus diesem Cluster heraus – oder tiefer rein.
Navigatoren
ZEIT online:
Es gibt die schöne Aussage: „Die Nutzer suchen keine Dokumente, die Nutzer suchen Antworten.“ Kann Fast Antworten liefern?
Roloff:
Ja, in einem bestimmten Sinn: Wir liefern nicht nur Suchresultate, sondern auch eine Übersicht über den Inhalt der Suchresultate, eben die schon erwähnten Navigatoren. Durch sie sehe ich auf einen Blick, dass ich in meinen 7567 Suchergebnissen beispielsweise 320 Mal „Helmut Schmidt“ gefunden habe, und das hilft sehr beim weiteren Vorgehen. Ich bekomme dadurch übergeordnete Informationen. Ich habe vielleicht noch nicht einmal Fragen, aber ich bekomme schon mögliche Antworten mitgeliefert. Das meinen wir mit Antworten: nicht nur das Anzeigen von Links auf die Dokumente, sondern auch ein klares Bild von dem, welche Informationen in der Menge enthalten sind.
ZEIT online: Wenn man die Navigatoren abstrakt betrachtet, als eine Auswahl möglicher Klassifikatoren, die automatisch angeboten werden, dann wäre das doch die 'Antwort der Maschine'? Dann aber stammelt die Maschine noch. Sie sagt: 'Merkel', 'Politik', 'Iran', 'Krieg', aber sie spricht nicht in ganzen Sätzen?
Roloff: Ja, das ist richtig, so gesehen stammelt sie noch. Wobei Fast immerhin schon mit natürlichsprachlichen Fragen umgehen kann. Wenn ich frage „Wer ist Präsident der USA?“, dann heißt das eigentlich: Liefere mir alle Dokumente, in denen ein Ort namens 'USA' vorkommt und ebenfalls ein Berufsbezeichner, den wir auch als extrahiertes Etwas haben, mit dem Wert 'Präsident'. Und zeige mir alle Personen, die zusammen mit diesen beiden Informationen in einem Satz vorkommen.
ZEIT online: Da sagt der Linguist: Sie haben ein Kriterium vergessen! Denn die Suche, die Sie beschrieben haben, würde auch Herrn Clinton und Herrn Reagan zurückliefern. Aber in dem 'ist' steckt ein Präsens, ein 'Jetzt', und das könnte man nehmen, um die Suche zeitlich zu beschränken.
Roloff: Ja, stimmt, das ist ein Kriterium ( lacht ).
ZEIT online: Und dann wäre es schön, wenn die Antworten der Maschine keine einzelnen Begriffe mehr sind, sondern Aussagen, irgendwann. Also: 'Es gibt zur Zeit keinen Präsidenten, aber die Präsidentin heißt Hillary Clinton.'
Roloff:
Schön wäre das, ja.
Künstliche Intelligenz
ZEIT online: Es gibt eine Pressemeldung von Google vom Februar diesen Jahres, da heißt es: „Der Suchmaschinen-Gigant Google versucht, eine künstliche Intelligenz zu bauen – 'in großem Maßstab'“. Das hat Larry Page auf der AAAS verraten. Und dann sagt er: „Nicht mehr viele würden versuchen, eine künstliche Intelligenz zu programmieren, dabei sei das Ziel nicht so weit entfernt, wie viele Leute denken [...]“ Glauben Sie, dass aus der Suchtechnik und aus der damit verbundenen Erschließung des Wissens über die menschliche Sprache künstliche Intelligenz entstehen kann?
Roloff: Nein, keine echte 'künstliche Intelligenz'. Aber die Suchtechnologie kann etwas anbieten, von dem der Mensch auf der anderen Seite sich verstanden glaubt. Er will ja etwas und er bekommt es geliefert. Doch unsere bisherigen Ansätze mit KI sind bis jetzt immer fehlgeschlagen, weil wir wegen der Masse der Daten und der Masse der Informationen auf große technische Ressourcen- und Performanceprobleme stoßen. Es hat sich aber gezeigt, dass man viel brachialer und mit deutlich einfacheren mathematischen Methoden auch zu einem sehr guten Ergebnis kommt.
Die Methodik der klassischen KI-Programmierung wird dabei nicht eingesetzt. Aber der Nutzen auf der anderen Seite kann schon ähnlich verstanden werden. Also dass ich als Nutzer sage: Ich sitze hier an einem Gerät, das versteht mich, das versteht, was ich will, und es liefert mir, was ich brauche. In dem Sinne: Ja. Aber ich würde es nicht künstliche Intelligenz nennen.
ZEIT online: Also, es muss den Turing-Test , den Intelligenztest für Maschinen, nicht bestehen, um mir Antworten aus dem Netz zu suchen.
Roloff:
Genau.
Das Gespräch führte Peter Buhr
- Datum 25.04.2008 - 13:58 Uhr
- Seite 1 | 2 | 3 | 4 | 5 | Auf mehreren Seiten lesen
- Quelle ZEIT online
- Versenden E-Mail verschicken
- Empfehlen Facebook, Twitter, Google+
- Artikel Drucken Druckversion | PDF
-
Artikel-Tools präsentiert von:





