Deep Web Schürfen in den Tiefen des Netzes
Suchmaschinen erfassen nur einen Bruchteil des Netzes. Der riesige Rest ist schwer zugänglich, aber durchaus attraktiv. Deshalb suchen verschiedene Dienste nach Zugängen.
Bereits vor Jahren haben Suchmaschinen aufgehört, die Zahl der indexierten Seiten auszuweisen. "Die Größe des Indexes scheint für die großen Suchmaschinenanbieter kein sehr wichtiges Qualitätskriterium mehr zu sein", sagt Philipp Mayr , Professor an der Hochschule Darmstadt im Fachbereich Media. Vielleicht, weil den Suchmaschinen der größte Teil des Webs nach wie vor verborgen bleibt. Schätzungen gehen davon aus, dass Google und andere Suchmaschinen nur ein Hundertstel der vorhandenen Datenmengen erfassen. Wie groß die Menge tatsächlich ist, weiß allerdings niemand.
"Es gibt meines Wissens keine seriösen aktuellen Schätzungen oder Studien über die Größe des Deep Webs", sagt Mayr. Die letzte umfangreiche empirische Studie stammt aus dem Jahre 2001 von Michael Bergman . Er vermutete, dass das Deep Web 400- bis 550-mal größer ist als das von Suchmaschinen erfasste Internet. Dabei handle es sich allerdings um eine sehr ungenaue und einfache Schätzung, so Mayr.
Andere Fachleute wie Rüdiger Schneemann von der TU Berlin sprechen von Schätzungen, nach denen das Deep Web um den Faktor zehn bis fünfzig größer ist als die erfassten Inhalte. "Die Zahlen sind bestimmt angreifbar; sicher aber ist, dass trotz allem die überwiegende Menge an Informationen nicht im Web zu finden ist", so Schneemann.
Bei den Deep-Web-Inhalten handelt es sich um Daten, die entweder nicht kostenlos öffentlich sind oder aus technischen Gründen von Suchmaschinen nicht erfasst werden können. Nirgendwo verlinkte Seiten gehören ebenso dazu, wie durch Passworte geschützte Datenbanken oder Seiten, die Suchmaschinen durch Tags wie " nofollow " gezielt aussperren.
Nicht alle diese Daten sind für den normalen Nutzer überhaupt interessant. "Der größte Teil der Daten, der nicht von Suchmaschinen indexiert wird, ist sicher nach wie vor der Bereich Echtzeit-Daten, beispielsweise bei Aufzeichnungen des Wetters, oder in datenintensiven Experimenten in der Physik", so Mayr. "Es ist aber sehr fraglich ob diese Daten für den allgemeinen Webnutzer sinnvoll zu nutzen sind und in Suchmaschinen verfügbar sein müssen."
Inhalte des Webs landen auf zwei Arten in den Datenbanken der Suchmaschinen. Entweder der Autor der Website meldet den Inhalt manuell bei der Suchmaschine an oder die Suchmaschine findet ihn mittels sogenannter Robots über Links, die auf andere Seiten verweisen. Dabei hangeln sich die Robots von Website zu Website und folgen den jeweiligen Links. Webseiten, die weder verlinkt noch manuell gemeldet werden, bleiben so unentdeckt. Auch können sich die Crawler genannten Programme "verlaufen", weswegen ihre Suchtiefe begrenzt ist. Zu komplexe Seiten werden dadurch nicht vollständig erfasst.
Einen weitaus größeren Teil des Deep Webs stellen allerdings Inhalte dar, die nur angemeldeten Usern zugänglich sind. Ohne weiteres nicht erfasst werden können außerdem Inhalte aus öffentlich zugänglichen Datenbanken, bei denen aber erst ein Suchwort eingegeben werden muss. Googles Index gehört damit im Grunde genommen selbst zum Deep Web – laut Bushee wahrscheinlich sogar die größte einzelne Quelle des Deep Webs.
Keinen Gefallen tun sich Webmaster, die mit ihrem Auftritt zwar gefunden werden wollen, dabei aber ausschließlich auf Flash-Inhalte setzen, die anders als HTML-Text von Suchmaschinen nicht ausgelesen werden können. Zwar kann die Website über den Titel gefunden werden, nicht aber über die Wörter im eigentlichen Inhalt.
Für Forscher interessant sind vor allem kostenpflichtige wissenschaftliche Datenbanken. In einigen Fällen können aber auch dynamische Daten aufschlussreich sein, die beispielsweise im sogenannten Web 2.0, also auf Seiten wie Facebook und Twitter, entstehen.
- Datum 21.09.2010 - 11:19 Uhr
- Seite 1 | 2 | Auf einer Seite lesen
- Quelle Handelsblatt
- Kommentare 6
- Versenden E-Mail verschicken
- Empfehlen Facebook, Twitter, Google+
- Artikel Drucken Druckversion | PDF
-
Artikel-Tools präsentiert von:





Eigentlich klar dass Suchmaschinen nicht an alles kommen.
Einfaches Beispiel - ein Home Server daheim - als Hobbyphotograph liegen dort schnell ein paar hundert GB - mit einem Log-In geschützt - ich habe eventuell gern darauf Zugriff, aber warum sollen alle meine Photos kostenlos im Web sein?
Unten angesprochen - die Universität - ist das gleiche Spiel - warum soll eine Uni Journals kaufen und dann Menschen außerhalb der Universität zu Verfügung stellen?
Es war schon immer klar dass es mehr in Web gibt als man sehen kann - Private Seiten, Firmenseiten - und wenn es denn privat ist dann sollte eigentlich sich niemand daran machen dies zu untergraben - sonst verschwinden diese Daten einfach vom Netz - zum Leiden derer die sie brauchen/nutzen.
Natürlich wird wohl nie jedweder Inhalt im Netz zu finden sein, jedoch kann man hoffen, dass sich mit der Zeit durch Konkurrenz verschiedene, gute Systeme entwickeln, die vielleicht dann nicht jeder für sich, aber in ihrer Breite, alle Bedürfnisse des Users abbilden.
Dass der Krieg der Systeme begonnen hat, hat Görlach in seiner Kolumne erst kürzlich anschaulich aufgezeigt: http://www.theeuropean.de...
... mit dem man das Indexieren von Seiten verhindern kann.
"nofollow", wie im Artikel genannt verhindert seit 2005, die Linkverfolgung von Spam durch die Suchmaschinenbots.
Selbstverständlich war auch bisher nicht alles zugänglich.
Aber geht es hier nicht neben den anmelde- und/oder kostenpflichtigen Datenbanknen... eigentlich um die grundsätzlich freizugängliche Bereiche, die so selten nachgefragt werden, dass sie schlicht "runterfallen"?
Interessant wird dies vor allem für die historische Aufarbeitung zeitgenössischer Geschichte. Endlich sind die Tools da, um alles zu dokumentieren, endlich alles auf Knopfdruck erfahrbar, aber es kommt aus den dunkelsten Ecken der herausgesuchten Links nicht heraus, kostbare Zeugnisse, die häufig den offiziellen Medien klar widersprechen.
Also ich finde es gut, dass nicht das ganze Web für Suchmaschinen zugänglich ist. Zum einen für meine eigene Privatsphäre bzw. die anderer Website-/Datenbankautoren und zum anderen zum Schutz der Web-User.
Viele User sind schon heute überfordert mit dem Web und können nicht vernünftig damit umgehen. Gerade heute morgen im Radio wurde ich in dieser Meinung bestärkt, als ich hörte, dass eine 15-jährige in England ihre Geburtstagseinladung per Facebook rausschickte und prompt 21.000 Zusagen erhielt, weil sie einen Haken falsch gesetzt hatte... einfach nur dumm!
Daher sollte das "Deep Web" bleiben wie es ist, nämlich den Profis (Information Professionals) vorbehalten, die auf Nachfrage und mit den entsprechenden Lizenzen die gewünschte Information zur Verfügung stellen. Schließlich müssen bestimmte Inhalte - z.B. historische Datenbanken - auch gehegt und gepflegt werden.
In Ihrem Text steht: "Sie ist abhängig davon, welche Nachrichten der Benutzer abboniert hat".
Sorry, das tut weh ...
Die Schlamperei in Sachen Orthographie ist zwar mittlerweile allenthalben anzutreffen. Dennoch: Wenn wir Journalisten nicht mit gutem Beispiel vorangehen - wer dann?
Wovon die Rede ist?
Nun: Es muss "abonniert" statt "abboniert" heißen.
Bitte melden Sie sich an, um zu kommentieren