Bereits vor Jahren haben Suchmaschinen aufgehört, die Zahl der indexierten Seiten auszuweisen. "Die Größe des Indexes scheint für die großen Suchmaschinenanbieter kein sehr wichtiges Qualitätskriterium mehr zu sein", sagt Philipp Mayr , Professor an der Hochschule Darmstadt im Fachbereich Media. Vielleicht, weil den Suchmaschinen der größte Teil des Webs nach wie vor verborgen bleibt. Schätzungen gehen davon aus, dass Google und andere Suchmaschinen nur ein Hundertstel der vorhandenen Datenmengen erfassen. Wie groß die Menge tatsächlich ist, weiß allerdings niemand.

"Es gibt meines Wissens keine seriösen aktuellen Schätzungen oder Studien über die Größe des Deep Webs", sagt Mayr. Die letzte umfangreiche empirische Studie stammt aus dem Jahre 2001 von Michael Bergman . Er vermutete, dass das Deep Web 400- bis 550-mal größer ist als das von Suchmaschinen erfasste Internet. Dabei handle es sich allerdings um eine sehr ungenaue und einfache Schätzung, so Mayr.

Andere Fachleute wie Rüdiger Schneemann von der TU Berlin sprechen von Schätzungen, nach denen das Deep Web um den Faktor zehn bis fünfzig größer ist als die erfassten Inhalte. "Die Zahlen sind bestimmt angreifbar; sicher aber ist, dass trotz allem die überwiegende Menge an Informationen nicht im Web zu finden ist", so Schneemann.

Bei den Deep-Web-Inhalten handelt es sich um Daten, die entweder nicht kostenlos öffentlich sind oder aus technischen Gründen von Suchmaschinen nicht erfasst werden können. Nirgendwo verlinkte Seiten gehören ebenso dazu, wie durch Passworte geschützte Datenbanken oder Seiten, die Suchmaschinen durch Tags wie " nofollow " gezielt aussperren.

Nicht alle diese Daten sind für den normalen Nutzer überhaupt interessant. "Der größte Teil der Daten, der nicht von Suchmaschinen indexiert wird, ist sicher nach wie vor der Bereich Echtzeit-Daten, beispielsweise bei Aufzeichnungen des Wetters, oder in datenintensiven Experimenten in der Physik", so Mayr. "Es ist aber sehr fraglich ob diese Daten für den allgemeinen Webnutzer sinnvoll zu nutzen sind und in Suchmaschinen verfügbar sein müssen."

Inhalte des Webs landen auf zwei Arten in den Datenbanken der Suchmaschinen. Entweder der Autor der Website meldet den Inhalt manuell bei der Suchmaschine an oder die Suchmaschine findet ihn mittels sogenannter Robots über Links, die auf andere Seiten verweisen. Dabei hangeln sich die Robots von Website zu Website und folgen den jeweiligen Links. Webseiten, die weder verlinkt noch manuell gemeldet werden, bleiben so unentdeckt. Auch können sich die Crawler genannten Programme "verlaufen", weswegen ihre Suchtiefe begrenzt ist. Zu komplexe Seiten werden dadurch nicht vollständig erfasst.

Einen weitaus größeren Teil des Deep Webs stellen allerdings Inhalte dar, die nur angemeldeten Usern zugänglich sind. Ohne weiteres nicht erfasst werden können außerdem Inhalte aus öffentlich zugänglichen Datenbanken, bei denen aber erst ein Suchwort eingegeben werden muss. Googles Index gehört damit im Grunde genommen selbst zum Deep Web – laut Bushee wahrscheinlich sogar die größte einzelne Quelle des Deep Webs.

Keinen Gefallen tun sich Webmaster, die mit ihrem Auftritt zwar gefunden werden wollen, dabei aber ausschließlich auf Flash-Inhalte setzen, die anders als HTML-Text von Suchmaschinen nicht ausgelesen werden können. Zwar kann die Website über den Titel gefunden werden, nicht aber über die Wörter im eigentlichen Inhalt.

Für Forscher interessant sind vor allem kostenpflichtige wissenschaftliche Datenbanken. In einigen Fällen können aber auch dynamische Daten aufschlussreich sein, die beispielsweise im sogenannten Web 2.0, also auf Seiten wie Facebook und Twitter, entstehen.