Jeré Mias

 
 

Navigation

Home
Recherche-Index
Recherchebasics
Suchmaschinentypen
Suchstrategie
Suchanfrage
Tipps

Grenzen der Suche

Tipps

Die Suche im Internet scheint heute ein Kinderspiel zu sein. Google teilt mit:

©2003 Google - Suche auf
3,083,324,652 Web-Seiten
Man bekommt sofort tausende von indexierten Seiten und das ganze dazu noch in wenigen Zehntelsekunden. Das heißt nicht, dass alle Informationen gefunden wurden. Die Zahl nicht gefundener und verschlollener Informationen ist weit größer als die der gefundenen.
Das Versprechen der neuen Generation von Suchmaschinen, dass sie das gesamte Internet durchsuchen, ist nicht einzuhalten. Nicht nur den Suchmaschinen sind Grenzen auferlegt. Oft erschweren die Verfasser aus Unkenntnis den Zugriff auf die Informationen.

Einfach nicht da
  • Firmen, öffentliche Einrichtungen, Organisationen und Informationsträger haben die Möglichkeiten des Internets noch nicht für sich entdeckt und sind im WWW nicht präsent. Klar, dass man sie dann auch nicht finden kann.
  • Das Wissen vergangener Jahrhunderte muss erst mühsam digitalisiert werden. Das ist häufig mit Kosten verbunden. Referenzen zu diesem Wissen (Handschriften, Inkunabeln, alte Bücher) lassen sich jedoch im Netz finden und erleichtern so das Auffinden.
  • Aus Angst vor Mißbrauch des Urheberrechts werden viele Materialien nicht im Internet angeboten.
  • Viele Dokumente sind noch zu speicherintensiv und werden im Internet auch noch zu langsam übertragen. Häufig gibt es daher nur gekürzte Fassungen in meist recht schlechter Qualität.
  • Viele Länder sind in ihrer Infrastruktur noch nicht so weit wie die führenden Industrieländer. Ihre Informationen und Materialien sind meist nicht zu finden oder enthalten große Lücken.

Grenzen der Suchmaschinen
  • Suchmaschinen können nicht alle Dokumente indexieren sondern nur einen bestimmten Teil, da sie nur eine bestimmte Rechen- und Speicherkapazität besitzen.
  • Außerdem ist das Internet sehr veränderlich. Redakteure und Suchrobots kontrollieren die einmal indexierten Seiten in bestimmten Abständen, um die Aktualität zu überprüfen. Die Abstände sind sehr unterschiedlich. Es passiert, dass Seiten verschwinden von einen Tag auf den anderen. So werden indexierte Dokumente zwar noch als Suchtreffer gelistet, die gar nicht mehr existieren oder Titel und Inhaltsangaben stimmen nicht mehr völlig überein.
  • Die Suchtiefe pro Domain ist sehr unterschiedlich. Grade Angebote großer Onlinedieste werden nicht vollständig erfaßt. Gründe dafür sind mangelnde Kapazität und ein hoher Zeitaufwand.
  • Es wird nicht immer der vollständige Text durchsucht, sondern nur eine Zusammenfassung des Inhalts oder ein Teil. Das kann dann Probleme geben beim Auffinden.
  • Der Betreiber einer Seite hat die Informationen und Dokumente mit einem Passwort geschützt oder den Suchmaschinen im sogenannten robot.txt untersagt, ein Verzeichnis zu durchsuchen. Diese Informationen sind natürlich über Suchmaschinen nicht zu finden.
  • Stopwords, z.b. the, der, die, das, es u.a. (drei Zeichen und weniger) sind nicht suchbar.
  • Dynamisch generierte Dokumente werden aus Datenbanken in dem Moment erstellt, wenn die Information abgerufen wird. Auch sie sind nicht von Suchmaschinen indexierbar (verändern sich zu schnell). Häufig können die Robots die Dateiformate nicht lesen. Diese Seiten bieten i.d.R. eine eigene Suchmaschine an, mit der die Datenbank durchsuchbar ist, z.B. Opacs.
  • Unverlinkte Seiten werden auch nicht gefunden, da gerade Robots sich entlang der Hyperlinks von einem Dokument zum nächsten hangeln.
Hardwareprobleme
  • Werden zu viele Anfragen gleichzeitig an eine Suchmaschine geschickt (jede Maschine kann nur eine bestimmte Anzahl von Anfragen gleichzeitig bearbeiten), können die Dateien "im Stau" stecken bleiben. Da die meisten Maschinen momentan mit einem Timeout arbeiten, werden die Ergebnisse nicht angezeigt.
  • Suchmaschinen funktionieren nur, wenn die Technik dahinter arbeitet. Sie kann auch mal kaputt gehen. Das kann der Grund für einen zeitweise nicht funktionierenden Dienst sein.

Jeré Mias
Aktualisiert: 29.04.2004 jere-mias@jere-mias.de