Tipps
Die Suche im Internet scheint heute ein Kinderspiel zu sein. Google teilt mit: ©2003 Google - Suche auf
3,083,324,652 Web-Seiten Man bekommt sofort tausende von indexierten Seiten und das ganze dazu noch in wenigen
Zehntelsekunden. Das heißt nicht, dass alle Informationen gefunden wurden. Die Zahl nicht gefundener und verschlollener
Informationen ist weit größer als die der gefundenen.
Das Versprechen der neuen Generation von Suchmaschinen, dass sie das gesamte Internet durchsuchen, ist nicht einzuhalten.
Nicht nur den Suchmaschinen sind Grenzen auferlegt. Oft erschweren die Verfasser aus Unkenntnis den Zugriff auf die
Informationen.
Einfach nicht da
- Firmen, öffentliche Einrichtungen, Organisationen und Informationsträger haben die Möglichkeiten des Internets
noch nicht für sich entdeckt und sind im WWW nicht präsent. Klar, dass man sie dann auch nicht finden kann.
- Das Wissen vergangener Jahrhunderte muss erst mühsam digitalisiert werden. Das ist häufig mit Kosten verbunden.
Referenzen zu diesem Wissen (Handschriften, Inkunabeln, alte Bücher) lassen sich jedoch im Netz finden und erleichtern
so das Auffinden.
- Aus Angst vor Mißbrauch des Urheberrechts werden viele Materialien nicht im Internet angeboten.
- Viele Dokumente sind noch zu speicherintensiv und werden im Internet auch noch zu langsam übertragen. Häufig gibt
es daher nur gekürzte Fassungen in meist recht schlechter Qualität.
- Viele Länder sind in ihrer Infrastruktur noch nicht so weit wie die führenden Industrieländer. Ihre Informationen und
Materialien sind meist nicht zu finden oder enthalten große Lücken.
Grenzen der Suchmaschinen
- Suchmaschinen können nicht alle Dokumente indexieren sondern nur einen bestimmten Teil, da sie nur eine bestimmte
Rechen- und Speicherkapazität besitzen.
- Außerdem ist das Internet sehr veränderlich. Redakteure und Suchrobots kontrollieren die einmal indexierten Seiten
in bestimmten Abständen, um die Aktualität zu überprüfen. Die Abstände sind sehr unterschiedlich. Es passiert, dass Seiten
verschwinden von einen Tag auf den anderen. So werden indexierte Dokumente zwar noch als Suchtreffer gelistet, die gar
nicht mehr existieren oder Titel und Inhaltsangaben stimmen nicht mehr völlig überein.
- Die Suchtiefe pro Domain ist sehr unterschiedlich. Grade Angebote großer Onlinedieste werden nicht vollständig erfaßt.
Gründe dafür sind mangelnde Kapazität und ein hoher Zeitaufwand.
- Es wird nicht immer der vollständige Text durchsucht, sondern nur eine Zusammenfassung des Inhalts oder ein Teil. Das
kann dann Probleme geben beim Auffinden.
- Der Betreiber einer Seite hat die Informationen und Dokumente mit einem Passwort geschützt oder den Suchmaschinen im
sogenannten robot.txt untersagt, ein Verzeichnis zu durchsuchen. Diese Informationen sind natürlich über Suchmaschinen
nicht zu finden.
- Stopwords, z.b. the, der, die, das, es u.a. (drei Zeichen und weniger) sind nicht suchbar.
- Dynamisch generierte Dokumente werden aus Datenbanken in dem Moment erstellt, wenn die Information abgerufen wird.
Auch sie sind nicht von Suchmaschinen indexierbar (verändern sich zu schnell). Häufig können die Robots die Dateiformate
nicht lesen. Diese Seiten bieten i.d.R. eine eigene Suchmaschine an, mit der die Datenbank durchsuchbar ist, z.B. Opacs.
- Unverlinkte Seiten werden auch nicht gefunden, da gerade Robots sich entlang der Hyperlinks von einem Dokument zum
nächsten hangeln.
Hardwareprobleme
- Werden zu viele Anfragen gleichzeitig an eine Suchmaschine geschickt (jede Maschine kann nur eine bestimmte Anzahl
von Anfragen gleichzeitig bearbeiten), können die Dateien "im Stau" stecken bleiben. Da die meisten Maschinen momentan mit
einem Timeout arbeiten, werden die Ergebnisse nicht angezeigt.
- Suchmaschinen funktionieren nur, wenn die Technik dahinter arbeitet. Sie kann auch mal kaputt gehen. Das kann der
Grund für einen zeitweise nicht funktionierenden Dienst sein.
|