Pharmazeutische Zeitung online

Alles findet keine

23.08.1999
Datenschutz bei der PZ

-ComputerpraxisGovi-VerlagSUCHMASCHINEN-TEST

Alles findet keine

von Anette Schenk, Eschborn

Suchmaschinen behandeln bei der Indexierung nicht alle Seiten gleich, manche neue Seite wird erst Monate später angezeigt und keine Suchmaschine ist in der Lage, auch nur ein Fünftel der im Internet zur Verfügung stehenden Information zu erfassen.

Da sich das Web zu einem immer wichtiger werdenden Kommunikationsmedium entwickelt, ist ein verbesserter Zugriff auf die dort vorhandene Information dringend erforderlich. Fast 800 Millionen Seiten umfasst mittlerweile das Worldwide Web. Um Etwa 85 Prozent der Internet-Nutzer wählen sich in Suchmaschinen ein, um in der riesigen Datenmenge, die gewünschten Informationen zu finden. Die Einstiegsseiten einiger Suchmaschinen zählen deshalb zu den zehn am häufigsten im Internet abgefragten Seiten.

Doch sollte sich der Nutzer einer Suchmaschine nicht dem Irrglauben hingeben, tatsächlich das gesamte Netz zu durchsuchen. Nach einer Untersuchung von Steve Lawrence und C. Lee Giles, die sie am 8. Juli 1999 in dem Wissenschaftsmagazin Nature veröffentlichten findet keine Suchmaschine auch nur annähernd alle seiten im Netz. Gerade für Wissenschaftler kann dies weitreichende Konsequenzen haben: Werden Informationen zu einer Anfrage nicht vollständig angezeigt, so kann der Fragende dem Irrglauben unterliegen, etwas bisher nicht Dagewesenes zu tun oder zu veröffentlichen.

Die Studie von Lawrence und Giles schätzt die Zahl der Server des öffentlich zugänglichen, von Suchmaschinen indexierten Webs im Februar 1999 auf 2,8 Millionen. Die daraus hochgerechnete Zahl der veröffentlichten Internet-Seiten beziffern die Wissenschaftler auf 800 Millionen, räumten aber ein, dass die tatsächliche Zahl wesentlich höher liegen könne.

Die durchschnittliche Dateigröße einer Seite betrug etwa 19 Kilobytes (kb), berechnet auf den reinen Text etwa 7 kb. Danach stünde im Internet eine Datenmenge von 15 Terabytes Information mit 6 Terabytes reinem Text zur Verfügung.

Wie die Autoren der Studie ermittelten, stellen etwa sechs Prozent der untersuchten Web-Server Informationen aus Wissenschaft, Forschung und Lehre bereit. Viele dieser Inhalte sind zum Zeitpunkt ihres Erscheinens in keiner Datenbank erfasst. Sogenannte Metainformationen, die es Suchmaschinen erleichtern, eine neue Seite im Netz zu finden, sind nur bei etwa einem Drittel der Seiten angelegt. Dies hat zur Folge, dass ein guter Teil der Informationen zwar im Netz abgelegt und damit öffentlich gemacht wurde, aber praktisch nicht auffindbar ist.

Um herauszufinden, wie groß der Anteil des im Datendschungel unauffindbaren Wissens ist, testeten Lawrence und Giles die Leistungsfähigkeit von 11 Suchmaschinen* anhand des Vergleiches einer konkreten Anfrage. Das Indexieren und Auffinden von Dokumenten erfolgt nach sehr unterschiedlichen Verfahren, und eine Aussage über die Güte der Treffer kann allein aufgrund der durch die Suchmaschine erfassten Datenmenge nicht getroffen werden.

Am besten schnitt in dem Test die Suchmaschine Northern Light ab. Sie erfasst 128 Millionen Seiten. Das sind 16 Prozent des gesamten Internets. Es folgen Snap und AltaVista mit 15, 5 Prozent. Auf dem letzten Platz liegt Euroseek, mit traurigen 2,2 Prozent. Da sich die von den einzelnen Suchmaschinen erfassten Bereiche kaum überlappen, sei es sinnvoll über Metasuchmaschinen gleichzeitig mehrere Suchdienste für sich arbeiten zu lassen, schreiben die Autoren.

Auch beim zweiten Qualitätsmerkmal für Suchmaschinen, der Aktualität liegt vieles im Argen. Mehrere Monate vergehen im Durchschnitt, bis eine neu ins Netz gestellte Seite von den Suchdiensten indexiert wird. Den besten Wert erzielte auch in dieser Kategorie Northern Light. Eine Seite ist durchschnittlich 141 Tage alt, wenn sie von dieser Suchmaschine erfasst wird. Es folgen Infoseek (148 Tage) und AltaVista 166 Tage. An letzter Stelle liegt Snap, deren Neulinge in Wirklichkeit bereits ein Alter von 240 Tagen aufweisen. Mit 235 Tagen steht Yahoo auch nicht viel besser da.

Doch für die Beschränktheit der Suchmaschinen gibt es auch gute Gründe. Je größer die Menge an Information ist, desto langsamer arbeitet das gesamte System und bindet teuere Ressourcen. Zudem kann der größte Teil der Anfragen mit einem relativ kleinen Teil der Daten beantwortet werden. Es wäre somit unökonomisch, das gesamte Web zu indexieren. Außerdem ist die Aufnahme in einer Suchmaschine für eine Seite nicht unbedingt notwendig, um aufgefunden zu werden. Ein Link in einer anderen passenden Fundstelle reicht aus, um den Interessenten auf die scheinbar nicht erfasste Seite zu führen.

Besonders gute Chancen, in eine Suchmaschine aufgenommen zu werden, haben Seiten, auf die viele Hyperlinks verweisen. Suchmaschinen verfolgen bei der Erschließung neuer Inhalte Hyperlinks, um neue Seiten aufzufinden. Lawrence und Giles bedauern, dass bei dieser Strategie die Bedeutung der Inhalte weniger wichtig ist als die Popularität. Zudem entsteht ein Teufelskreis: Häufig aufgerufene Seiten werden immer häufiger angezeigt und neue, nicht verlinkte Seiten erhalten kaum eine Chance, in den Trefferlisten der Suchmaschinen zu erscheinen. Diese Entwicklung könnte auf lange Sicht die Verfügbarkeit sehr spezieller oder qualitativ hochwertiger Information behindern, befürchten die Autoren.

* In die Untersuchung einbezogen wurden Northern Light, Snap, AltaVista, HotBot, Microsoft, Infoseek, Google, Yahoo, Excite, Lycos, Euroseek Top

© 1999 GOVI-Verlag
E-Mail: redaktion@govi.de

Mehr von Avoxa