Pharmazeutische Zeitung online

Alles findet keine

23.08.1999  00:00 Uhr

- Computerpraxis Govi-Verlag SUCHMASCHINEN-TEST

Alles findet keine

von Anette Schenk, Eschborn

Suchmaschinen behandeln bei der Indexierung nicht alle Seiten gleich, manche neue Seite wird erst Monate später angezeigt und keine Suchmaschine ist in der Lage, auch nur ein Fünftel der im Internet zur Verfügung stehenden Information zu erfassen.

Da sich das Web zu einem immer wichtiger werdenden Kommunikationsmedium entwickelt, ist ein verbesserter Zugriff auf die dort vorhandene Information dringend erforderlich. Fast 800 Millionen Seiten umfasst mittlerweile das Worldwide Web. Um Etwa 85 Prozent der Internet-Nutzer wählen sich in Suchmaschinen ein, um in der riesigen Datenmenge, die gewünschten Informationen zu finden. Die Einstiegsseiten einiger Suchmaschinen zählen deshalb zu den zehn am häufigsten im Internet abgefragten Seiten.

Doch sollte sich der Nutzer einer Suchmaschine nicht dem Irrglauben hingeben, tatsächlich das gesamte Netz zu durchsuchen. Nach einer Untersuchung von Steve Lawrence und C. Lee Giles, die sie am 8. Juli 1999 in dem Wissenschaftsmagazin Nature veröffentlichten findet keine Suchmaschine auch nur annähernd alle seiten im Netz. Gerade für Wissenschaftler kann dies weitreichende Konsequenzen haben: Werden Informationen zu einer Anfrage nicht vollständig angezeigt, so kann der Fragende dem Irrglauben unterliegen, etwas bisher nicht Dagewesenes zu tun oder zu veröffentlichen.

Die Studie von Lawrence und Giles schätzt die Zahl der Server des öffentlich zugänglichen, von Suchmaschinen indexierten Webs im Februar 1999 auf 2,8 Millionen. Die daraus hochgerechnete Zahl der veröffentlichten Internet-Seiten beziffern die Wissenschaftler auf 800 Millionen, räumten aber ein, dass die tatsächliche Zahl wesentlich höher liegen könne.

Die durchschnittliche Dateigröße einer Seite betrug etwa 19 Kilobytes (kb), berechnet auf den reinen Text etwa 7 kb. Danach stünde im Internet eine Datenmenge von 15 Terabytes Information mit 6 Terabytes reinem Text zur Verfügung.

Wie die Autoren der Studie ermittelten, stellen etwa sechs Prozent der untersuchten Web-Server Informationen aus Wissenschaft, Forschung und Lehre bereit. Viele dieser Inhalte sind zum Zeitpunkt ihres Erscheinens in keiner Datenbank erfasst. Sogenannte Metainformationen, die es Suchmaschinen erleichtern, eine neue Seite im Netz zu finden, sind nur bei etwa einem Drittel der Seiten angelegt. Dies hat zur Folge, dass ein guter Teil der Informationen zwar im Netz abgelegt und damit öffentlich gemacht wurde, aber praktisch nicht auffindbar ist.

Um herauszufinden, wie groß der Anteil des im Datendschungel unauffindbaren Wissens ist, testeten Lawrence und Giles die Leistungsfähigkeit von 11 Suchmaschinen* anhand des Vergleiches einer konkreten Anfrage. Das Indexieren und Auffinden von Dokumenten erfolgt nach sehr unterschiedlichen Verfahren, und eine Aussage über die Güte der Treffer kann allein aufgrund der durch die Suchmaschine erfassten Datenmenge nicht getroffen werden.

Am besten schnitt in dem Test die Suchmaschine Northern Light ab. Sie erfasst 128 Millionen Seiten. Das sind 16 Prozent des gesamten Internets. Es folgen Snap und AltaVista mit 15, 5 Prozent. Auf dem letzten Platz liegt Euroseek, mit traurigen 2,2 Prozent. Da sich die von den einzelnen Suchmaschinen erfassten Bereiche kaum überlappen, sei es sinnvoll über Metasuchmaschinen gleichzeitig mehrere Suchdienste für sich arbeiten zu lassen, schreiben die Autoren.

Auch beim zweiten Qualitätsmerkmal für Suchmaschinen, der Aktualität liegt vieles im Argen. Mehrere Monate vergehen im Durchschnitt, bis eine neu ins Netz gestellte Seite von den Suchdiensten indexiert wird. Den besten Wert erzielte auch in dieser Kategorie Northern Light. Eine Seite ist durchschnittlich 141 Tage alt, wenn sie von dieser Suchmaschine erfasst wird. Es folgen Infoseek (148 Tage) und AltaVista 166 Tage. An letzter Stelle liegt Snap, deren Neulinge in Wirklichkeit bereits ein Alter von 240 Tagen aufweisen. Mit 235 Tagen steht Yahoo auch nicht viel besser da.

Doch für die Beschränktheit der Suchmaschinen gibt es auch gute Gründe. Je größer die Menge an Information ist, desto langsamer arbeitet das gesamte System und bindet teuere Ressourcen. Zudem kann der größte Teil der Anfragen mit einem relativ kleinen Teil der Daten beantwortet werden. Es wäre somit unökonomisch, das gesamte Web zu indexieren. Außerdem ist die Aufnahme in einer Suchmaschine für eine Seite nicht unbedingt notwendig, um aufgefunden zu werden. Ein Link in einer anderen passenden Fundstelle reicht aus, um den Interessenten auf die scheinbar nicht erfasste Seite zu führen.

Besonders gute Chancen, in eine Suchmaschine aufgenommen zu werden, haben Seiten, auf die viele Hyperlinks verweisen. Suchmaschinen verfolgen bei der Erschließung neuer Inhalte Hyperlinks, um neue Seiten aufzufinden. Lawrence und Giles bedauern, dass bei dieser Strategie die Bedeutung der Inhalte weniger wichtig ist als die Popularität. Zudem entsteht ein Teufelskreis: Häufig aufgerufene Seiten werden immer häufiger angezeigt und neue, nicht verlinkte Seiten erhalten kaum eine Chance, in den Trefferlisten der Suchmaschinen zu erscheinen. Diese Entwicklung könnte auf lange Sicht die Verfügbarkeit sehr spezieller oder qualitativ hochwertiger Information behindern, befürchten die Autoren.

* In die Untersuchung einbezogen wurden Northern Light, Snap, AltaVista, HotBot, Microsoft, Infoseek, Google, Yahoo, Excite, Lycos, Euroseek Top

© 1999 GOVI-Verlag
E-Mail: redaktion@govi.de

Die experimentelle KI
von PZ und PTA-Forum
Die experimentelle KI
von PZ und PTA-Forum
Die experimentelle KI
von PZ und PTA-Forum
 
FAQ
SENDEN
Wie kann man die CAR-T-Zelltherapie einfach erklären?
Warum gibt es keinen Impfstoff gegen HIV?
Was hat der BGH im Fall von AvP entschieden?
GESAMTER ZEITRAUM
3 JAHRE
1 JAHR
SENDEN
IHRE FRAGE WIRD BEARBEITET ...
UNSERE ANTWORT
QUELLEN
22.01.2023 – Fehlende Evidenz?
LAV Niedersachsen sieht Verbesserungsbedarf
» ... Frag die KI ist ein experimentelles Angebot der Pharmazeutischen Zeitung. Es nutzt Künstliche Intelligenz, um Fragen zu Themen der Branche zu beantworten. Die Antworten basieren auf dem Artikelarchiv der Pharmazeutischen Zeitung und des PTA-Forums. Die durch die KI generierten Antworten sind mit Links zu den Originalartikeln. ... «
Ihr Feedback
War diese Antwort für Sie hilfreich?
 
 
FEEDBACK SENDEN
FAQ
Was ist »Frag die KI«?
»Frag die KI« ist ein experimentelles Angebot der Pharmazeutischen Zeitung. Es nutzt Künstliche Intelligenz, um Fragen zu Themen der Branche zu beantworten. Die Antworten basieren auf dem Artikelarchiv der Pharmazeutischen Zeitung und des PTA-Forums. Die durch die KI generierten Antworten sind mit Links zu den Originalartikeln der Pharmazeutischen Zeitung und des PTA-Forums versehen, in denen mehr Informationen zu finden sind. Die Redaktion der Pharmazeutischen Zeitung verfolgt in ihren Artikeln das Ziel, kompetent, seriös, umfassend und zeitnah über berufspolitische und gesundheitspolitische Entwicklungen, relevante Entwicklungen in der pharmazeutischen Forschung sowie den aktuellen Stand der pharmazeutischen Praxis zu informieren.
Was sollte ich bei den Fragen beachten?
Damit die KI die besten und hilfreichsten Antworten geben kann, sollten verschiedene Tipps beachtet werden. Die Frage sollte möglichst präzise gestellt werden. Denn je genauer die Frage formuliert ist, desto zielgerichteter kann die KI antworten. Vollständige Sätze erhöhen die Wahrscheinlichkeit einer guten Antwort.
Wie nutze ich den Zeitfilter?
Damit die KI sich bei ihrer Antwort auf aktuelle Beiträge beschränkt, kann die Suche zeitlich eingegrenzt werden. Artikel, die älter als sieben Jahre sind, werden derzeit nicht berücksichtigt.
Sind die Ergebnisse der KI-Fragen durchweg korrekt?
Die KI kann nicht auf jede Frage eine Antwort liefern. Wenn die Frage ein Thema betrifft, zu dem wir keine Artikel veröffentlicht haben, wird die KI dies in ihrer Antwort entsprechend mitteilen. Es besteht zudem eine Wahrscheinlichkeit, dass die Antwort unvollständig, veraltet oder falsch sein kann. Die Redaktion der Pharmazeutischen Zeitung übernimmt keine Verantwortung für die Richtigkeit der KI-Antworten.
Werden meine Daten gespeichert oder verarbeitet?
Wir nutzen gestellte Fragen und Feedback ausschließlich zur Generierung einer Antwort innerhalb unserer Anwendung und zur Verbesserung der Qualität zukünftiger Ergebnisse. Dabei werden keine zusätzlichen personenbezogenen Daten erfasst oder gespeichert.

Mehr von Avoxa