Pharmazeutische Zeitung online

Wo steckt die Nadel im Heuhaufen?

14.06.1999
Datenschutz bei der PZ

-ComputerpraxisGovi-VerlagINTERNET-RECHERCHE

Wo steckt die Nadel im Heuhaufen?

von Michael Mönnich, Karlsruhe

Das World Wide Web ist das größte und chaotischste Informationssystem aller Zeiten, das nach wie vor sehr schnell wächst. Nach neueren Schätzungen sind im Worldwide Web (WWW) etwa 400 Millionen Dokumente enthalten, die von 100 Millionen Benutzern abgefragt werden - und täglich werden es mehr.

1990 begann das WWW mit wenigen Dokumenten als hausinterne Lösung für 1000 Beschäftigte am CERN in Genf; für das Jahr 2002 werden eine Milliarde Internet-Benutzer und weit mehr als eine Milliarde Dokumente für das WWW prognostiziert. Die Frage, ob eine Information im Web enthalten ist, mutiert so zur Frage, wie der Suchende diese Information auffindet.

Die älteste Suchtechnik ist das Klick and Browse: Wer einen Artikel über das Suchen im Internet verfassen will, beginnt mit der Homepage eines Kollegen, der in diesem Bereich arbeitet und klicke sich bis zu den Seiten durch, die die aktuelle Informationen bereithalten. Wer einen Mercedes kaufen will, gibt auf gut Glück zuerst "www.mercedes.de" in das Location-Feld des Web Browsers ein und hofft, daß die Adresse, der Domainnamen, stimmt. Oft versagen diese Methoden allerdings. Daher wurden schlüsselwortbasierte Suchmaschinen entwickelt, die sich mittlerweile zu milliardenschweren Unternehmen gemausert haben. Sie zählen zu den auch ökonomisch bedeutsamen Eingangsportalen (portal sites) des Internet, da mehrere Millionen Besucher pro Tag diese Seiten anwählen.

Die Suchstrategien im Internet leiten sich von denen in gedruckten Medien ab. Das Surfen, ein unsystematisches Verfolgen von Links und Durchhangeln von Seite zu Seite, das sehr zeitintensiv ist, kann man mit dem Blättern im gesamten Buch vergleichen. Das Browsing ist ein systematisches "Blättern" durch für diesen Zweck vorstrukturierte Informationsübersichten oder Sammlungen, ähnlich dem Nachschlagen im Inhaltsverzeichnis eines Buches.

Das Suchen in Datenbanken, die den direkten Zugriff auf Einzeldokumente in einem Schritt erlauben, kann mit der Suche im Sachregister nach Einzelfakten und -erwähnungen im Text gleichgesetzt werden. Jedes Verfahren hat seine Vor- und Nachteile, bei einer wissenschaftlichen Suche, bei der man vielschichtiges Material erwartet, verspricht die Suche mit einer Suchmaschine den größten Erfolg.

Suchmaschinen

Suchmaschinen bestehen im wesentlichen aus vier Elementen:

  • einem Robot, der das Netz durchsucht und die gefundenen Dokumente indiziert,
  • einer Datenbank zur Speicherung des Indexes , indem die vom Robot erfaßten Seiten stehen,
  • einem Suchformular, in dem der Benutzer seine Anfrage formuliert
  • und der Software, mit der die passenden Listen zu einer Suchanfrage aus der Datenbank abgefragt und nach ihrer Wertigkeit sortiert werden.

Die Roboter sind die Arbeitstiere der Suchmaschinen. Unermüdlich durchpflügen sie das Internet nach neuen oder veränderten Dokumenten und bringen ihre Beute zurück zur Suchmaschine. Dort werden sie von einem Parser und Indexierer analysiert und erfaßt und anschließend so in einer Datenbank abgelegt, daß ein effizienter Zugriff von außen möglich ist. Eine erfolgreiche Suchmaschine muß mittlerweile mehrere Millionen Suchanfragen pro Tag verarbeiten. Dies stellt sehr hohe Anforderungen an die Verwaltung des Datenbestandes und an die Kommunikationsschnittstelle mit ihren Benutzern.

Eine der bekanntesten Suchmaschine ist Alta Vista, die 150 Millionen Dokument indexiert hat. Alta Vista bietet eine Suchmethode an, die sich inzwischen als "Plus-minus-Syntax" auch bei anderen Suchmaschinen durchgesetzt hat: Wer nach den Schlüsselwörtern Michael Mönnich sucht, erhält alle Seiten, die das Wort Michael und das Wort Mönnich enthalten. Gleichzeitig werden aber auch Seiten angezeigt, die über Michael Maier und Uwe Mönnich informieren. Verhindern kann der Suchende dies durch die Eingabe von "+Michael +Mönnich". Außerdem kann mit minus ein Begriff explizit ausgeschlossen werden: "+Michael +Mönnich -Uwe -Maier". Noch stärker einengen kann man die Suche mit der Suchphrase "Michael Mönnich": Dann erhält man nur Seiten mit "Michael Leerzeichen Mönnich". Die Trunkierung - das Abkürzen von Suchbegriffen - erhöht die Anzahl der Treffer, zum Beispiel durch Eingabe von "Mön*".

Alta Vista und verwandte Suchmaschinen erfassen jedoch nur einen Teil der Webdokumente und sie ermöglichen nur die Suche nach Wörtern und nicht nach Begriffen. Die Suche nach "Apotheke" schließt alle Seiten zu "pharmacy" aus. Wer seinen Kollegen Koch sucht, wird sich vor Kochrezepten nicht retten können.

Mensch versus Maschine

Im Gegensatz zu Alta Vista werden bei Yahoo die erfaßten Webdokumente von menschlichen Bearbeitern in eine Hierarchie einsortiert. Man kann hier also nach Kategorien sichten und erhält die dazu passenden Dokumente. Der Dokumentenbestand ist deutlich kleiner (1 Million), da jedes Dokument von einem Menschen erfaßt und eingeordnet werden muß.

Die Vorteile von Katalogen liegen vor allem in der Auswahl der Ressourcen. Nur Links, die der Editor als relevant und qualitativ ausreichend einordnet, werden erfaßt. Die Einteilung in Kategorien erleichtert die Suche nach einem bestimmten Themengebiet. Probleme entstehen bei der Zuordnung zu Kategorien. Da es keine objektiven Qualitätskriterien für die Texte gibt, spiegelt die Sammlung die subjektive Einschätzung des Editors wider. Die Seiten werden manuell gesammelt und erfaßt, deshalb gehören Kataloge nicht zu den echten Suchmaschinen, auch wenn meist ein Anschluß an eine Suchmaschine besteht. Das größte Problem bei den manuell erstellten Internetkatalogen ist zwangsläufige Unvollständigkeit, bedingt durch die Begrenzung der menschlichen Ressourcen bei der Bearbeitung.

Metasucher

Mittlerweile gibt es schon Tausende verschiedener Suchmaschinen. Das Finden und Auswählen der richtigen Suchmaschine wird also selbst zum Problem. Hier helfen Metasuchmaschinen weiter, die mehrere Suchmaschinen unter einer einheitlichen Schnittstelle bündeln. Der Benutzer kann so also gleichzeitig mehrere Suchmaschinen mit einer einheitlichen und einfachen Schnittstelle nutzen. Eine bekannte und leistungsfähige Metasuchmaschine ist MetaGer. Tatsächlich empfiehlt es sich, erst eine Metasuchmaschine zu nutzen und nur für Spezialfälle, für die die einfache Suchmaske oder die zurückgelieferten Dokumente nicht ausreichen, direkt eine Suchmaschine zu verwenden.

Weiterentwicklung der Websuche

Alle der vorgestellten Suchdienste leiden an einer prinzipiellen Schwäche der im WWW präsentierten Information. Es sind im wesentlichen natürlichsprachige Texte, versehen mit Layoutbefehlen, die die Darstellung am Bildschirm steuern. Die Bedeutung der Information erschließt sich erst dem menschlichen Leser. Abhilfe soll hier die vom W3 Consortium entwickelte eXtensible Markup Language XML schaffen, die die Definition von strukturierten Datentypen erlaubt. Man kann mit XML unterscheiden, ob im Kontext des Dokuments mit "Koch" eine Berufsbezeichnung oder ein Nachname gemeint ist. Zudem ist es möglich, Dokumente mit Metainformationen zu versehen, um semantische Beziehungen zwischen verschiedenen Informationselementen anzugeben. Top

© 1999 GOVI-Verlag
E-Mail: redaktion@govi.de

Mehr von Avoxa