Pharmazeutische Zeitung online

Wo steckt die Nadel im Heuhaufen?

14.06.1999  00:00 Uhr

- Computerpraxis Govi-Verlag INTERNET-RECHERCHE

Wo steckt die Nadel im Heuhaufen?

von Michael Mönnich, Karlsruhe

Das World Wide Web ist das größte und chaotischste Informationssystem aller Zeiten, das nach wie vor sehr schnell wächst. Nach neueren Schätzungen sind im Worldwide Web (WWW) etwa 400 Millionen Dokumente enthalten, die von 100 Millionen Benutzern abgefragt werden - und täglich werden es mehr.

1990 begann das WWW mit wenigen Dokumenten als hausinterne Lösung für 1000 Beschäftigte am CERN in Genf; für das Jahr 2002 werden eine Milliarde Internet-Benutzer und weit mehr als eine Milliarde Dokumente für das WWW prognostiziert. Die Frage, ob eine Information im Web enthalten ist, mutiert so zur Frage, wie der Suchende diese Information auffindet.

Die älteste Suchtechnik ist das Klick and Browse: Wer einen Artikel über das Suchen im Internet verfassen will, beginnt mit der Homepage eines Kollegen, der in diesem Bereich arbeitet und klicke sich bis zu den Seiten durch, die die aktuelle Informationen bereithalten. Wer einen Mercedes kaufen will, gibt auf gut Glück zuerst "www.mercedes.de" in das Location-Feld des Web Browsers ein und hofft, daß die Adresse, der Domainnamen, stimmt. Oft versagen diese Methoden allerdings. Daher wurden schlüsselwortbasierte Suchmaschinen entwickelt, die sich mittlerweile zu milliardenschweren Unternehmen gemausert haben. Sie zählen zu den auch ökonomisch bedeutsamen Eingangsportalen (portal sites) des Internet, da mehrere Millionen Besucher pro Tag diese Seiten anwählen.

Die Suchstrategien im Internet leiten sich von denen in gedruckten Medien ab. Das Surfen, ein unsystematisches Verfolgen von Links und Durchhangeln von Seite zu Seite, das sehr zeitintensiv ist, kann man mit dem Blättern im gesamten Buch vergleichen. Das Browsing ist ein systematisches "Blättern" durch für diesen Zweck vorstrukturierte Informationsübersichten oder Sammlungen, ähnlich dem Nachschlagen im Inhaltsverzeichnis eines Buches.

Das Suchen in Datenbanken, die den direkten Zugriff auf Einzeldokumente in einem Schritt erlauben, kann mit der Suche im Sachregister nach Einzelfakten und -erwähnungen im Text gleichgesetzt werden. Jedes Verfahren hat seine Vor- und Nachteile, bei einer wissenschaftlichen Suche, bei der man vielschichtiges Material erwartet, verspricht die Suche mit einer Suchmaschine den größten Erfolg.

Suchmaschinen

Suchmaschinen bestehen im wesentlichen aus vier Elementen:

  • einem Robot, der das Netz durchsucht und die gefundenen Dokumente indiziert,
  • einer Datenbank zur Speicherung des Indexes , indem die vom Robot erfaßten Seiten stehen,
  • einem Suchformular, in dem der Benutzer seine Anfrage formuliert
  • und der Software, mit der die passenden Listen zu einer Suchanfrage aus der Datenbank abgefragt und nach ihrer Wertigkeit sortiert werden.

Die Roboter sind die Arbeitstiere der Suchmaschinen. Unermüdlich durchpflügen sie das Internet nach neuen oder veränderten Dokumenten und bringen ihre Beute zurück zur Suchmaschine. Dort werden sie von einem Parser und Indexierer analysiert und erfaßt und anschließend so in einer Datenbank abgelegt, daß ein effizienter Zugriff von außen möglich ist. Eine erfolgreiche Suchmaschine muß mittlerweile mehrere Millionen Suchanfragen pro Tag verarbeiten. Dies stellt sehr hohe Anforderungen an die Verwaltung des Datenbestandes und an die Kommunikationsschnittstelle mit ihren Benutzern.

Eine der bekanntesten Suchmaschine ist Alta Vista, die 150 Millionen Dokument indexiert hat. Alta Vista bietet eine Suchmethode an, die sich inzwischen als "Plus-minus-Syntax" auch bei anderen Suchmaschinen durchgesetzt hat: Wer nach den Schlüsselwörtern Michael Mönnich sucht, erhält alle Seiten, die das Wort Michael und das Wort Mönnich enthalten. Gleichzeitig werden aber auch Seiten angezeigt, die über Michael Maier und Uwe Mönnich informieren. Verhindern kann der Suchende dies durch die Eingabe von "+Michael +Mönnich". Außerdem kann mit minus ein Begriff explizit ausgeschlossen werden: "+Michael +Mönnich -Uwe -Maier". Noch stärker einengen kann man die Suche mit der Suchphrase "Michael Mönnich": Dann erhält man nur Seiten mit "Michael Leerzeichen Mönnich". Die Trunkierung - das Abkürzen von Suchbegriffen - erhöht die Anzahl der Treffer, zum Beispiel durch Eingabe von "Mön*".

Alta Vista und verwandte Suchmaschinen erfassen jedoch nur einen Teil der Webdokumente und sie ermöglichen nur die Suche nach Wörtern und nicht nach Begriffen. Die Suche nach "Apotheke" schließt alle Seiten zu "pharmacy" aus. Wer seinen Kollegen Koch sucht, wird sich vor Kochrezepten nicht retten können.

Mensch versus Maschine

Im Gegensatz zu Alta Vista werden bei Yahoo die erfaßten Webdokumente von menschlichen Bearbeitern in eine Hierarchie einsortiert. Man kann hier also nach Kategorien sichten und erhält die dazu passenden Dokumente. Der Dokumentenbestand ist deutlich kleiner (1 Million), da jedes Dokument von einem Menschen erfaßt und eingeordnet werden muß.

Die Vorteile von Katalogen liegen vor allem in der Auswahl der Ressourcen. Nur Links, die der Editor als relevant und qualitativ ausreichend einordnet, werden erfaßt. Die Einteilung in Kategorien erleichtert die Suche nach einem bestimmten Themengebiet. Probleme entstehen bei der Zuordnung zu Kategorien. Da es keine objektiven Qualitätskriterien für die Texte gibt, spiegelt die Sammlung die subjektive Einschätzung des Editors wider. Die Seiten werden manuell gesammelt und erfaßt, deshalb gehören Kataloge nicht zu den echten Suchmaschinen, auch wenn meist ein Anschluß an eine Suchmaschine besteht. Das größte Problem bei den manuell erstellten Internetkatalogen ist zwangsläufige Unvollständigkeit, bedingt durch die Begrenzung der menschlichen Ressourcen bei der Bearbeitung.

Metasucher

Mittlerweile gibt es schon Tausende verschiedener Suchmaschinen. Das Finden und Auswählen der richtigen Suchmaschine wird also selbst zum Problem. Hier helfen Metasuchmaschinen weiter, die mehrere Suchmaschinen unter einer einheitlichen Schnittstelle bündeln. Der Benutzer kann so also gleichzeitig mehrere Suchmaschinen mit einer einheitlichen und einfachen Schnittstelle nutzen. Eine bekannte und leistungsfähige Metasuchmaschine ist MetaGer. Tatsächlich empfiehlt es sich, erst eine Metasuchmaschine zu nutzen und nur für Spezialfälle, für die die einfache Suchmaske oder die zurückgelieferten Dokumente nicht ausreichen, direkt eine Suchmaschine zu verwenden.

Weiterentwicklung der Websuche

Alle der vorgestellten Suchdienste leiden an einer prinzipiellen Schwäche der im WWW präsentierten Information. Es sind im wesentlichen natürlichsprachige Texte, versehen mit Layoutbefehlen, die die Darstellung am Bildschirm steuern. Die Bedeutung der Information erschließt sich erst dem menschlichen Leser. Abhilfe soll hier die vom W3 Consortium entwickelte eXtensible Markup Language XML schaffen, die die Definition von strukturierten Datentypen erlaubt. Man kann mit XML unterscheiden, ob im Kontext des Dokuments mit "Koch" eine Berufsbezeichnung oder ein Nachname gemeint ist. Zudem ist es möglich, Dokumente mit Metainformationen zu versehen, um semantische Beziehungen zwischen verschiedenen Informationselementen anzugeben. Top

© 1999 GOVI-Verlag
E-Mail: redaktion@govi.de

Die experimentelle KI
von PZ und PTA-Forum
Die experimentelle KI
von PZ und PTA-Forum
Die experimentelle KI
von PZ und PTA-Forum
 
FAQ
SENDEN
Wie kann man die CAR-T-Zelltherapie einfach erklären?
Warum gibt es keinen Impfstoff gegen HIV?
Was hat der BGH im Fall von AvP entschieden?
GESAMTER ZEITRAUM
3 JAHRE
1 JAHR
SENDEN
IHRE FRAGE WIRD BEARBEITET ...
UNSERE ANTWORT
QUELLEN
22.01.2023 – Fehlende Evidenz?
LAV Niedersachsen sieht Verbesserungsbedarf
» ... Frag die KI ist ein experimentelles Angebot der Pharmazeutischen Zeitung. Es nutzt Künstliche Intelligenz, um Fragen zu Themen der Branche zu beantworten. Die Antworten basieren auf dem Artikelarchiv der Pharmazeutischen Zeitung und des PTA-Forums. Die durch die KI generierten Antworten sind mit Links zu den Originalartikeln. ... «
Ihr Feedback
War diese Antwort für Sie hilfreich?
 
 
FEEDBACK SENDEN
FAQ
Was ist »Frag die KI«?
»Frag die KI« ist ein experimentelles Angebot der Pharmazeutischen Zeitung. Es nutzt Künstliche Intelligenz, um Fragen zu Themen der Branche zu beantworten. Die Antworten basieren auf dem Artikelarchiv der Pharmazeutischen Zeitung und des PTA-Forums. Die durch die KI generierten Antworten sind mit Links zu den Originalartikeln der Pharmazeutischen Zeitung und des PTA-Forums versehen, in denen mehr Informationen zu finden sind. Die Redaktion der Pharmazeutischen Zeitung verfolgt in ihren Artikeln das Ziel, kompetent, seriös, umfassend und zeitnah über berufspolitische und gesundheitspolitische Entwicklungen, relevante Entwicklungen in der pharmazeutischen Forschung sowie den aktuellen Stand der pharmazeutischen Praxis zu informieren.
Was sollte ich bei den Fragen beachten?
Damit die KI die besten und hilfreichsten Antworten geben kann, sollten verschiedene Tipps beachtet werden. Die Frage sollte möglichst präzise gestellt werden. Denn je genauer die Frage formuliert ist, desto zielgerichteter kann die KI antworten. Vollständige Sätze erhöhen die Wahrscheinlichkeit einer guten Antwort.
Wie nutze ich den Zeitfilter?
Damit die KI sich bei ihrer Antwort auf aktuelle Beiträge beschränkt, kann die Suche zeitlich eingegrenzt werden. Artikel, die älter als sieben Jahre sind, werden derzeit nicht berücksichtigt.
Sind die Ergebnisse der KI-Fragen durchweg korrekt?
Die KI kann nicht auf jede Frage eine Antwort liefern. Wenn die Frage ein Thema betrifft, zu dem wir keine Artikel veröffentlicht haben, wird die KI dies in ihrer Antwort entsprechend mitteilen. Es besteht zudem eine Wahrscheinlichkeit, dass die Antwort unvollständig, veraltet oder falsch sein kann. Die Redaktion der Pharmazeutischen Zeitung übernimmt keine Verantwortung für die Richtigkeit der KI-Antworten.
Werden meine Daten gespeichert oder verarbeitet?
Wir nutzen gestellte Fragen und Feedback ausschließlich zur Generierung einer Antwort innerhalb unserer Anwendung und zur Verbesserung der Qualität zukünftiger Ergebnisse. Dabei werden keine zusätzlichen personenbezogenen Daten erfasst oder gespeichert.

Mehr von Avoxa