Автор книги: Коллектив авторов
Жанр: Учебная литература, Детские книги
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 9 страниц)
4.5. World Wide Web. Geschichte. Funktionsweise
Lesen Sie und übersetzen den Text!
Die meisten Internetuser sind der Überzeugung, dass das WWW gleich dem Internet ist. Doch diese Behauptung ist grundlegend falsch. In Wahrheit ist das „World-Wide-Web“ nur ein Teil des ganzen Internets.
Es handelt sich um den Teil des Internets, welcher Hypermedia darstellt – heißt HTML – Dokumente mit Text, Links, Bildern, Videos und so weiter. Es handelt dann hierbei natürlich um ganz normale Websites. Andere Dienste des Internets wie E-Mail, Newsgroups oder FTP (für Dateiaustausch) können in Websites eingebunden werden Tim Berners-Lee arbeitete an einer großen Schweizer Forschungseinrichtung. Dort hatte man das Problem, dass die vielen Wissenschaftler eine Menge von Informationen ansammelten (in Akten oder im Computer), von denen andere aber nichts wussten. Sie konnten daher von ihnen auch nicht genutzt werden. Sind Wissenschaftler weggegangen, sind oft auch viele der Informationen über ihre Forschungen verloren gegangen.
Tim Berners-Lee schrieb daher ein Programm (das „World Wide Web“), mit dem man leicht Informationen in Computernetzwerken veröffentlichen kann. Durch Suchmöglichkeiten und Links, die von einer Seite zu anderen Seiten führen, lassen sich die Informationen auch leicht wiederfinden.
Er erkannte aber, dass man damit nicht nur Informationen in Computern seines Forschungsbetriebes miteinander verbinden kann, sondern Seiten im ganzen Internet – also weltweit. Daher wählte er für seine Erfindung auch bereits den Namen „World Wide Web“.
Berners-Lee schrieb auch den ersten Internetbrowser, also einen Vorfahren des „Internet Explorers“ oder des „Firefox“. Er nannte ihn ganz einfach „World Wide Web“. Auch die Programmiersprache mit der Internetseiten hergestellt werden – also HTML – stammt von Berners-Lee.
Übrigens: Die so genannten Links (eigentlich „Hyperlinks“) sind keine Erfindung von ihm. Sie wurden bereits 1945 von dem Amerikaner Vannevar Bush erdacht, der damit Texte in Bibliotheken miteinander verbinden („verlinken“) wollte.
Ab 1990 benutzten allmählich immer mehr Universitäten und andere Einrichtungen das „World Wide Web“, um damit im Internet Informationen zu veröffentlichen. Auch viele Unternehmen kamen nun dazu. Das Bild links zeigt „Mosaic“, einen Internetbrowser von 1993. Wie man sieht, bestanden damals die meisten www-Seiten noch aus einfachem Text und ein paar Links. Weil es Mitte der neunziger Jahre nicht nur viele nützliche Informationen im „World Wide Web“ gab, sondern auch bedienungsfreundliche Internetbrowser, gingen langsam auch immer mehr Privatleute ins Web. Das „World Wide Web“ hat das Internet also zu den Menschen nach Hause gebracht.
Das WWW basiert auf drei Kernstandards:
• HTTP als Protokoll, mit dem der Browser Informationen vom Webserver anfordern kann.
• HTML als Dokumentenbeschreibungssprache, die festlegt, wie die Information gegliedert ist und wie die Dokumente verknüpft sind (Hyperlinks).
• URLs als eindeutige Adresse bzw. Bezeichnung einer Ressource (z. B. einer Webseite), die in Hyperlinks verwendet wird.
Folgende Standards kamen später dazu:
• Cascading Style Sheets (CSS) legen das Aussehen der Elemente einer Webseite fest, wobei Darstellung und Inhalt getrennt werden.
• JavaScript ist eine Skriptsprache mit Anweisungen für den Browser, mit der Programme (Skripte) eingebettet werden können. Dadurch können Webseiten mit Hilfe des Document Object Models (DOM) dynamisch geändert werden. Skripte sind üblicherweise kleine Programmschnipsel, können aber auch als Client Manager mit Hilfe des DOM die vollständige Kontrolle über die Anzeige übernehmen. Eine von Microsoft entwickelte Variante von JavaScript heißt JScript. Beide Sprachen sind sich ähnlich, allerdings nicht kompatibel zueinander. Diese Inkompatibilität der beiden Sprachen war ein entscheidender Teil des sogenannten Browserkriegs.
• Hypertext Transfer Protocol Secure (HTTPS) ist eine Weiterentwicklung von HTTP, bei dem das Protokoll SSL zwischen TCP und HTTP geschoben wird und in der Folge der Datentransfer komplett verschlüsselt wird.
Das World Wide Web Consortium (auch W3C genannt), das heute vom Erfinder des WWW, Tim Berners-Lee, geleitet wird, entwickelt den HTML– und CSS-Standard; andere Standards stammen von der Internet Engineering Task Force, der ECMA oder Herstellern wie Sun Microsystems.
Das WWW wurde und wird durch andere Technologien ergänzt. Schon sehr früh wurden Bilder zur Illustration benutzt; die Formate GIF, PNG und JPEG herrschen vor.
Außerdem können mit HTML nahezu alle Dateitypen eingebettet oder verlinkt werden, die der Browser durch Ergänzungsmodule darstellen kann. Dadurch lassen sich Multimediainhalte von Animationen bis hin zu Musik und Videos oder ganze Anwendungen wie z. B. Versicherungsrechner oder Navigationsoberflächen darstellen. Ferner ermöglichen Java-Applets das Einbetten von Programmen, die auf dem Computer des WWWBenutzers ablaufen.
Fragen zum Text
Was ist WWW und wo liegen die Unterschiede zum Begriff Internet?
Arbeitsauftrag
Machen Sie einen Bericht zum Thema „Tim Berners Vater des WWW“.
4.6. Webbrowser. Geschichte. Einsatzgebiete und Funktionen
Lesen Sie und übersetzen den Text!
Webbrowser, oder allgemein auch Browser sind spezielle Computerprogramme zur Darstellung von Webseiten im World Wide Web oder allgemein von Dokumenten und Daten. Das Durchstöbern des World Wide Webs beziehungsweise das aufeinanderfolgende Abrufen beliebiger Hyperlinks als Verbindung zwischen Webseiten mit Hilfe solch eines Programms wird auch als Internetsurfen bezeichnet. Neben HTML-Seiten können Webbrowser verschiedene andere Arten von Dokumenten anzeigen. Webbrowser stellen die Benutzeroberfläche für Webanwendungen dar.
Ursprünglich bezeichnete der aus dem Englischen entlehnte Begriff browsen am Computer lediglich das Nutzen von Navigationselementen (Vor, Zurück, Index etc.) zum Lesen von Texten bzw. Textdateien. Erweitert wurde dieser Begriff später durch das Aufkommen von Hypertext, bei dem man bestimmte als Querverweis (auch „Hyperlinks“ genannt) wirkende Wörter auswählen kann, um zu einem anderen Text zu gelangen. Später kamen dann Funktionen zur Anzeige von Bildern dazu und auch sogenannte verweissensitive Grafiken, bei denen man auf einer Computergrafik einen Bereich (zum Beispiel bei einer Weltkarte) anklickt und dadurch zu einer verlinkten Textseiten (zum Beispiel über ein bestimmtes Land) gelangt. Des Weiteren existieren PDFBrowser zur Navigation und Recherche in PDF-Büchern, – Magazinen, – Abhandlungen etc., die auch Hyperlinks und AV-Medien enthalten können.
Einsatzgebiete. Browser werden hauptsächlich auf PCs eingesetzt. Aber auch mobile Endgeräte (PDAs, Smartphones) verfügen über Browsersoftware für den Zugriff auf das World Wide Web. Der erste mobile Browser „PocketWeb“ wurde 1994 am TecO für den Apple Newton entwickelt. Heutige mobile Browser sind zum Beispiel Opera Mini, IEmobile, Fennec, Minimo, Safari und Skyfire.
Aufgrund ihrer großen Verbreitung haben Webbrowser eine wichtige Funktion als sogenannte Thin Clients von Webanwendungen.
Mit dem fortschreitenden Trend zum Internet und später Multimedia wandelte sich der Webbrowser zur zentralen Anwendersoftware auf einem heute üblichen PC. Heutige Browser zeigen Inhalte wie Computergrafiken, Musik, Radio oder Filme und benutzen dazu ggf. externe Bausteine, wie Java-Applets oder sogenannte Plug-ins.
Zudem lassen sich damit Programme oder Dateien auf den PC laden (herunterladen), um sie dort zu speichern und gegebenenfalls zu einem späteren Zeitpunkt zu öffnen oder auszuführen.
Insbesondere die Verbreitung von Breitband-Internetzugängen förderte diese zentralen Funktionen heutiger Webbrowser. Somit verschwimmt zunehmend auch der Unterschied zu einem Dateimanager, der ursprünglich ausschließlich zum Öffnen, Kopieren oder Löschen von Dateien verwendet wurde. Viele Dateimanager haben heute auch BrowserFunktionen (Datei-Browser) und können so auch zum Anzeigen von Dokumenten verwendet werden.
Oft lässt sich ein Webbrowser auch für Tätigkeiten am lokalen Computer einsetzen, sofern funktionale Einheiten in der Lage sind, gemäß HTTP mit dem Webbrowser zu „kommunizieren“. Der Vorteil hierbei besteht darin, dass dafür kein eigenes Programm auf dem Rechner installiert werden muss. Dabei spielen auch Überlegungen zur Sicherheit des jeweiligen Computersystems eine Rolle.
Inzwischen haben auch viele netzwerkfähige Geräte eine Webschnittstelle und können so mit einem Browser bedient werden.
Webbrowser beherrschen neben HTTP weitere Protokolle der Anwendungsschicht des TCP/IP-Referenzmodells, zum Beispiel FTP. Einige Webbrowser haben auch Funktionen für E-Mail, Usenet oder BitTorrent. Andere decken diese Funktionen durch externe Programme ab. So werden heute manche Browser (wie Mozilla oder Opera) als Browser-Garnitur mit integrierten Funktionen für zum Beispiel E-Mail und Usenet ausgeliefert. Andere, wie Internet Explorer und Konqueror, sind kombinierte Browser und Dateimanager. In den letzten Jahren hat wiederum eine Gegenbewegung eingesetzt, die sich für Browser ohne solche Zusatzfunktionen einsetzt, wie zum Beispiel Galeon und Firefox. Diese können jedoch durch installierbare Erweiterungen angepasst werden, so dass weitere Funktionen mit dem Browser ausgeführt werden können. Beispielsweise kann Firefox nach Installation von ChatZilla am Internet Relay Chat teilnehmen.
Textbasierte Browser. Manche Browser können nach wie vor nur einfachen Text darstellen. Solche Browser werden auch textbasierte Browser genannt. Meist ermöglichen sie es, Computergrafik-Dokumente abzuspeichern oder mit externen Programmen darzustellen. Textbrowser eignen sich besonders zur schnellen Recherche, da Bilder, Werbung und ähnliches gar nicht geladen werden. Beispiele für textbasierte Browser sind Links, Line Mode Browser, ELinks, Lynx und w3m. Opera kann einen Textbrowser nachahmen.
Offline-Browser arbeiten offline, also ohne Internetverbindung. Sie verwenden ausschließlich lokale Inhalte oder lokale Kopien von WebInhalten. Vorrangiges Einsatzgebiet sind nicht-internetfähige Rechner. Zur Herstellung geeigneter Offline-Kopien von Webseiten sind spezielle Programme wie wget oder HTTrack erforderlich. Auch viele StandardWebbrowser lassen sich in einen Offline-Modus umschalten, wobei diese dann ihre Daten (sofern vorhanden) aus dem sogenannten Browser-Cache laden.
Tim Berners-Lee, ein Pionier der Verwendung von Hypertext, entwickelte ab Oktober 1990 am CERN in Genf (Schweiz) den ersten Webbrowser und – editor unter dem Namen WorldWideWeb (später Nexus) auf einer NeXTWorkstation. Eingelagerte Grafiken öffneten sich noch nicht automatisch, sondern mussten erst angeklickt werden. Im November 1990 beauftragte er Nicola Pellow mit der Entwicklung des minimalistischen Line Mode Browsers, der nur Text darstellen konnte, dafür aber auf „praktisch allen“ Rechnern lief. Weihnachten 1990 waren beide Browser präsentationsreif.
Im August 1991 machte Berners-Lee das Projekt und beide Browser in der Newsgruppe alt.hypertext öffentlich bekannt.
Mosaic. Größere Verbreitung fand nach dem unzureichenden WWW/Nexus der Browser NCSA Mosaic, eine Software mit grafischer Benutzeroberfläche (GUI) und sich automatisch vollständig aufbauendem Seitendesign, die ursprünglich auf Unix lief, aber bald schon auf Apple Macintosh und Microsoft Windows portiert wurde. Die Version 1.0 von Mosaic erschien am 1. April 1993.
Netscape. Marc Andreessen, der Mosaics Entwicklerteam leitete, gründete kurz danach die Netscape Communications Corporation, die kommerziellen Möglichkeiten des Internets wurden erkannt und mit Netscape eingeleitet. Das Unternehmen brachte seinen Navigator im Oktober 1994 auf den Markt. Er war ein gegenüber NCSA Mosaic verbesserter Webbrowser mit schnellerem Seitenaufbau. Netscape verbreitete sich sehr schnell und verdrängte Mosaic fast vollständig; für einige Jahre wurde er Marktführer im rasanten Wachstum des Internets. Das Unternehmen wurde Ende 1998 von America Online (AOL) aufgekauft. Neue Versionen von Netscape (Netscape 6.0, Netscape 7.0) hatten nur bescheidenen Erfolg. Insbesondere Netscape 6.0 wurde zu einem Fehlschlag. Am 1. März 2008 wurden die Weiterentwicklung und der Support eingestellt.
Internet Explorer. Aufgrund des Erfolgs des Netscape Navigators brachte Microsoft, das bis dahin das Internet unterschätzt hatte, 1995 seinen Internet Explorer heraus, der nicht selbst entwickelt, sondern vom Unternehmen Spyglass (NCSA Mosaic) eingekauft worden war. Mit Erscheinen des Internet Explorers begann ein Verdrängungswettbewerb zwischen den Browser-Herstellern Microsoft und Netscape (siehe Browserkrieg).
Dabei konnte sich Microsoft den Wettbewerbsvorteil zunutze machen, Hersteller des Betriebssystems Microsoft Windows zu sein und mit jeder Installation des Betriebssystems auch den hauseigenen Browser mitausliefern, so dass er wie selbstverständlich sofort benutzt wurde.
Eine Folge dieses Wettbewerbs war zum einen eine starke Verbreitung beider Browser. Andererseits führte die Konkurrenz zwischen Microsoft und Netscape dazu, dass die beiden Firmen in ihrem Wettkampf um Marktanteile eine Vielzahl selbsterfundener Erweiterungen in ihre Programme integrierten, die vom jeweiligen Konkurrenzprodukt zunächst nicht unterstützt wurden. Letztlich gelang es Microsoft, den Konkurrenten Netscape vom Markt weitgehend zu verdrängen.
Mozilla und Firefox. Netscape reagierte auf seine Marktanteilverluste, indem es sich zu einem quelloffenen Projekt veränderte – unter dem Namen Mozilla, welches parallel zur Netscape-Entwicklung betrieben wurde, wobei sich die Projekte gegenseitig mit Ideen und Techniken ergänzten.
Zum Nachfolger des Mozilla-Browsers wurde Firefox. Da Firefox ein reiner Webbrowser ist, wird er durch den E-Mail-Client Thunderbird ergänzt, während Mozilla noch einen integrierten E-Mail-Client besaß. Die Versionen 1.0 von Firefox und Thunderbird erschienen nach einer längeren Betaphase im Dezember 2004.
Während die Mozilla-Entwickler zuvor darauf bedacht gewesen waren, möglichst alle wichtigen Internetfunktionen wie Webbrowser, E-MailProgramm, Adressbuch und HTML-Editor in einem Programmpaket (Mozilla Application Suite) zusammenzufassen, strebten sie später die Veröffentlichung einzelner, voneinander unabhängiger Komponenten an. Das Ziel der Entwicklung war ein schneller Programmstart und geringere Speicher– und Rechenzeitauslastung. Gleichzeitig sollte die Entwicklung der einzelnen Komponenten ausgebaut und vorangetrieben werden.
Die Webbrowser-Funktion übernahm Mozilla Firefox. Die E-Mail-Funktion wurde unter dem Namen Mozilla Thunderbird ausgelagert, der Kalender wird unter dem Namen Mozilla Sunbirdund der HTML-Editor zunächst als Nvu, nun als KompoZer weiterentwickelt. Die offizielle Mozilla Application Suite 1.7 wurde lediglich mit Sicherheitsaktualisierungen versorgt. Allerdings arbeitet seit Mitte 2005 ein Community-Projekt an der Weiterentwicklung der Application Suite unter dem Namen SeaMonkey.
Opera. Der Browser Opera erschien in der ersten Version 1996. Opera zeichnet sich durch die Vielzahl seiner Funktionen aus: Neben den eigentlichen Internetfunktionen bietet er ein integriertes E-MailProgramm, Chatmodule, Bit Torrent-Unterstützung und viele, oft einzigartige Funktionen. Opera ist für eine Vielzahl von Betriebssystemen und Benutzersprachen verfügbar. Opera war einer der ersten Browser, die Tabs und einen Pop-up-Blocker fest integriert hatten.
Nintendos Spielkonsole Wii und der Nintendo DS verwenden den OperaBrowser, um Internetdienstleistungen anzubieten.
Safari. Der Safari-Browser ist ein Browser vom Unternehmen Apple. Dieser Browser wurde im Januar 2003 zum ersten Mal veröffentlicht und ist seit MacOS-X Panther (10.3) der Standardbrowser, der den bis dahin genutzten Internet Explorer von Microsoft ersetzte. Der Rendering Engine namens WebKit liegt die KHTML-Bibliothek des KDE-Projekts zugrunde, die von Apple an eigene Bedürfnisse angepasst wurde. Seit März 2008 ist mit Safari 3.0 auch eine Version für Windows XP/Vista verfügbar. Safari wird in einer mobilen Version als Browser für das iPhone, den iPod touch und das iPad verwendet.
Google Chrome. Am 2. September 2008 brachte Google den Webbrowser Google Chrome als Beta-Version für Windows heraus. Im Dezember 2008 wurde die erste endgültige Version veröffentlicht, im Mai 2009 folgte dann Version 2.0. Seit dem 25. Mai 2010 ist Google Chrome in der Version 5 für Windows und erstmals auch für Linux und Mac OS X erhältlich.
Das World Wide Web Consortium (W3C) organisiert die Standardisierung der das World Wide Web betreffenden Techniken. Diese Standards wurden in der Vergangenheit und auch noch heute von einigen Browserherstellern nur teilweise oder abweichend umgesetzt beziehungsweise erweitert. Dies macht die Programmierung von browserunabhängigen Webanwendungen wegen des hohen Testaufwandes zum Teil schwierig und zeitaufwendig. Die Standardkonformität eines Browsers kann mit den Acid-Tests geprüft werden.
Fragen zum Text
Definieren Sie die Begriffe Webrowser, WWW, Web.
Arbeitsauftrag
Entscheiden Sie sich für einen Webbrowser und suchen Sie Informationen zu folgenden Punkten: Entstehungsgeschichte; Anwendungsbereich; Beispielbefehle; Vor– und Nachteile.
Kapitel 5. Suchmaschinen. Soziale Netzwerke
5.1. Was ist eine Suchmaschine?
Lesen Sie und übersetzen den Text!
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet-Suchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Sie erstellen einen Schlüsselwort-Index für die Dokumentbasis, um Suchanfragen über Schlüsselwörter mit einer nach Relevanz geordneten Trefferliste zu beantworten. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind: Erstellung und Pflege eines Index (Datenstruktur mit Informationen über Dokumente), Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.
Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält (häufig Snippet genannt). Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an. Ein großer Anteil aller Suchanfragen im Internet bezieht sich aktuell auf Personen und deren Aktivitäten. Eine Personensuchmaschinefindet öffentlich verfügbare Informationen zu Namen und Personen, die als Linkliste dargestellt werden. Weitere spezialisierte Arten von Suchmaschinen sind zum Beispiel Jobsuchmaschinen, Branchensuchen oder Produktsuchmaschinen. Letztere werden vorrangig von OnlinePreisvergleichen eingesetzt, es gibt aber auch schon lokale Angebotssuchen, die Produkte und Angebote stationärer Einzelhändler online darstellen.
Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Webseiten im HTML-Format nach dem Dokumententitel.
Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschließt. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat.
Datenquelle. Ein anderes Merkmal zur Kategorisierung ist die Quelle, aus der die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle.
• Websuchmaschinen erfassen Dokumente aus dem World Wide Web;
• vertikale Suchmaschinen betrachten einen ausgewählten Bereich des World Wide Web und erfassen nur Webdokumente zu einem bestimmten Thema wie Fußball, Gesundheit oder Recht;
• Usenetsuchmaschinen Beiträge aus dem weltweit verteilten Diskussionsmedium Usenet;
• Intranet Suchmaschinen beschränken sich auf die Rechner des Intranets einer Firma;
• Enterprise Search Suchmaschinen ermöglichen eine zentrale Suche über verschiedene Datenquellen innerhalb eines Unternehmens, wie z. B. Fileserver, Wikis, Datenbanken und Intranet;
• Als Desktop-Suchmaschinen werden Programme bezeichnet, die den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, spricht man von einem Katalog oder Verzeichnis. In solchen Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.
Klassifikation von Suchmaschinen. Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine Datenstruktur, die bei einer späteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Index, Vorteil ist die Beschleunigung des Suchvorgangs. Häufigste Ausprägung dieser Struktur ist ein Invertierter Index (Abb. 4).
Abb. 4. Indexbasierte Suchmaschine
Metasuchmaschinen senden Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergeben sich die größere Datenmenge sowie die einfachere Implementierung, da kein Index vorgehalten werden muss. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Außerdem ist das Ranking durch reine Mehrheitsfindung von fragwürdigem Wert. Die Qualität der Ergebnisse wird unter Umständen auf die Qualität der schlechtesten befragten Suchmaschine reduziert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll (Abb. 5).
Abb. 5. Metasuchmaschine
Weiterhin existieren Hybridformen. Diese besitzen einen eigenen, oft relativ kleinen Index, befragen aber auch andere Suchmaschinen und kombinieren schließlich die Einzelergebnisse. Sogenannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
Ein relativ neuer Ansatz sind Verteilte Suchmaschinen bzw. Föderierte Suchmaschinen. Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengeführt. Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und – je nach Sichtweise – die fehlende Möglichkeit, zentral zu zensieren. Schwierig zu lösen ist allerdings das Ranking, also die Sortierung der grundsätzlich passenden Dokumente nach ihrer Relevanz für die Anfrage.
Eine besondere Art der Verteilten Suchmaschinen sind die auf dem Peer-to-Peer-Prinzip basierenden, die einen verteilten Index aufbauen. Auf jedem dieser Peers können unabhängige Crawler zensurresistent die Teile des Webs erfassen, welche der jeweilige Peer-Betreiber durch einfache lokale Konfiguration definiert. Bekanntestes System ist, neben einigen vorwiegend akademischen Projekten (z. B. Minerva), die unter GNU-GPL freie Software YaCy (Abb. 6).
Abb. 6. Föderierte Suchmaschine
Interpretation der Eingabe. Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Suchalgorithmus verständliche Form gebracht. Dies dient dazu, die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren. Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht.
Eine neuere Entwicklung ist die Fähigkeit von etlichen Suchmaschinen, implizit vorhandene Informationen aus dem Zusammenhang der Suchanfrage selbst zu erschließen und zusätzlich auszuwerten. Die bei unvollständigen Suchanfragen typischerweise vorhandenen Mehrdeutigkeiten der Suchanfrage können so reduziert, und die Relevanz der Suchergebnisse (das heißt, die Übereinstimmung mit den bewussten oder unbewussten Erwartungen des/der Suchenden) erhöht werden.
Aus den semantischen Gemeinsamkeiten der eingegebenen Suchbegriffe wird (siehe auch: Semantik) auf eine, oder mehrere, hinter liegende Bedeutungen der Anfrage geschlossen. Die Ergebnismenge wird so um Treffer auf semantisch verwandte, in der Anfrage jedoch nicht explizit eingegebene Suchbegriffe, erweitert. Dies führt in der Regel nicht nur zu einer quantitativen, sondern, vor allem bei unvollständigen Anfragen und nicht optimal gewählten Suchbegriffen, auch zu einer qualitativen Verbesserung (der Relevanz) der Ergebnisse, weil die in diesen Fällen eher unscharf durch die Suchbegriffe abgebildeten Suchintentionen durch die von den Suchmaschinen verwendeten statistischen Verfahren in der Praxis erstaunlich gut wiedergegeben werden. (Siehe auch: semantische Suchmaschine und Latent Semantic Indexing).
Unsichtbar mitgegebene Informationen (Ortsangaben, und andere Informationen, im Fall von Anfragen aus dem Mobilfunknetz) oder erschlossene „Bedeutungsvorlieben“ aus der gespeicherten Such-History des Benutzers, sind weitere Beispiele für nicht explizit in den eingegebenen Suchbegriffen vorgegebene, von etlichen Suchmaschinen zur Modifikation und Verbesserung der Ergebnisse verwendete Informationen.
Es gibt daneben auch Suchmaschinen, die nur mit streng formalisierten Abfragesprachen abgefragt werden können, dadurch in der Regel jedoch auch sehr komplexe Anfragen sehr präzise beantworten können.
Eine bislang noch nur ansatzweise oder auf beschränkte Informationsgrundlagen realisierbare Fähigkeit von Suchmaschinen ist die Fähigkeit zur Bearbeitung natürlichsprachiger sowie unscharfer Suchanfragen.
Fragen zum Text
Was ist eine Suchmaschine? Beschreiben Sie die Modelle und Funktionen der Suchmaschinen.
Arbeitsauftrag
Entscheiden Sie sich für eine Suchmaschine und suchen Sie Informationen zu folgenden Punkten: Entstehungsgeschichte; Anwendungsbereich; Beispielbefehle; Vor– und Nachteile.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.