Suchmaschinen-FAQ
Über...
Übersicht
Grundsätzlich kann zwischen 3 Arten von Suchmaschinen unterschieden
werden:
- Katalogsysteme
- Volltextsuchmaschinen
- Meta-Suchmaschinen
Hierbei handelt es sich um ein Verzeichnis, in dem die einzelnen
Einträge nach Kategorien geordnet abrufbar sind. Die bekanntesten
Vertreter solcher Systeme sind z.B.
Yahoo,
dmoz oder
web.de.
Der Vorteil eines Katalogsystems ist,
dass der Nutzer sehr schnell Ergebnisse bekommt, wenn er sich für ein
bestimmtes Thema interessiert.
Der Nachteil ist, dass die Websites im
allgemeinen erst von einer Redaktion besucht und bewertet wird, was die
Aktualität einschränkt und die Qualität der Suchergebnisse von
der Qualifikation der dahinterstehenden Redaktion abhängig ist.
Diese Systeme gehen, von einem Startpunkt ausgehend, alle sowohl intern
als auch extern verlinkten Webseiten durch und erstellen eine Sammlung von
Schlüsselworten, nach denen Nutzer suchen können. Bekannte
Suchmaschinen dieser Art sind z.B.
Altavista oder
Fireball.
Der Vorteil dieses Systems
ist, dass der Vorgang des sogenannten Indizierens automatisiert erfolgt und
somit die Aktualität größer ist.
Der Nachteil ist, dass
nicht sichergestellt werden kann, dass die gefundenen Wörter auch zum
Inhalt passen. Was in einer Seite für die Indizierung herangezogen wird,
ist vom jeweiligen Anbieter abhängig und wird teilweise auch auf einer
Seite beschrieben. Diese Angaben ändern sich allerdings relativ
häufig, da Suchmaschinen-Anbieter in einem ständigen Kampf mit
Website-Anbietern liegen, die durch das geschickte Ausnutzen der
Inidiziermechanismen einer Suchmaschine einen ungerechtfertigten Vorteil bei
der Ergebnispräsentation erreichen wollen.
Eine Besonderheit stellt die
Suchmaschine
Google dar. Sie bewertet in
erster Linie nicht die Seiten selbst sondern ihr Umfeld. Das heisst, dass die
Bedeutung einer Seite dadurch gemessen wird, wie sie von anderen
eingeschätzt wird:
Eine Seite mit vielen Inlinks wird offenbar für
wichtig gehalten (Authorities). Eine Seite, unter deren Outlinks viele
Authorities sind, scheint ein Thema gut zusammenzufassen (Hubs). Seiten, die
von vielen Hubs gelistet werden, müssen wichtige Authorities sein. Hubs,
die wichtige Authorities listen, sind besser als andere. Und so fort. Daher ist
es für ein gutes Ranking nicht entscheidend, die Seite für
Suchmaschinen zu optimieren. Wichtig ist, dass die Seite gut ins Netz
eingebunden ist.
Diese Suchmaschinen sind eigentlich keine Suchmaschinen im
herkömmlichen Sinn. Sie fassen Suchergebnisse anderer Suchmaschinen
zusammen und erhöhen damit die Wahrscheinlichkeit, dass für einen
Suchbegriff auch ein Ergebnis gefunden wird.
Eine Metasuchmaschine ist
beispielsweise
Metacrawler oder
Metager.de.
Natürlich gibt es
diverse Mischformen, so bietet z.B.
Lycos
neben der Volltextsuche auch einen
Katalog an und viele Suchmaschinen erlauben
es auf der Suchergebnisseite, die gleiche Suche bei einer Reihe weiterer
Anbieter zu starten.
--
[Verfasser: Lothar Kimmeringer]
Die im folgenden dargelegten Maßstäbe und Richtlinien sind
bewusst sehr weit gefasst, um den oft sehr verschiedenen Anforderungen der
einzelnen Suchdienste zu genügen.
Das Web entsteht -- wie der Name schon andeutet -- erst dadurch, dass
verschiedene Angebote miteinander verlinkt sind. Suchmaschinen folgen diesen
Links, um Webseiten zu finden. Je besser eine Seite verlinkt ist, desto
grösser ist die Chance, dass viele Suchmaschinen zeitnah vorbeikommen.
Neue Trends in der Suchmaschinenentwicklung (vgl. Google (
1), Clever Searching (
2)) gehen dahin, aus
der Linkstruktur die Bedeutung einer Seite zu ermitteln, also gut ins Netz
eingebundene Seiten höher zu gewichten.
Link-"Partnerschaften" oder
"Web-Ringe" mit artverwandten Websiten wären in diesem Zusammenhang eine
Möglichkeit der Vernetzung, die zur Steigerung der sogenannten
"Link-Popularity" beitragen könnte. Dabei sollte jedoch beachtet werden,
dass "cgi-Links", die oft bei "Web-Ringen" verwendet werden, von den
Suchrobotern häufig nicht verfolgt werden.
Sollte es wirklich einmal nötig sein, eine Seite umzustrukturieren,
müssen unbedingt alle alten URL zu den neuen umgeleitet werden. Ideal ist
dafür eine serverseitige Weiterleitung mit Response-Code 301
('RedirectPermanent'). Ist dies nicht möglich, oder legt man Wert darauf,
die Besucher ausdrücklich über den Umzug zu benachrichten, kann man
auch Ersatz-Seiten einrichten.
Diese sollten dann aber nicht erst laden und
nach wenigen Sekunden automatisch wieder verschwinden, um die neue Adresse
automatisch nachzuladen, sondern stehenbleiben, bis der User die Seite gelesen
hat ("bitte ändern Sie eventuell gesetzte Links und Bookmarks...") und
dann weiterklickt.
Logische Auszeichnung von Webseiten durch HTML oder XHTML dient nicht nur
den Lesern der Seite sondern erleichtert den Suchrobots auch das Auffinden
relevanter Suchbegriffe. So wird normalerweise ein Suchbegriff, der in
<h1>...</h1>-Tags steht, höher gewichtet als einer, der sich
in einem <p>...</p> Absatz befindet. Wer Überschriften
für nichtssagende Phrasen nutzt wie "Willkommen auf meiner Homepage",
verschenkt daher gute Möglichkeiten im Suchindex nach vorn zu rücken.
Auch im normalen Text lassen sich wichtige Begriffe durch
<strong>...</strong> (Starke Hervorhebung) oder
<em>...</em> (Leichte Hervorhebung) hervorheben, um den Robots das
Herausfiltern relevanter Begriffe zu erleichtern.
Weitere Beispiele für logische Auszeichnungen:
<strong>...</strong> (Starke Hervorhebung)
<cite>...</cite> (Quellenangaben)
<var>...</var> (Darstellung - Variable(n))
<code>...</code> (Darstellung - Programmcode)
<kbd>...</kbd>
(Darstellung von Text, den der Anwender eingeben soll)
Es ist nicht empfehlenswert, eine URL (z.B. http://come.all/max.muster)
indizieren zu lassen, die "nur" eine Weiterleitung auf eine andere URL (z.B.
http://home.t-online.all/home/max.muster) darstellt. Um sich gegen Missbrauch
zu schützen (Stichwort: Spam), indizieren Suchroboter diese Website nicht
(
3). Man sollte deshalb immer die tatsächliche URL des
Web-Auftrittes den Suchmaschinen gegenüber angeben.
Auch Verzeichnis- und Dateinamen können von Suchrobots für die
Bewertung von Seiten herangezogen werden. Es ist demnach ratsam, den Inhalt der
Seiten bei der Benennung zu berücksichtigen. Bsp.:
werkzeuge/holzbearbeitung.html statt: katalog/seite3.html .
Eine Sitemap ist eine Webseite im Rahmen des Webauftrittes, auf der
möglichst hierarchisch gegliedert und kommentiert alle Webseiten der
jeweilgen bzw. der darunterliegenden Hierarchie verlinkt sind. Auf diese Weise
bekommt der User eine Übersicht über den Inhalt der jeweiligen
Website bzw. über die jeweilige Kategorie der Website. Weiterhin sind
solche Übersichten für die Eintragung in Suchmaschinen geradezu
ideal, da man dort alle Schlag- bzw. Suchworte komprimiert und verlinkt
einbringen kann.
Dieses Konzept wird auch bei sogenannten
"Brückenseiten" verwendet. "Brückenseiten" sind spezielle
Einstiegsseiten zu einer Website, die sich in der Regel auf eine Kategorie bzw.
ein Thema beschränken, dieses kurz anreißen und auch eine
entsprechende Sitemap anbieten.
"Suchroboter" können, genauso wie Nutzer von Text-Browsern, keine
Grafiken (z.B. Buttons) bzw. Bilder im eigentlichen Sinne als solche erkennen
bzw. auswerten. Deshalb muss man mit Hilfe des Alt-Attributs alternative Texte
bereitstellen. Wie man dies am besten bewerkstelligt, erfährt man unter
anderem bei Bjoernsworld.de (
4).
Um ungefähr ein
"Feeling" dafür zu bekommen, welche Informationen Suchmaschinen
überhaupt bereitgestellt kriegen, kann man seine Website mit einem
Textbrowser wie z.B. Lynx (
5) besuchen.
Kurze, aussagekräftige und mit der Thematik eng verbundene Titel, die
nach Möglichkeit die relevantesten Suchbegriffe beinhalten sollten, sind
auf jeder Seite zu verwenden.
Auf diese Weise eröffnet man sich nicht
nur Chancen auf ein besseres "Ranking", sondern trägt auch der Tatsache
Rechnung, dass der Titel sehr häufig als Überschrift und Link zu der
jeweiligen Website bei der Präsentation des Suchergebnisses dargestellt
wird.
Die in den Meta-Tags plazierten Informationen im "Head" des
(X)HTML-Dokumentes sorgen dafür, dass die Seiten leichter bestimmten
Themengebieten und Suchbegriffen seitens der Suchmaschinen zugeordnet werden
können. Deshalb sollten sie auch mit dem auf der Seite bereitgestellten
Inhalt im Einklang stehen. Es gibt eine Vielzahl von Meta-Tags, von denen aber
nur die wenigsten von den Suchmaschinen ausgewertet werden.
Einige
Meta-Tags nebst Erklärung:
*** Beispiel:
<META HTTP-EQUIV="Content-Language" CONTENT="de">
Die Seite ist in deutsch (de) abgefasst.
Andere
Möglichkeiten: en (englisch), fr (französisch) etc.
<META NAME="Robots" CONTENT="index, follow">
Die Seite soll indiziert werden (index) und die Links sollen
verfolgt werden (follow)
[Gegenbeispiel: <META NAME="Robots"
CONTENT="noindex, nofollow"> ]
Natürlich sind auch beliebige
Kombinationen daraus wie z.B.
<META NAME="Robots" CONTENT="noindex,
follow"> in einem Verzeichnis
möglich, das in der robots.txt
"freigegeben" sein kann.
<META NAME="Description" CONTENT="Tips und Tricks
für die optimale Eintragung in Suchmaschinen,
d. h. Informationen zu Meta-Tags, der Datei
robots.txt und vielem mehr, finden sie hier.">
Eine kurze inhaltliche Beschreibung der vorliegenden Seite. Diese
wird häufig auch als kurzer Einstieg bei der Präsentation des
Suchergebnisses seitens der Suchmaschinen genutzt.
<META NAME="Keywords" CONTENT="Suchmaschinen,
Suchmaschienen, Eintragung, Optimierung, Meta Tags">
Lege hier Schlagworte fest, die Besucher aller Voraussicht nach mit
der Thematik deiner Seite verbinden. Bedenke dabei, dass diese Begriffe auch
häufig aufgrund ihrer Gesamtanzahl gewichtet werden.
Wenige,aussagekräftige und dem Text entsprechende Schlagworte sind daher
zu bevorzugen. Weiterhin sollten typische Schreibfehler berücksichtigt
werden.
<META NAME="Author" CONTENT="Simon Kloss">
Autor der Seite (hier: Simon Kloss). Diese Angabe ist wie alle
anderen Meta-Angaben _keinesfalls_ zwingend. Sie kann aber beispielsweise bei
Firmenpräsentationen einen erhöhten Nutzwert bieten.
<META name="publisher" CONTENT="FAQ-Team von dciwam">
Herausgeber (hier: FAQ-Team von dciwam). Diese Angabe kann unter
anderem dann sinnvoll sein, wenn der Herausgeber mit dem Autor nicht
übereinstimmt.
<META NAME="robots" CONTENT="noarchive">
Bei Verwendung dieses Meta-Tags verhindert man die Speicherung der
jeweiligen Seite im "Cache" von Suchmaschinen, die mit Hilfe des ia_archivers
oder des Googlebots ihre Inhalte indizieren (6) (7).
Bei Verwendung von <META NAME="robots"
CONTENT="noindex"> ist eine zusätzliche Anweisung "noarchive" nicht
nötig, da die Seiten nicht indiziert und somit auch nicht im Cache
aufgeführt werden.
Es gibt Hinweise, dass durch die Anweisung
"noarchive" das Ranking ungünstig beeinflusst wird.
<META NAME="googlebot" CONTENT="noarchive">
Dieser Meta-Tag verhindert die Aufnahme in den Cache von
Suchmaschinen, die mit Googlebot indiziert werden (6).
***
Nähere und weiterführende Informationen zu den Meta-Tags findet
man z.B. bei suchfibel.de (8) oder unter Umständen bei
der jeweiligen Suchmaschine (Konkretes Beispiel: Suchmaschine "Altavista" (9),(10)).
Hinweis in diesem
Zusammhang: Die Zeichenkodierung sollte per HTTP klar definiert werden.
Nähere Informationen hierzu findet man in der dciwam-FAQ (11).
...sollten nicht nur im Hinblick auf die Suchmaschinen mit Bedacht
gewählt werden. Viele Suchmaschinen werten sie aus und gewichten sie auch
dementsprechend stark. Deshalb sollte man am Anfang einer Seite ähnlich
wie bei einem Zeitungsartikel das Wesentliche kurz zusammenfassen und
möglichst auch die "Keywords" aus den Meta-Angaben miteinbringen.
Auf den Seiten der verschiedenen Suchmaschinen gibt es in der Regel
irgendwo einen Link (z.B. "Add URL", "Neue URL" etc.), der einen zu einem
Anmeldeformular führt. Hier muss man dann verschiedene Angaben zu seiner
Website machen, die in ihrer Art und Komplexität von Suchmaschine zu
Suchmaschine stark differieren können (z.B. URL, Kurzbeschreibung, Name
des Autors usw.) (
12).
Das differiert wiederum von Suchdienst zu Suchdienst - von einigen Tagen
bis zu mehreren Monaten habe ich persönlich schon alles erlebt. Der
Zeitpunkt für eine freundliche Nachfrage per e-mail, auf deren
Beantwortung man allerdings nicht allzu große Hoffnungen hegen sollte,
bzw. eine Neueintragung ist deshalb ebenfalls Ermessenssache.
Das hängt von der jeweiligen "Suchtiefe" des Suchdienstes ab. Diese
wird häufig auf der jeweiligen Website der Suchmaschine
veröffentlicht (oftmals reicht die Angabe der "Ausgangsseite"). Im
Zweifelsfall muss man die "Suchtiefe" durch Beobachtung der eigenen
Eintragungen selbst herausfinden.
Sicherlich kann man diese Services nicht alle über einen Kamm
scheren. Ich persönlich würde mich aber auf ein paar wenige "gute"
Suchmaschinen beschränken und bei diesen manuelle Einträge machen.
Auf diese Weise bin ich mir sicher, dass meine persönlichen Daten nicht
unter Umständen unnötig "durch Dritte Hände gehen" und
gleichzeitig habe ich die Gewissheit, dass mein Internetauftritt
baldmöglichst und bestmöglichst im Suchindex erscheint.
Eventuell durch Auswertung der Logfiles. Jede Suchmaschine bedient sich
einem speziellen Roboter, über den man sie gegebenenfalls identifizieren
kann. Wie diese Zuordnung aussieht, erfährt man oft auf der Seite der
jeweiligen Suchmaschine oder direkt über einen Hinweis im Logfile.
Schwierig wird es natürlich bei Suchrobotern, die für mehrere
Suchdienste unterwegs sind.
Nähere Informationen zu den einzelnen
Suchrobotern gibt es darüberhinaus z. B. bei info.webcrawler.com (
13), suchfibel.de (
14) oder bei D.
Boecker (
15).
Von Manipulationen ist grundsätzlich dringend abzuraten. Der Schuss
geht sogut wie immer nach hinten los, da mittlerweile die
Suchmaschinenbetreiber technische Gegenmaßnahmen gegen solche
Betrugsversuche entwickelt haben. Ein Sperrung der Domain im Suchindex ist bei
einem aufgedeckten Missbrauchsfall sehr wahrscheinlich!
Die Webseiten sollten nach den Richtlinien des W3C (
1)
erstellt worden sein. Ob dies der Fall ist, kann man mit Hilfe eines
"Validators" (
2) herausfinden. Bei Beachtung der Standards
werden eventuelle Fehler der Website, die möglicherweise die Indizierung
eines Teils des Webauftrittes verhindern würden (z. B. durch
Syntaxfehler), vermieden.
Trifft ein Suchroboter auf einen Frameset, folgt er den Links, die als
Werte des src-Attributs des <frame>-Elements genannt sind, was dazu
führt, dass zahlreiche sog. "Frame-Unterseiten" indiziert und als
Suchergebnis genannt werden, die dann ohne Navigation unbenutzbar
sind.
Möchte man auf Frames nicht verzichten, muss der Noframe-Bereich
ein ausführliches Inhaltsverzeichnis der Einzelseiten enthalten, da
ansonsten alle hinter dem Frameset liegenden Seiten nicht nur von
"Noframe-Browsern" (z.B. div. Organizer) sondern auch von den Robots
abgeschnitten werden (die weitaus schlechtere Lösung wäre ein Link zu
einer alternativen Inhaltsseite).
Es ist ratsam, die relevanten
Suchbegriffe in der Beschreibung der Links aufzuführen.
Wie wichtig
der "NoFrames-Bereich" ist, zeigt sich häufig in Texten der
Suchergebnisse: "Ihr Browser unterstüzt keine Frames ..." (
3). Weitere Informationen zum Thema "Frames" findet man z.B.
bei subtonik.net (
4).
Besonders bei serverseitigen Imagemaps (z.B. Java-Servlets) kann mit
Bestimmtheit davon ausgegangen werden, dass diese von Suchmaschinen nicht
ausgewertet werden. Unter anderem deshalb ist es bei Navigationselementen, aber
auch bei allen anderen Anwendungsmöglichkeiten, dringend anzuraten,
für alle Suchmaschinen zugängliche Alternativen bereitzustellen (z.B.
in Form von Textlinks).
Es ist empfehlenswert, eine Datei namens "robots.txt" zu erstellen, damit
man bestimmte Bereiche der Internetpräsenz vor den Suchmaschinen
"schützen" kann, z.B. weil sich dort cgi-skripte, Bilder, etc. befinden,
deren Indizierung nicht sonderlich sinnvoll wäre. Nähere
Informationen zum Aufbau und der Anwendung der Datei sind wiederum bei
bjoernsworld.de (
5) verfügbar.
Es gibt zwar immer wieder Gerüchte in dieser Art, aber keinerlei
gesicherte Anhaltspunkte dafür. Man kann davon ausgehen, dass die
bekannten Suchmaschinen schon deshalb die Finger davon lassen, um sich ihren
Ruf nicht zu ruinieren.
Die US-Suchmaschine www.goto.com hat allerdings den
Verkauf der Top-Positionen zum Geschäftsmodell erhoben. Der User bekommt
dort sogar bei einem Sucherergebnis angezeigt, wieviel das Verfolgen eines
Links den betroffenen Werbepartner kostet. Der jeweilige "Ranking-Preis"
hängt natürlich von der Attraktivität und der Position des
Suchergebnisses ab.
Ein anderes Geschäftsmodell verfolgt Inktomi (
6), deren Daten von MSN Search, AOL Netfind und Hotbot genutzt
werden. Hier muss man für jede einzelne Seite, die man dort anmelden will,
einen Jahresbetrag bezahlen. Dafür wird garantiert, dass die Seite
innerhalb von zwei Tagen besucht wird und anschließend ein Jahr lang
ständig aktualisiert wird.
Zwar bietet Inktomi nach wie vor über
seine Suchmaschinen-Partner eine kostenlose Anmeldemöglichkeit, ob und
wann dort angemeldete Seiten aber aufgenommen werden, ist weitgehend
unklar.
Danksagung an
Alan J. Flavell,
Boris 'pi'
Piwinger, Bjoern Hoehrmann, Claus Färber, Lothar Kimmeringer, Matthias
P. Wuerfl,
Michael Nahrath, Rainer
Kersten, Stefan Fischerländer, Steffi Abel, Peter Bieling, Swen Heiderich
u.v.a.m.
für Ihre Verbesserungsvorschläge und
Ergänzungen.