Suchmaschinen-FAQ

Über...

Die nachfolgende Suchmaschinen-FAQ ist für die FAQ der Newsgroup de.comm.infosystems.www.authoring.misc erstellt worden.
- Version: 0.41 (05.08.2001)
- Mirror: http://www.netandmore.de/faq/cgi/fom?file=1060

Übersicht

1. Welche Arten von Suchmaschinen gibt es?

2. Wie werde ich von den Suchmaschinen am besten gefunden?

3. Weitere Themen im Umfeld von Suchmaschinen

4. Credits

1. Welche Arten von Suchmaschinen gibt es?

Grundsätzlich kann zwischen 3 Arten von Suchmaschinen unterschieden werden:

1.1 Katalogsysteme

Hierbei handelt es sich um ein Verzeichnis, in dem die einzelnen Einträge nach Kategorien geordnet abrufbar sind. Die bekanntesten Vertreter solcher Systeme sind z.B. Yahoo, dmoz oder web.de.
Der Vorteil eines Katalogsystems ist, dass der Nutzer sehr schnell Ergebnisse bekommt, wenn er sich für ein bestimmtes Thema interessiert.
Der Nachteil ist, dass die Websites im allgemeinen erst von einer Redaktion besucht und bewertet wird, was die Aktualität einschränkt und die Qualität der Suchergebnisse von der Qualifikation der dahinterstehenden Redaktion abhängig ist.

1.2 Volltextsuchmaschinen

Diese Systeme gehen, von einem Startpunkt ausgehend, alle sowohl intern als auch extern verlinkten Webseiten durch und erstellen eine Sammlung von Schlüsselworten, nach denen Nutzer suchen können. Bekannte Suchmaschinen dieser Art sind z.B. Altavista oder Fireball.
Der Vorteil dieses Systems ist, dass der Vorgang des sogenannten Indizierens automatisiert erfolgt und somit die Aktualität größer ist.
Der Nachteil ist, dass nicht sichergestellt werden kann, dass die gefundenen Wörter auch zum Inhalt passen. Was in einer Seite für die Indizierung herangezogen wird, ist vom jeweiligen Anbieter abhängig und wird teilweise auch auf einer Seite beschrieben. Diese Angaben ändern sich allerdings relativ häufig, da Suchmaschinen-Anbieter in einem ständigen Kampf mit Website-Anbietern liegen, die durch das geschickte Ausnutzen der Inidiziermechanismen einer Suchmaschine einen ungerechtfertigten Vorteil bei der Ergebnispräsentation erreichen wollen.
Eine Besonderheit stellt die Suchmaschine Google dar. Sie bewertet in erster Linie nicht die Seiten selbst sondern ihr Umfeld. Das heisst, dass die Bedeutung einer Seite dadurch gemessen wird, wie sie von anderen eingeschätzt wird:
Eine Seite mit vielen Inlinks wird offenbar für wichtig gehalten (Authorities). Eine Seite, unter deren Outlinks viele Authorities sind, scheint ein Thema gut zusammenzufassen (Hubs). Seiten, die von vielen Hubs gelistet werden, müssen wichtige Authorities sein. Hubs, die wichtige Authorities listen, sind besser als andere. Und so fort. Daher ist es für ein gutes Ranking nicht entscheidend, die Seite für Suchmaschinen zu optimieren. Wichtig ist, dass die Seite gut ins Netz eingebunden ist.

1.3 Metasuchmaschinen

Diese Suchmaschinen sind eigentlich keine Suchmaschinen im herkömmlichen Sinn. Sie fassen Suchergebnisse anderer Suchmaschinen zusammen und erhöhen damit die Wahrscheinlichkeit, dass für einen Suchbegriff auch ein Ergebnis gefunden wird.
Eine Metasuchmaschine ist beispielsweise Metacrawler oder Metager.de.
Natürlich gibt es diverse Mischformen, so bietet z.B. Lycos neben der Volltextsuche auch einen Katalog an und viele Suchmaschinen erlauben es auf der Suchergebnisseite, die gleiche Suche bei einer Reihe weiterer Anbieter zu starten.

--

[Verfasser: Lothar Kimmeringer]

2. Wie werde ich von den Suchmaschinen am besten gefunden?

Die im folgenden dargelegten Maßstäbe und Richtlinien sind bewusst sehr weit gefasst, um den oft sehr verschiedenen Anforderungen der einzelnen Suchdienste zu genügen.

2.1 Kriterien:

2.1.1 Links

Das Web entsteht -- wie der Name schon andeutet -- erst dadurch, dass verschiedene Angebote miteinander verlinkt sind. Suchmaschinen folgen diesen Links, um Webseiten zu finden. Je besser eine Seite verlinkt ist, desto grösser ist die Chance, dass viele Suchmaschinen zeitnah vorbeikommen. Neue Trends in der Suchmaschinenentwicklung (vgl. Google (1), Clever Searching (2)) gehen dahin, aus der Linkstruktur die Bedeutung einer Seite zu ermitteln, also gut ins Netz eingebundene Seiten höher zu gewichten.
Link-"Partnerschaften" oder "Web-Ringe" mit artverwandten Websiten wären in diesem Zusammenhang eine Möglichkeit der Vernetzung, die zur Steigerung der sogenannten "Link-Popularity" beitragen könnte. Dabei sollte jedoch beachtet werden, dass "cgi-Links", die oft bei "Web-Ringen" verwendet werden, von den Suchrobotern häufig nicht verfolgt werden.

2.1.2 Eine einmal veröffentlichte URL darf niemals sterben!

Sollte es wirklich einmal nötig sein, eine Seite umzustrukturieren, müssen unbedingt alle alten URL zu den neuen umgeleitet werden. Ideal ist dafür eine serverseitige Weiterleitung mit Response-Code 301 ('RedirectPermanent'). Ist dies nicht möglich, oder legt man Wert darauf, die Besucher ausdrücklich über den Umzug zu benachrichten, kann man auch Ersatz-Seiten einrichten.
Diese sollten dann aber nicht erst laden und nach wenigen Sekunden automatisch wieder verschwinden, um die neue Adresse automatisch nachzuladen, sondern stehenbleiben, bis der User die Seite gelesen hat ("bitte ändern Sie eventuell gesetzte Links und Bookmarks...") und dann weiterklickt.

2.1.3 Konformität des Quelltextes

-> Siehe: Abschnitt 3.1

2.1.4 "Structural Markup"

Logische Auszeichnung von Webseiten durch HTML oder XHTML dient nicht nur den Lesern der Seite sondern erleichtert den Suchrobots auch das Auffinden relevanter Suchbegriffe. So wird normalerweise ein Suchbegriff, der in <h1>...</h1>-Tags steht, höher gewichtet als einer, der sich in einem <p>...</p> Absatz befindet. Wer Überschriften für nichtssagende Phrasen nutzt wie "Willkommen auf meiner Homepage", verschenkt daher gute Möglichkeiten im Suchindex nach vorn zu rücken.
Auch im normalen Text lassen sich wichtige Begriffe durch <strong>...</strong> (Starke Hervorhebung) oder <em>...</em> (Leichte Hervorhebung) hervorheben, um den Robots das Herausfiltern relevanter Begriffe zu erleichtern.

Weitere Beispiele für logische Auszeichnungen:

<strong>...</strong> (Starke Hervorhebung)
<cite>...</cite> (Quellenangaben)
<var>...</var> (Darstellung - Variable(n))
<code>...</code> (Darstellung - Programmcode)
<kbd>...</kbd>

(Darstellung von Text, den der Anwender eingeben soll)

2.1.5 Thematik: Verwendung von Weiterleitungen

Es ist nicht empfehlenswert, eine URL (z.B. http://come.all/max.muster) indizieren zu lassen, die "nur" eine Weiterleitung auf eine andere URL (z.B. http://home.t-online.all/home/max.muster) darstellt. Um sich gegen Missbrauch zu schützen (Stichwort: Spam), indizieren Suchroboter diese Website nicht (3). Man sollte deshalb immer die tatsächliche URL des Web-Auftrittes den Suchmaschinen gegenüber angeben.

2.1.6 Relevanz der Verzeichnis- und Dateinamen

Auch Verzeichnis- und Dateinamen können von Suchrobots für die Bewertung von Seiten herangezogen werden. Es ist demnach ratsam, den Inhalt der Seiten bei der Benennung zu berücksichtigen. Bsp.: werkzeuge/holzbearbeitung.html statt: katalog/seite3.html .

2.1.7 Bereitstellung eines "NoFrames Bereiches" oder Verzicht auf Frames

-> Siehe: Abschnitt 3.2

2.1.8 Umgang mit "Imagemaps"

-> Siehe: Abschnitt 3.3

2.1.9 Verwendung von Sitemaps

Eine Sitemap ist eine Webseite im Rahmen des Webauftrittes, auf der möglichst hierarchisch gegliedert und kommentiert alle Webseiten der jeweilgen bzw. der darunterliegenden Hierarchie verlinkt sind. Auf diese Weise bekommt der User eine Übersicht über den Inhalt der jeweiligen Website bzw. über die jeweilige Kategorie der Website. Weiterhin sind solche Übersichten für die Eintragung in Suchmaschinen geradezu ideal, da man dort alle Schlag- bzw. Suchworte komprimiert und verlinkt einbringen kann.
Dieses Konzept wird auch bei sogenannten "Brückenseiten" verwendet. "Brückenseiten" sind spezielle Einstiegsseiten zu einer Website, die sich in der Regel auf eine Kategorie bzw. ein Thema beschränken, dieses kurz anreißen und auch eine entsprechende Sitemap anbieten.

2.1.10 Verwendung des Alt-Attributs

"Suchroboter" können, genauso wie Nutzer von Text-Browsern, keine Grafiken (z.B. Buttons) bzw. Bilder im eigentlichen Sinne als solche erkennen bzw. auswerten. Deshalb muss man mit Hilfe des Alt-Attributs alternative Texte bereitstellen. Wie man dies am besten bewerkstelligt, erfährt man unter anderem bei Bjoernsworld.de (4).
Um ungefähr ein "Feeling" dafür zu bekommen, welche Informationen Suchmaschinen überhaupt bereitgestellt kriegen, kann man seine Website mit einem Textbrowser wie z.B. Lynx (5) besuchen.

2.1.11 "robots.txt"

-> Siehe: Abschnitt 3.4

2.1.12 Das "Title-Element"

Kurze, aussagekräftige und mit der Thematik eng verbundene Titel, die nach Möglichkeit die relevantesten Suchbegriffe beinhalten sollten, sind auf jeder Seite zu verwenden.
Auf diese Weise eröffnet man sich nicht nur Chancen auf ein besseres "Ranking", sondern trägt auch der Tatsache Rechnung, dass der Titel sehr häufig als Überschrift und Link zu der jeweiligen Website bei der Präsentation des Suchergebnisses dargestellt wird.

2.1.13 "Meta-Tags"

Die in den Meta-Tags plazierten Informationen im "Head" des (X)HTML-Dokumentes sorgen dafür, dass die Seiten leichter bestimmten Themengebieten und Suchbegriffen seitens der Suchmaschinen zugeordnet werden können. Deshalb sollten sie auch mit dem auf der Seite bereitgestellten Inhalt im Einklang stehen. Es gibt eine Vielzahl von Meta-Tags, von denen aber nur die wenigsten von den Suchmaschinen ausgewertet werden.
Einige Meta-Tags nebst Erklärung:

*** Beispiel:

<META HTTP-EQUIV="Content-Language" CONTENT="de">
Die Seite ist in deutsch (de) abgefasst.
Andere Möglichkeiten: en (englisch), fr (französisch) etc.
<META NAME="Robots" CONTENT="index, follow"> 
Die Seite soll indiziert werden (index) und die Links sollen verfolgt werden (follow)
[Gegenbeispiel: <META NAME="Robots" CONTENT="noindex, nofollow"> ]
Natürlich sind auch beliebige Kombinationen daraus wie z.B.
<META NAME="Robots" CONTENT="noindex, follow"> in einem Verzeichnis
möglich, das in der robots.txt "freigegeben" sein kann.
<META NAME="Description" CONTENT="Tips und Tricks
 für die optimale Eintragung in Suchmaschinen, 
 d. h. Informationen zu Meta-Tags, der Datei
 robots.txt und vielem mehr, finden sie hier.">
Eine kurze inhaltliche Beschreibung der vorliegenden Seite. Diese wird häufig auch als kurzer Einstieg bei der Präsentation des Suchergebnisses seitens der Suchmaschinen genutzt.
<META NAME="Keywords" CONTENT="Suchmaschinen, 
 Suchmaschienen, Eintragung, Optimierung, Meta Tags">
Lege hier Schlagworte fest, die Besucher aller Voraussicht nach mit der Thematik deiner Seite verbinden. Bedenke dabei, dass diese Begriffe auch häufig aufgrund ihrer Gesamtanzahl gewichtet werden. Wenige,aussagekräftige und dem Text entsprechende Schlagworte sind daher zu bevorzugen. Weiterhin sollten typische Schreibfehler berücksichtigt werden.
<META NAME="Author" CONTENT="Simon Kloss">
Autor der Seite (hier: Simon Kloss). Diese Angabe ist wie alle anderen Meta-Angaben _keinesfalls_ zwingend. Sie kann aber beispielsweise bei Firmenpräsentationen einen erhöhten Nutzwert bieten.
<META name="publisher" CONTENT="FAQ-Team von dciwam">
Herausgeber (hier: FAQ-Team von dciwam). Diese Angabe kann unter anderem dann sinnvoll sein, wenn der Herausgeber mit dem Autor nicht übereinstimmt.
<META NAME="robots" CONTENT="noarchive">
Bei Verwendung dieses Meta-Tags verhindert man die Speicherung der jeweiligen Seite im "Cache" von Suchmaschinen, die mit Hilfe des ia_archivers oder des Googlebots ihre Inhalte indizieren (6) (7).
Bei Verwendung von <META NAME="robots" CONTENT="noindex"> ist eine zusätzliche Anweisung "noarchive" nicht nötig, da die Seiten nicht indiziert und somit auch nicht im Cache aufgeführt werden.
Es gibt Hinweise, dass durch die Anweisung "noarchive" das Ranking ungünstig beeinflusst wird.
<META NAME="googlebot" CONTENT="noarchive">
Dieser Meta-Tag verhindert die Aufnahme in den Cache von Suchmaschinen, die mit Googlebot indiziert werden (6).

***

Nähere und weiterführende Informationen zu den Meta-Tags findet man z.B. bei suchfibel.de (8) oder unter Umständen bei der jeweiligen Suchmaschine (Konkretes Beispiel: Suchmaschine "Altavista" (9),(10)).
Hinweis in diesem Zusammhang: Die Zeichenkodierung sollte per HTTP klar definiert werden. Nähere Informationen hierzu findet man in der dciwam-FAQ (11).

2.1.14 Die ersten Zeilen...

...sollten nicht nur im Hinblick auf die Suchmaschinen mit Bedacht gewählt werden. Viele Suchmaschinen werten sie aus und gewichten sie auch dementsprechend stark. Deshalb sollte man am Anfang einer Seite ähnlich wie bei einem Zeitungsartikel das Wesentliche kurz zusammenfassen und möglichst auch die "Keywords" aus den Meta-Angaben miteinbringen.

2.2 Die Anmeldung:

2.2.1 Q: Wie melde ich mich bei den Suchmaschinen an?

Auf den Seiten der verschiedenen Suchmaschinen gibt es in der Regel irgendwo einen Link (z.B. "Add URL", "Neue URL" etc.), der einen zu einem Anmeldeformular führt. Hier muss man dann verschiedene Angaben zu seiner Website machen, die in ihrer Art und Komplexität von Suchmaschine zu Suchmaschine stark differieren können (z.B. URL, Kurzbeschreibung, Name des Autors usw.) (12).

2.2.2 Q: Wie lange dauert es, bis meine Seiten im Index aufgenommen sind?

Das differiert wiederum von Suchdienst zu Suchdienst - von einigen Tagen bis zu mehreren Monaten habe ich persönlich schon alles erlebt. Der Zeitpunkt für eine freundliche Nachfrage per e-mail, auf deren Beantwortung man allerdings nicht allzu große Hoffnungen hegen sollte, bzw. eine Neueintragung ist deshalb ebenfalls Ermessenssache.

2.2.3 Q: Muss ich alle meine Seiten in die jeweilige Suchmaschine eintragen?

Das hängt von der jeweiligen "Suchtiefe" des Suchdienstes ab. Diese wird häufig auf der jeweiligen Website der Suchmaschine veröffentlicht (oftmals reicht die Angabe der "Ausgangsseite"). Im Zweifelsfall muss man die "Suchtiefe" durch Beobachtung der eigenen Eintragungen selbst herausfinden.

2.2.4 Q: Ich habe ein Angebot von einem Internet-Service gesehen, bei dem ich mich kostenlos in hunderte von Suchmaschinen eintragen lassen kann. Ist das zu empfehlen?

Sicherlich kann man diese Services nicht alle über einen Kamm scheren. Ich persönlich würde mich aber auf ein paar wenige "gute" Suchmaschinen beschränken und bei diesen manuelle Einträge machen. Auf diese Weise bin ich mir sicher, dass meine persönlichen Daten nicht unter Umständen unnötig "durch Dritte Hände gehen" und gleichzeitig habe ich die Gewissheit, dass mein Internetauftritt baldmöglichst und bestmöglichst im Suchindex erscheint.

2.2.5 Q: Woran kann ich erkennen, dass meine Seite von dem Suchroboter schon besucht worden ist?

Eventuell durch Auswertung der Logfiles. Jede Suchmaschine bedient sich einem speziellen Roboter, über den man sie gegebenenfalls identifizieren kann. Wie diese Zuordnung aussieht, erfährt man oft auf der Seite der jeweiligen Suchmaschine oder direkt über einen Hinweis im Logfile. Schwierig wird es natürlich bei Suchrobotern, die für mehrere Suchdienste unterwegs sind.
Nähere Informationen zu den einzelnen Suchrobotern gibt es darüberhinaus z. B. bei info.webcrawler.com (13), suchfibel.de (14) oder bei D. Boecker (15).

2.3 Manipulationen

Von Manipulationen ist grundsätzlich dringend abzuraten. Der Schuss geht sogut wie immer nach hinten los, da mittlerweile die Suchmaschinenbetreiber technische Gegenmaßnahmen gegen solche Betrugsversuche entwickelt haben. Ein Sperrung der Domain im Suchindex ist bei einem aufgedeckten Missbrauchsfall sehr wahrscheinlich!

2.4 Fußnoten

(1) http://www.google.com/
(2) http://www.almaden.ibm.com/cs/k53/clever.html (englisch)
(3) http://www.suchmaschinentricks.de/technik/weiterleitungen.php3
(4) http://www.bjoernsworld.de/html/alt-text.html
(5) http://lynx.browser.org/ (englisch); Lynx-Emulator: http://www.delorie.com/web/ (englisch)
(6) http://www.google.com/bot.html#noindextags (englisch)
(7) http://www.alexa.com/help/webmasters/ (englisch)
(8) http://www.suchfibel.de/6gefunden/content.htm
(9) http://doc.altavista.com/adv_search/ast_haw_metatags.html (englisch)
(10) http://doc.altavista.com/adv_search/ast_haw_avoiding.html (englisch)
(11) http://www.netandmore.de/faq/cgi/fom?file=453
(12) vgl. auch http://www.suchfibel.de/3allgem/websiteinfo.htm
(13) http://info.webcrawler.com/mak/projects/robots/active/html/index.html (englisch)
(14) http://www.suchfibel.de/3allgem/eigenschaftenrobots.htm
(15) http://www.dominik-boecker.de/suchmaschinen.html

3. Weitere Themen im Umfeld von Suchmaschinen

3.1 Konformität des Quelltextes

Die Webseiten sollten nach den Richtlinien des W3C (1) erstellt worden sein. Ob dies der Fall ist, kann man mit Hilfe eines "Validators" (2) herausfinden. Bei Beachtung der Standards werden eventuelle Fehler der Website, die möglicherweise die Indizierung eines Teils des Webauftrittes verhindern würden (z. B. durch Syntaxfehler), vermieden.

3.2 Bereitstellung eines "NoFrames-Bereiches" oder Verzicht auf Frames

Trifft ein Suchroboter auf einen Frameset, folgt er den Links, die als Werte des src-Attributs des <frame>-Elements genannt sind, was dazu führt, dass zahlreiche sog. "Frame-Unterseiten" indiziert und als Suchergebnis genannt werden, die dann ohne Navigation unbenutzbar sind.
Möchte man auf Frames nicht verzichten, muss der Noframe-Bereich ein ausführliches Inhaltsverzeichnis der Einzelseiten enthalten, da ansonsten alle hinter dem Frameset liegenden Seiten nicht nur von "Noframe-Browsern" (z.B. div. Organizer) sondern auch von den Robots abgeschnitten werden (die weitaus schlechtere Lösung wäre ein Link zu einer alternativen Inhaltsseite).
Es ist ratsam, die relevanten Suchbegriffe in der Beschreibung der Links aufzuführen.
Wie wichtig der "NoFrames-Bereich" ist, zeigt sich häufig in Texten der Suchergebnisse: "Ihr Browser unterstüzt keine Frames ..." (3). Weitere Informationen zum Thema "Frames" findet man z.B. bei subtonik.net (4).

3.3 Umgang mit "Imagemaps"

Besonders bei serverseitigen Imagemaps (z.B. Java-Servlets) kann mit Bestimmtheit davon ausgegangen werden, dass diese von Suchmaschinen nicht ausgewertet werden. Unter anderem deshalb ist es bei Navigationselementen, aber auch bei allen anderen Anwendungsmöglichkeiten, dringend anzuraten, für alle Suchmaschinen zugängliche Alternativen bereitzustellen (z.B. in Form von Textlinks).

3.4 "robots.txt" - Wie schütze ich Bereiche meiner Website vor Suchmaschinen?

Es ist empfehlenswert, eine Datei namens "robots.txt" zu erstellen, damit man bestimmte Bereiche der Internetpräsenz vor den Suchmaschinen "schützen" kann, z.B. weil sich dort cgi-skripte, Bilder, etc. befinden, deren Indizierung nicht sonderlich sinnvoll wäre. Nähere Informationen zum Aufbau und der Anwendung der Datei sind wiederum bei bjoernsworld.de (5) verfügbar.

3.5 Q: Werden denn bei den Suchmaschinen die Top-Positionen nicht doch verkauft?

Es gibt zwar immer wieder Gerüchte in dieser Art, aber keinerlei gesicherte Anhaltspunkte dafür. Man kann davon ausgehen, dass die bekannten Suchmaschinen schon deshalb die Finger davon lassen, um sich ihren Ruf nicht zu ruinieren.
Die US-Suchmaschine www.goto.com hat allerdings den Verkauf der Top-Positionen zum Geschäftsmodell erhoben. Der User bekommt dort sogar bei einem Sucherergebnis angezeigt, wieviel das Verfolgen eines Links den betroffenen Werbepartner kostet. Der jeweilige "Ranking-Preis" hängt natürlich von der Attraktivität und der Position des Suchergebnisses ab.
Ein anderes Geschäftsmodell verfolgt Inktomi (6), deren Daten von MSN Search, AOL Netfind und Hotbot genutzt werden. Hier muss man für jede einzelne Seite, die man dort anmelden will, einen Jahresbetrag bezahlen. Dafür wird garantiert, dass die Seite innerhalb von zwei Tagen besucht wird und anschließend ein Jahr lang ständig aktualisiert wird.
Zwar bietet Inktomi nach wie vor über seine Suchmaschinen-Partner eine kostenlose Anmeldemöglichkeit, ob und wann dort angemeldete Seiten aber aufgenommen werden, ist weitgehend unklar.

3.6 Fußnoten

(1) The World Wide Web Consortium (R), http://www.w3.org/ (englisch)
(2) HTML-Validator: http://validator.w3.org/; CSS-Validator: http://jigsaw.w3.org/css-validator/
(3) http://www.google.com/search?q=%22ihr+browser+unterst%FCtzt+keine+frames%22
(4) http://www.subotnik.net/html/frames.html#suchmaschinen
(5) http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
(6) http://www.inktomi.com/products/search/pagesubmission.html (englisch)

--

[Verfasser: Simon Kloss]

4. Credits

Danksagung an
Alan J. Flavell, Boris 'pi' Piwinger, Bjoern Hoehrmann, Claus Färber, Lothar Kimmeringer, Matthias P. Wuerfl, Michael Nahrath, Rainer Kersten, Stefan Fischerländer, Steffi Abel, Peter Bieling, Swen Heiderich u.v.a.m.
für Ihre Verbesserungsvorschläge und Ergänzungen.