Die Robots.txt ist eine normale Textdatei die im Rootverzeichnis abgelegt wird. Der Sinn dieser Robots.txt ist es, Suchmaschinen verschiedene Datein und Verzeichnisse vorzuenthalten und nicht auslesen zu lassen. Der Vorteil liegt darin, dass man dadurch eventuell entstehenden doppelten Content vermeiden kann, sowie Datein und Verzeichnisse die Google besser nicht erfassen sollte, wie zum Beispiel einen Internen Bereich, ein privates Forum usw. Hierbei bietet die Robots.txt einige Konfigurationsmöglichkeiten die hier einmal kurz erläutert werden.
Bitte habt Verständniss dass nicht alle auf einmal gelistet werden, da ich sicher gehen möchte dass die Codes die ich euch hier biete auch wirklich funktionieren.
Zugriff auf alle enthaltenen Dateien erlauben:
# Zugriff auf alle Dateien erlauben User-agent: * Disallow:
Das Rautezeichen dient als Kommentierungssymbol
Zugriff auf ein Verzeichniss sperren
# Zugriff auf alle Dateien erlauben bis auf den angegebenen Ordner User-agent: * Disallow: /secret/
Zugriff auf einzelne Datein sperren
# Zugriff auf alle Dateien erlauben bis auf die angegebene Datei User-agent: * Disallow: /secret/index.html
Mehrere Dateien / Ordner sperren
# Zugriff auf alle Dateien erlauben bis auf die angegebenen Ordner und Dateien User-agent: * Disallow: /secret/index.html Disallow: /secret/forum.html Disallow: /topsecret/
Einzelne Dateitypen sperren
User-agent: * Disallow: /*.pdf$
Fragezeichen urls sperren
User-agent: * Disallow: /*?
Achtung dieser Befehl funktioniert nur für den Google-Bot
Nur einzelne Pfade durchsuchen lassen
Da es sehr umfangreich wird die gesamte Homepage bis auf einige Verzeichnisse auslesen zu lassen, gibt es noch den Allow-Befehl, mit dessen Hilfe ihr die Sperre für einzelne Verzeichnisse wieder aufheben könnt.
User-agent: * Disallow: / Allow: /fuer_alle
Achtung dieser Befehl funktioniert nur bei den Google und Yahoo)
Die komplette Internetseite aussperren
# Zugriff auf alle Dateien sperren User-agent: * Disallow: /
Bitte hierbei besonders auf dem / nach dem Disallow: achten.
Einzelne Robots aussperren
Desweiteren habt ihr mit den folgendem Befehl die Möglichkeit einzelne Robots von Suchmaschinen auszusperren, der Sinn dessen bleibt mir zwar verschlossen, aber der vollständigkeit halber.
User-agent: GagaRobot Disallow: /
Eine sehr gute Liste verschiedener Robots findet ihr auf www.homepage-total.de.
Crawlinggeschwindigkeit Verändern
User-agent: * Disallow: Crawl-delay: 60
Diese Lösung funktioniert allerdings nur für die Bots von Yahoo und MSN, ist allerdings nicht empfehlenswert, da dies das Ausleseergebnis beeinflussen könnte.


