robots.txt

MichiS · 06. Sep. 2000

Hi,

mir jemand sagen wie eine robots.txt auszusehen hat?

THX
MichiS

mo · 06. Sep. 2000

ei kuck mal hier:
http://info.webcrawler.com/mak/projects/robots/exclusion-admin.html oder hier
http://grammiweb.de/magazin/webprax/robots.htm

Mitunter kann das Aussperren der Suchroboter von Suchmaschinen sehr sinnvoll sein - beispielsweise bei nur zeitweise vorhandenen Unterseiten, die nur für kurze Zeit online sind, ständig wechselnden Adressen etc... Wird den Robots nichts anderes mitgeteilt, werden diese Seiten ins Verzeichnis aufgenommen und verärgern den ein oder anderen Surfer, versucht dieser, diese Seiten aufzurufen.

Um die Suchrobots von der Indizierung solcher Inhalte abzuhalten wurde die Datei "robots.txt" ins Leben gerufen. Diese Datei wird von nahezu allen Robots akzeptiert und regelt das Verkehrswesen für die Suchmaschinenhelfer, indem sie Unterverzeichnisse freigibt oder sperrt. Die "robots.txt" wird als ASCII-Datei im Hauptverzeichnis einer Website abgelegt, also in dem Verzeichnis, in dem sich auch die Datei "index.htm" befindet.

Die Datei "robots.txt" besteht aus zweierlei Informationen: Zum einen wird der Name des Suchagenten genannt, zum anderen der Bereich, der von diesem nicht besucht werden soll.

Beispiel

User-agent: fireball
Disallow: /hiernicht/
Disallow: /hierauchnicht/
Disallow: /hierschon/dienicht.html

Dem Roboter der Suchmaschine "Fireball" wird hiermit der Zugriff auf die Unterverzeichnisse "/hiernicht/" und "/hierauchnicht/" verwehrt, und auch die Datei "dienicht.html" im Unterverzeichnis "/hierschon/" wird nicht indiziert werden.

Um nicht für jeden Roboter einzeln einen solchen Eintrag in der "robots.txt" erstellen zu müssen, haben sich auch Platzhalter bewährt. So spricht der Eintrag "User-agent: *" alle Agenten an, und der Eintrag "Disallow: /" sperrt alle Informationen einer Internetpräsenz. Soll die komplette Website freigegeben werden, so wird der Eintrag "Disallow: " ohne weiteren Zusätze verwendet.

Um die Datei "robots.txt" mit Kommentaren zu versehen, wird das Zeichen "#" verwendet, um eine solche Bemerkung anzugrenzen

und hier ein paar beispiele:

To exclude all robots from the entire server
User-agent: *
Disallow: /

To allow all robots complete access
User-agent: *
Disallow:

Or create an empty "/robots.txt" file.

To exclude all robots from part of the server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

To exclude a single robot
User-agent: BadBot
Disallow: /

To allow a single robot
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

To exclude all files except one
This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/

Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

thats it.
mm

robots.txt

MichiS

Registered

mo

Administrator