Follow along with the video below to see how to install our site as a web app on your home screen.
Anmerkung: This feature currently requires accessing the site using the built-in Safari browser.
Mitunter kann das Aussperren der Suchroboter von Suchmaschinen sehr sinnvoll sein - beispielsweise bei nur zeitweise vorhandenen Unterseiten, die nur für kurze Zeit online sind, ständig wechselnden Adressen etc... Wird den Robots nichts anderes mitgeteilt, werden diese Seiten ins Verzeichnis aufgenommen und verärgern den ein oder anderen Surfer, versucht dieser, diese Seiten aufzurufen.
Um die Suchrobots von der Indizierung solcher Inhalte abzuhalten wurde die Datei "robots.txt" ins Leben gerufen. Diese Datei wird von nahezu allen Robots akzeptiert und regelt das Verkehrswesen für die Suchmaschinenhelfer, indem sie Unterverzeichnisse freigibt oder sperrt. Die "robots.txt" wird als ASCII-Datei im Hauptverzeichnis einer Website abgelegt, also in dem Verzeichnis, in dem sich auch die Datei "index.htm" befindet.
Die Datei "robots.txt" besteht aus zweierlei Informationen: Zum einen wird der Name des Suchagenten genannt, zum anderen der Bereich, der von diesem nicht besucht werden soll.
Beispiel
User-agent: fireball
Disallow: /hiernicht/
Disallow: /hierauchnicht/
Disallow: /hierschon/dienicht.html
Dem Roboter der Suchmaschine "Fireball" wird hiermit der Zugriff auf die Unterverzeichnisse "/hiernicht/" und "/hierauchnicht/" verwehrt, und auch die Datei "dienicht.html" im Unterverzeichnis "/hierschon/" wird nicht indiziert werden.
Um nicht für jeden Roboter einzeln einen solchen Eintrag in der "robots.txt" erstellen zu müssen, haben sich auch Platzhalter bewährt. So spricht der Eintrag "User-agent: *" alle Agenten an, und der Eintrag "Disallow: /" sperrt alle Informationen einer Internetpräsenz. Soll die komplette Website freigegeben werden, so wird der Eintrag "Disallow: " ohne weiteren Zusätze verwendet.
Um die Datei "robots.txt" mit Kommentaren zu versehen, wird das Zeichen "#" verwendet, um eine solche Bemerkung anzugrenzen
To exclude all robots from the entire server
User-agent: *
Disallow: /
To allow all robots complete access
User-agent: *
Disallow:
Or create an empty "/robots.txt" file.
To exclude all robots from part of the server
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
To exclude a single robot
User-agent: BadBot
Disallow: /
To allow a single robot
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
To exclude all files except one
This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/
Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html