• Das Erstellen neuer Accounts wurde ausgesetzt. Bei berechtigtem Interesse bitte Kontaktaufnahme über die üblichen Wege. Beste Grüße der Admin

Robots.txt Disallow Syntax für bestimmte URL´s

Splitt3r

New member
Hallo,

Ich habe mir auf Wikipedia die Grundsätze des Robots.txt Syntax durchgelesen. Unter anderem wurde erwähnt, dass folgender ausschnitt alle URL ausschließt, welche ein "?" angehängt haben:

Code:
Disallow: /*?


Nun habe ich folgenden Wunsch.

Ich möchte dass folgende URL´s welche ein "?e" am schluss haben ausgeschlossen werden.

Das heißt zum Beispiel.

Folgende URL soll nicht ausgeschlossen werden:

Code:
http://www.abc.de/thema/Verbesserungsvorschlaege.html
oder
http://www.abc.de/thema/Verbesserungsvorschlaege.html?seite=2

jedoch soll folgende URL zum Beispiel ausgeschlossen werden:
Code:
http://www.abc.de/thema/Verbesserungsvorschlaege.html[B]?e[/B]

Wird es funktionieren wenn ich folgendes in die Robots.txt eintrage:

Code:
Disallow: /*?e

Wenn nein, ist es möglich mein Wunsch in die Robots.txt zu schreiben?

Viele Grüße
 
Wird es funktionieren wenn ich folgendes in die Robots.txt eintrage:

Code:
Disallow: /*?e

Wenn nein, ist es möglich mein Wunsch in die Robots.txt zu schreiben?

Viele Grüße

Ich möchte mich da noch einmal etwas korrigieren, bzw. näher drauf eingehen.

Dein:
Code:
Disallow: /*?e

Bedeutet dass genau "?e" vorkommt ohne etwas anderes.

Soll z. B. auch ?etix=1234567 gesperrt werden dann musst du es so schreiben:
Code:
Disallow: /*?e*

Pattern matching - Webmaster Help Center
 
Zuletzt bearbeitet von einem Moderator:
Jap genau das.

Also zum Beispiel

http://www.example.org/hallo-welt.html?e

Ich danke dir:icon7:


[edit] Ich habe noch eine wichtige frage.

Zur erläuterung.

Es gibt auf meiner Webseite verschiedene links wo google sagt: Doppelter <title>-Tag.
Das stammt daher, dass google 2 urls indexiert hat.

1. h**p://www.xyz.de/beitrag-1.html
2. h**p://www.xyz.de/beitrag-1.html?e

Nun habe ich in der Robots.txt geschrieben, dass google alle Domains mit "?e" ignorieren soll.

Meine Frage: Wirft google die indexierte url "www.xyz.de/beitrag-1.html?e" beim nächsten Crawl aus dem Index?
Ich möchte diese gerne aus dem index raus haben da sie ja auch doppelt ist.
 
@Splitt3r

du solltest deinen doppelten Content auf jeden Fall entfernen! Selbst wenn google nach außen nur eine URL anzeigt, wird es intern bestimmt trotzdem gespeichert und negativ bewertet (Vermutung!)

du nutzt die robots.txt für dinge, für die sie nicht gedacht ist! und übrigens wette ich, dass Crawler die in der robots.txt ausgeschlossenen Pfade/Dateien trotzdem crawlen... könnte man ja mal testen, vielleicht find ich nächste Woche mal die Zeit dafür, bzw. finde irgendwo einen report von jm. der es bereits getestet hat
 
@Splitt3r

du solltest deinen doppelten Content auf jeden Fall entfernen! Selbst wenn google nach außen nur eine URL anzeigt, wird es intern bestimmt trotzdem gespeichert und negativ bewertet (Vermutung!)

du nutzt die robots.txt für dinge, für die sie nicht gedacht ist! und übrigens wette ich, dass Crawler die in der robots.txt ausgeschlossenen Pfade/Dateien trotzdem crawlen... könnte man ja mal testen, vielleicht find ich nächste Woche mal die Zeit dafür, bzw. finde irgendwo einen report von jm. der es bereits getestet hat

Da ist was wahres dran.

Ich habe das ganze jetzt geändert. absofort arbeite ich an solchen stellen mit POST und nicht GET

Viele Grüße
 
Zurück
Oben