• Das Erstellen neuer Accounts wurde ausgesetzt. Bei berechtigtem Interesse bitte Kontaktaufnahme über die üblichen Wege. Beste Grüße der Admin

Interessant - Robot Programmierung in Perl

style-guide!

Lounge-Member
Vielleicht hat ja jemand damit schon Erfahrungen sammeln können.

Ich wollte mir einen kleinen Robot zusammen basteln, der regelmässig ca. 50-100 Links aus eine DB überprüft und einen Status zurück gibt, ob die Seite erreichbar ist oder nicht.

Das ganze soll in drei Schritten ablaufen:
1. HTTP Connect zur Seite
2. Statusmeldung des Servers abwarten und auswerten
3. Status in der DB vermerken und link ggf. erneut ansurfen am nächsten Tag

Ich dachte an folgende Vorgehensweise:

Nutzung der folgende Perl Module:
LWP::UserAgent;
HTTP::Request;
HTTP::Response;

damit müsste ich doch hinkommen, oder?

Die Auswertung des Statuscodes wird anhand folgender Tabelle gemacht: http://www.w3.org/Protocols/HTTP/HTRESP.html

Alles was nicht erreichbar ist wird deaktiviert, alles was "moved" ist, wird mit der neuen URL gespeichert, was O.K. isst, erhält einfach nur ein Update der letzen Aktualisierung.

Was meint Ihr, reicht das wohl auch oder sollte man "netterweise" auch die META-TAGS in Bezug auf robot noindex befolgen? Wäre ja ansonsten ein Pirat, aber das machen ja etliche andere roboter auch nicht, warum also meiner?

Und last but not least, reicht eine DSL Leitung wohl aus oder doch lieber von Server aus starten? Nachteil beim start vom Server: Man verrät die IP woher der Roboter kam oder kann die ebenfalls gefaked werden wie der useragent ?!?!

Achja, Buch- und Linkempfehlungen nehme ich ebenfalls gerne an :D :D
 
Zurück
Oben