The Turkey Curse
fukamis terror chatroom

robots.txt

Setting Orange, 57th Discord, 3173.

[Blogcensus][blogcensus] von [Jens][jens] und [Dirk][dirk] sollte sich (genau wie Dirks [Blogscout][blogscout]) um die Beachtung der robots.txt scheren und einen aussagekäfigen Useragent wählen, so wie das alle zivilisierten automatischen Spider tun.

Zugriffe von 213.239.194.59 (2007): 831
Zugriffe auf die robots.txt: 0

Und die Useragents “SimplePie” und “MagpieRSS” sind nicht eben die Art, wie sich derlei Software identifizieren sollte finde ich. Ansonsten wünsche ich den beiden natürlich viel Erfolg.

[jens]: http://www.popkulturjunkie.de/
[dirk]: http://www.olbertz.de/
[blogcensus]: http://www.blogcensus.de/
[blogscout]: http://www.blogscout.de/

---

3 Comments »

  1. Da werden jetzt verschiedene Dinge durcheinander gewürfelt. Ich weiß nicht, auf welchen Host Du diese Zugriffe beziehst.

    Zum einen “crawlen” wir tatsächlich einige Quellen aktualisierter Blogs. Und hier müssen wir die robots.txt beachten. Andererseits crawlen wir kein einzelnes Blog und werden beim Zugriff auf den Feed überprüfen, ob dieser in der robots.txt für uns ausgeschlossen ist. In der Phase sind wir aber noch nicht, der angepasste User-Agent müsste aber jetzt schon da sein, da gebe ich Dir Recht.

    Entweder blogg.de, da habe ich tatsächlich vorher nur manuell in die robots.txt geschaut und prüfe das im Moment nicht regelmäßig.

    Oder aber auf Dein Blog hier selbst. Der wird aber nur von Blogscout “besucht” und das auch nur, weil Du da mal Deinen RSS-Feed eingetragen hast.

    Bei Blogscout schaue ich mir die robots.txt tatsächlich nicht an, weil ich da ja auch nur auf angemeldete Blogs zugreife.

    Comment by Dirk Olbertz — Setting Orange, 57th Discord, 3173. @ 39468

  2. Ahh:

    $ host blogcensus.de
    blogcensus.de has address 213.239.194.59
    blogcensus.de mail is handled by 100 mxlb.ispgateway.de.
    $ host 213.239.194.59
    59.194.239.213.in-addr.arpa domain name pointer counter.blogscout.de.

    Comment by fukami — Setting Orange, 57th Discord, 3173. @ 40369

  3. Der User-Agent ist nun gesetzt. Der Crawler kann durch den String “Blogcensus.de” identifiziert werden.

    Sobald der Crawler einzelne Blogs besucht, werden wir die robots.txt der Blogs natürlich beachten und ich auch noch einmal mitteilen, wie genau dieser Crawler in der robots.txt angesprochen wird.

    Comment by Dirk Olbertz — Setting Orange, 57th Discord, 3173. @ 41164

RSS feed for comments on this post.

Leave a comment



Everything is funny as long as it is happening to somebody else.

The Turkey Curse is powered by WordPress, template idea by Priss

Entries (RSS) and Comments (RSS).
Generated in 0.074 seconds.