The Turkey Curse
fukamis terror chatroom

Warum Technoratis Ranking versagt

Prickle-Prickle, 65th Bureaucracy, 3172.

Edelman hat in Zusammenarbeit mit Technorati eine Topliste von Blogs [herausgegeben][], die für einigen Unmut in Deutsch-Kleinbloggershausen gesorgt hat. Über Sinn oder Unsinn von Toplisten kann man sich sicher streiten. Ich selbst halte nicht besonders viel davon, denn was soll so eine Liste am Ende beweisen? Aber wenn man unbedingt so etwas haben will, muss aus meiner Sicht Verschiedenes beachtet werden (neben dem, dass natürlich die Links und Namen der Weblogs sauber übernommen werden sollten). Ich will einmal versuchen, ganz grob einige der Probleme zu veranschaulichen und erhebe nicht den Anspruch, besonders umfassend zu sein.

Doubled Content und Content Origin
—————————————-

Ein Problem, mit dem jede Art Suchmaschine zu kämpfen hat, ist der Fakt, dass eine Ressource im Web oft über verschiedene URLs angesprochen werden kann, die den gleichen oder einen sehr ähnlichen Inhalt bereit stellen(beispielsweise http://www.weblog.tld, http://weblog.tld/blog, http://weblog.tld/wp und http://blog.weblog.tld/wp/index.php usw., die alle dasselbe Weblog referenzieren). Man könnte nun ganz hemdsärmelig rangehen: HTML und Sonderzeichen entfernen, einen Hash über den Restinhalt gelegt und schon hat man einen Wert, den man nur noch vergleichen muss. Das Problem ist allerdings, dass einerseits Leute auch zu kurze und zu ähnliche Texte verfassen, womit so ein Vergleich hinfällig wird, aber es kann auch passieren, dass jemand den Inhalt eines fremden Feeds einbindet und schon hat man das Problem heraus zu bekommen, woher der Inhalt im Ursprung stammt und versaut sich unter Umständen einiges (dazu aber mal irgendwann anders etwas ausführlicher). Das Ranking versaut sowas natürlich auch und macht es Spammern leicht. Aus meiner Sicht gibt es für diese Probleme bisher keine zufriedenstellenden Lösungen.

RSS- vs. HTML-Spidering
—————————-

Technorati benutzt die HTML-Seiten, um die Inhalte und Links aus Weblogs heraus zu ziehen. Vorteil ist, dass auch Weblogs, die keine Full Feeds bereit stellen, gespidert werden und mit Hilfe auf der HTML-Seite eingebundenen Blogrolls zudem Blogs erfasst werden können, die in Texten nicht verlinkt werden. Und natürlich bekommt man so auch die Kommentare leichter zu fassen. Das sorgt im konkreten Fall aber auch für die Einbindung von Links aus Footern, z.B. von verwendeten Plugins oder Skins, die eine Linkstatistik sehr stark verfälschen, da die entstehenden Links eigentlich “minderwertig” sind (Ranking-wise gesprochen). Zudem sorgen beispielweise durch Zufall erzeugter Inhalt (z.B. Reihenfolge Blogrolls) für Alerts, die eigentlich keine sind.

Durch das reine Spidern und Indizieren von RSS-Feeds kann es zwar durch verkrüppelte Feeds vorkommen, dass nicht alle Inhalte eines Postings auch wirklich indiziert werden, aber meiner Erfahrung nach hält sich die Menge der Blogs, auf die dieses Problem zutrifft, in Grenzen (weit unter 10% würde ich sagen). Schwieriger wird es mit dem Abgreifen von Kommentar-Feeds. Diese Feeds sind wichtig, ja oft fast noch wichtiger und interessanter als die eigentlichen Posts, da dort oft noch eine Unmenge von Infos dazu kommt und sogar aus Sicht des Marketings dort manchmal die interessanteren Infos ausgetauscht werden. Trotzdem glaube ich persönlich, dass die nackten Feeds die wichtigeren Informationen enthalten und deswegen nur diese für ein einigermassen sinnvolles Ranking herangezogen werden sollten.

Da man beispielsweise die Seitentitel der Seiten erfassen werden wollen, auf die gelinkt wird, ist ein Spidern von HTML trotzdem nötig (und natürlich auch, um neue spiderbare Ressourcen zu finden), aber für die Extraktion der Topics und für das Ranking sollte der reine HTML-Teil aus meiner Sicht trotzdem nicht benutzt werden.

Exitlinks
———

Viele Blogsysteme benutzen Exitlinks, die beispielsweise die Form “http://weblog.tld/exit.php?id=2342″ haben. Sinn ist, die Klicks der Besucher zu erfassen und macht für den Betreiber der Links totalen Sinn, um nachzuvollziehen, was auf der Seite eigentlich getrieben wird. Für eine Erfassung ist das aber machmal problematisch. Wie vielen Redirections soll der Spider folgen? 1? 3? 5? Diese Redirections können zu sehr lustigen Problemen für den Spider führen und sorgt, egal wie, für eine Verfälschung.

define WEBLOG
—————–

Die Frage, was ein Weblog ist und was nicht ist ohnehin ein Glaubenskrieg. Aber vollautomatisiert diese Entscheidung zu treffen ist aus meiner Sicht schlicht unmöglich, denn mittlerweile benutzt alles Feeds und Kommentarfunktionen: Foren, Wikis, Email-/Chat-/Bugtracking-/Weissdergeier-to-RSS-Systeme. Muss also ein Weblog Kommentar- und/oder Trackbackfunktionen besitzen? Muss es “nach draussen linken”? Es ist zu guter Letzt eben doch immer noch eine nicht-maschinenbasierte Entscheidung nötig. Bei grossen Systemen wie Technorati ist das aber nicht mehr ohne weiteres machbar. Zudem stehen viele für die Marketingfront wichtige Infos oft gar nicht in den Weblogs zur Diskussion, wo einzelne Leute, die einen bestimmten Hang zur Selbstdarstellung und eine bestimmte Sorgfalt an den Tag legen, sondern viel mehr in Foren. Damit verschwimmen die Grenzen allerdings zusehens: Will eine Firma Volkes Stimme oder mehr oder minder “qualifizierte” Betrachtungen? Will man möglichst viele, alle Blogs? Oder eher die Top 10.000?

SEO und andere Formen des Spams
—————————————-

Gegen bestimmte Arten von SEO ist nicht wirklich ein Kraut gewachsen, ausser rigoroses Prüfen und Rausschmeissen bzw. gnadenlosem Herunterranken (furchtbares Wort!). Automatisiert kann nur eine grobe Vorauswahl getroffen, mit bestimmten Schwellwerten und Auffälligkeiten gearbeitet werden, was aber mit zunehmender Menge der Ressourcen immer schwieriger wird.

Letztendlich ist aus meiner Sicht Technorati mit dem was sie machen offensichtlich überfordert, und deren Datenbasis müsste wohl auch mal gründlich entmistet werden, aber bei 50 und mehr Millionen zu prüfenden Ressourcen nicht eben eine triviale Aufgabe. Trotzdem ist diese Liste für mich natürlich sehr interessant, vor allem, da wir zu vollkommen anderen Ergebnissen kommen und mir in jedem einzelnen Fall gut ausmalen kann, wie es bei Technorati zu dieser Liste kommt.

Trotzdem finde ich natürlich, dass die Liste ganz schön geschludert ist und was sie nicht hätte sein müssen, weil sich dort ganz offensichtlich nicht einmal die Mühe gemacht wurde, die Ressourcen noch einmal zu überprüfen, denn dann wären so einige Schnitzer sicher nicht passiert.

Update: Beim popkulturjunkie gibt es noch weitere Erklärungen dazu, wie es zu einer solch schlechten Liste kommt. Sehr informativ das Ganze.

[herausgegeben]: http://www.micropersuasion.com/2006/10/edelman_and_tec.html

---

5 Comments »

  1. […] Turkey Curse über Blog-Ranking […]

    Pingback by classless Kulla » Blog Archive » Listen wovon und wie? — Prickle-Prickle, 65th Bureaucracy, 3172. @ 31421

  2. […] 11.10.2006 09:14 Ich stelle fest: man bekommt so ohne Internet wenig mit von der Welt. So erfahre ich erst heute morgen im Büro von meinem neuen Tischnachbarn, welche.. äh.. Frechheit man sich bei Technorati und ihrer Kuschel-PR-Firma Edelmann geleistet hat: eine Excelliste mit den angeblich einflussreichsten Weblogs in Deutschland. Ja, gut, eh, was soll man dazu noch groß sagen? Viele der “Topblogs” haben es zumindest bislang nicht auf meinen Radar geschafft - und werden es vermutlich auch nicht, selbst wenn sie ein noch so gutes Wordpress-Theme geschaffen haben. Aber es zeigt mir eins: um wirklich relevant zu werden, werde ich ab jetzt auch Wordpress-Themes veröffentlichen. Mehr (und deutlich weitergedachtes) dazu bei Fukami. […]

    Pingback by LostFocus - Bitte ranke mich. — Prickle-Prickle, 65th Bureaucracy, 3172. @ 33294

  3. Ich selbst halte nicht besonders viel davon, denn was soll so eine Liste am Ende beweisen?

    … dass die Urheber ziemlich pfiffig sind. Der einzige Sinn solcher Listen (die Links als “Relevanz” interpretieren) ist, dem Urheber mehr Erwähnungen und eingehende Links zu verschaffen ;-) Was ja auch immer wieder funktioniert …

    Comment by alp — Prickle-Prickle, 65th Bureaucracy, 3172. @ 52011

  4. “Man könnte nun ganz hemdsärmelig rangehen: HTML und Sonderzeichen entfernen, einen Hash über den Restinhalt gelegt und schon hat man einen Wert, den man nur noch vergleichen muss. Das Problem ist allerdings, dass einerseits Leute auch zu kurze und zu ähnliche Texte verfassen, womit so ein Vergleich hinfällig wird”

    Das ist so imo nicht ganz korrekt. Einen kurzen und sehr ähnlichen Text zu verfassen, reicht nicht aus, um eine Hashfunktion zur Erzeugung von Kollisionen zu veranlassen. Ein wenig mehr Aufwand muss man da schon treiben ;)

    Comment by Neismark — Prickle-Prickle, 65th Bureaucracy, 3172. @ 59235

  5. @Neismark: Mit “zu ähnlich” meine ich sowas wie “LOL” vs. “LOL!!!” :)

    Comment by fukami — Prickle-Prickle, 65th Bureaucracy, 3172. @ 60510

RSS feed for comments on this post. | TrackBack URI

Leave a comment



The human race is faced with a cruel choice: work or daytime television.

The Turkey Curse is powered by WordPress, template idea by Priss

Entries (RSS) and Comments (RSS).
Generated in 0.082 seconds.