Noch bevor die Diskussion mit Ralle zum Thema “Do’s and Dont’s von Tags” ausufert, versuche ich mal meine Gedanken darum zusammenzufassen.
Tags können, sofern man sich nicht als ausschliesslichen Index auf sie verlässt, probates Mittel sein, um Inhalte grob zu beschreiben. Wie auch Tim schon Mal sehr treffend irgendwo erläuterte, ist die Anwendung und Auswertung von Tags allerdings praktisch eine Wissenschaft für sich und wird nach Gusto von jedem unterschiedlich gehandhabt: Wird Ein- oder Mehrzahl gewählt, deutsch oder englisch, werden einzelne Worte getrennt oder mit Unterstrichen zusammengeschrieben usw.usf. Wenn man sich klar macht, dass bei del.icio.us einer der meistverwendeten Tags web ist, kann man sich vorstellen, wie unscharf die allermeisten Tags angewendet werden — was in den meisten Fällen dennoch ganz okay ist. Ein anderes aus meiner Sicht schönes Beispiel einer falschen Benutzungvon Tags ist ruby on rails als del.icio.us-Tag, der vor allem für eines sorgt, nämlich dass man den Tagfeed zu Ruby nicht mehr sinnvoll benutzen kann, da daraus 3 Tags entstehen: ruby, on und rails. Dabei wäre der richtige Tag bei diesem speziellen System wohl eher rubyonrails oder rubyonrails.
Als weiteres Beispiel verlinke ich mal ganz frech auf eine Unart, die schon immer ganz furchtbar fand und nun sogar ein gewisses Problem für mich darstellt, nämlich del.icio.us-Feeds in Blogartikeln. Als Beispiel diene ein Eintrag aus dem Weblog von Carsten Dobschat mit dem Titel links for 2006-05-06. Darin finden sich Informationen, die für Menschen relativ gut lesbar sind, mal davon abgesehen, ob man solche Sachen in Weblog-Feeds generell gut findet und nicht der Meinung ist, dies gehöre wahlweise separat in eine Seitenleiste des Blogs oder einfach als Link auf den entsprechenden persönlichen Linkfeed, der ohnehin schon vorliegt.
Carsten verlinkt auf einen Artikel in der Telepolis ( Verkommene Sitten), einen Blogeintrag zu Port Knocking (Port Knocking für ssh - Zugschlusbeobachtungen) und einer Seite, von der man Hintergründe und Texturen herunterladen kann (megapoxy.net). Die Tags, die in diesem Artikel enthalten sind, nach Alphabet sortiert: backgrounds, debian, free, gallery, german, graphics, howtos, images, linux, networking, patterns, politics, security, textures. Somit sind die Tags innerhalb des Artikels praktisch nicht für eine sinnvolle automatische Auswertung zu gebrauchen. Ansonsten verwendet Carsten keine Tags, sondern nur Kategorien, die im Kern noch wesentlich unschärfer sind.
Übrigens kann ich Ralfs Argument, nicht jeder Blogger wolle vollautomatisiert erfassbar und kategorisierbar sein, kann nicht so ganz teilen. Wenn dem so wäre, warum setzen die entsprechenden Blogger keine robots.txt in ihre Homedirs, um Crawler davon abzuhalten, die Artikel zu spidern? Und warum bieten sie RSS-Feeds an? Das sind alles Technologien, die auf Syndikation und Automatisierung ausgelegt sind, nicht mehr und nicht weniger. Wenn sie aber zur Diskusssion betragen wollen (und das wollen wohl die Allermeisten in der einen oder anderen Form), dann sind sie darauf angewiesen, das ihre Artikel sinnvoll verarbeitet werden können. Tags sind, wie schon erwähnt, sicher nicht das einzige Mittel zur sinnvollen Indizierung und man wird niemals um einen echten Textindex herumkommen. Aber sie können eine grosse Hilfe sein, sofern damit vernüftig umgegangen wird. Als gutes Beispiel dafür sehe ich die Artikel, in denen Dinge beschrieben werden und die entsprechenden Tags nicht im Artikel selbst als Worte auftauchen. Grade bei Artikeln, die sich um politische Inhalte drehen, kann das sehr wohl einen echten Benefit bringen.
Für die l33t3n Hardcore-Blogger unter den Lesern sage ich sicher überhaupt nichts Neues, aber die Diskussion um eine sehr vereinfachte Form semantischer Erfassung von Inhalten im Web kann man wohl nicht oft genug führen.