Spider und Crawler

Spider und Crawler, oder wie man das Datensammeln automatisierte.

Glossartext: Spider - Crawler.

Spider oder auch Crawler sind kleine autonome Robotersysteme, die immer wiederkehrende Arbeitsabläufe selbstständig verrichten, und meist zur Suche und zum Sammeln von Daten im Internet verwendet werden.

Der Name Crawler entstammt der ersten offiziellen Suchmaschinen „Webcrawler“ aus dem Jahr 1994. Als erste Suchmaschine Überhaupt durchsuchte und kategorisierte sie Internetinhalte.

Crawler werden u.a. von Suchmaschinen dazu eingesetzt, um herauszufinden welche Inhalte in Webseiten enthalten sind. Weiterhin dienen Crawler dazu, den „Wert“ einer Webseite zu definieren, d.h. zu ÜberprÜfen wie gut eine Seite im Internet verlinkt ist. Hierbei bewegen sich die Crawler von Hyperlink zu Hyperlink und bahnen sich so ihren Weg durch die Weiten des Netzes.

Weiterhin können Crawler auch gezielt zum Auffinden bestimmter Daten eingesetzt werden. Dies so genannte data mining (Daten schÜrfen) kann beispielsweise dazu dienen möglichst viele Emailadressen einzusammeln, und diese dann zu Werbezwecken zu verwenden. Aus diesem Grund sollte man die eigene Emailadresse nur geschÜtzt, beispielsweise als Grafik, auf die eigene Webseite stellen.

Die programmiertechnische Architektur von Crawlern hängt also von deren Einsatzgebiet ab. Während Suchmaschinen wie Google hochkomplexe Crawler verwenden, die beispielsweise die Anzahl von ein- und ausgehenden Links ÜberprÜfen sowie fundierte Meta-Informationen sammeln. Diese Form von Crawlern werden als fokussierte oder auch intelligente Crawler bezeichnet. Ohne diese intelligenten Crawler wäre beispielsweise eine Rankingerstellung, wie google es betreibt, nicht vorstellbar.

Webdesign-Glasklar © 2012-2014 by Holger Wark