Common Crawl

Common Crawl ist eine gemeinnützige Initiative, die das Web durchforstet, um umfangreiche Archive von Webseiten, Metadaten und Links zu generieren und kostenlos anzubieten. Der Common Crawl wird von F...

Common Crawl ist eine gemeinnuetzige Organisation mit Sitz in den USA, die seit 2008 regelmaessig grosse Teile des oeffentlich zugaenglichen Internets automatisiert ausliest und die gesammelten Daten kostenfrei zur Verfuegung stellt. Das Ergebnis ist ein riesiges Archiv von Webseiten, Metadaten und Verlinkungen, das mehrere Petabyte umfasst und in regelmaessigen Abstaenden um neue Sammlungen ergaenzt wird. Jeder darf diese Daten herunterladen, durchsuchen und auswerten — ohne Lizenzgebuehren.

Technisch funktioniert Common Crawl wie eine Suchmaschine ohne Suchoberflaeche: Ein sogenannter Crawler folgt automatisch Links durch das Web und speichert die aufgerufenen Seiten als Rohdaten in einem standardisierten Format. Diese Daten liegen in der Amazon-Cloud und koennen mit ueblichen Werkzeugen der Datenverarbeitung ausgewertet werden. Forschende und Unternehmen nutzen Common Crawl unter anderem fuer Sprachmodelle, Marktanalysen, Linkforschung, Sprachwissenschaft oder das Training von KI-Systemen. Viele bekannte Sprachmodelle, darunter Vorgaenger von ChatGPT, wurden zu einem grossen Teil mit Daten aus Common Crawl trainiert.

Fuer den Mittelstand ist Common Crawl auf den ersten Blick eher abstrakt, hat aber zwei sehr konkrete Beruehrungspunkte. Zum einen sind die eigenen Unternehmenswebseiten mit hoher Wahrscheinlichkeit Teil dieses Archivs — was bedeutet, dass oeffentlich abrufbare Inhalte auch in Trainingsdaten fuer KI-Systeme landen koennen. Wer das nicht moechte, kann den Common-Crawl-Bot (genannt CCBot) ueber die Datei robots.txt aussperren. Zum anderen koennen kleine Unternehmen Common Crawl aktiv nutzen, etwa fuer Wettbewerbsanalysen, das Auffinden von Backlinks, Branchenrecherchen oder als Grundlage fuer eigene KI-Anwendungen, ohne selbst aufwendig Webseiten scrapen zu muessen.

Die Chancen liegen in der freien Verfuegbarkeit hochwertiger Webdaten, die sonst nur grossen Konzernen offenstuenden. Grenzen ergeben sich aus der schieren Datenmenge, die ohne technisches Know-how und Cloud-Ressourcen kaum zu verarbeiten ist, sowie aus urheber- und datenschutzrechtlichen Fragen, die bei der Weiterverwendung beachtet werden muessen.

Verwandte Begriffe