Aufgabe und Logik des WebCare Crawlers
WebCare und der WebCare Crawler machen es Ihnen möglichst einfach, rechtliche Anforderungen zu erfüllen.
Die Kernaufgabe des Crawlers ist eine weitestgehend automatisierte Dokumentation datenschutzrelevanter Prozesse - nicht die technische Kontrolle der Website.
Besser zu viel als zu wenig
Die hinter dem Crawler liegende Technik ist hoch komplex, folgt im Zweifelsfall jedoch immer der Logik, dass eine "Überdokumentation" rechtlich weniger problematisch ist als ein zu wenig an Information. Das heißt, im Zweifelsfall zeigen wir immer lieber ein nicht vorhandenes Tool/Cookie an als ein tatsächlich vorhandenes nicht.
Alle Ergebnisse des Crawler können händisch bearbeitet und korrigiert werden. Verstehen Sie das Ergebnis des Crawler als einen äußerst kompetenten Vorschlag für Ihre Cookietabelle und die Beschreibung der eingesetzten Tools, klären Sie die Ergebnisse aber im Zweifelsfall mit Ihren Websiteverantwortlichen ab.
Der Crawlvorgang
Um Ihre Website untersuchen zu können, müssen wir analysieren wie sie aussieht, welche Cookies verwendet werden und welche externen Module geladen werden.
Dies machen wir in drei Stufen:
1. Statische Analyse
Dies ist die einfachste Methode. Wir laden den Quelltext Ihrer Seite (bzw der drei konfigurierten Domains/Unterseiten) und untersuchen ihn auf eingebettete Tags.
2. Browseranalyse
In der zweiten Stufe verwenden wir ebenfalls nur die drei konfigurierten Domains, untersuchen diese allerdings dynamisch in einem aktuellen Browser. Hier können wir ermitteln, welche Module dynamisch nachgeladen werden und welche Cookies gesetzt werden.
3. Swarm Crawling – Vorteile und Unterschiede gegenüber klassischen Crawlern
Traditionelle Crawler surfen durch sämtliche Links die auf Ihrer Website verfügbar sind und arbeiten sich so durch große Teile des Webauftrittes. Diese Methode hat allerdings einige Nachteile
Nachteile traditioneller Crawler
-
Passwortgeschützte oder nicht verlinkte Seiten (z.B. Suchresultate) werden nicht erfasst
-
Ihre Seite wird unnötig blockiert, da sehr viele Zugriffe nötig sind. Gerade dynamische Seiten können dadurch bis zum Stillstand lahmgelegt werden
-
Das Crawlen der gesamten Seite kann bei vielen Unterseiten sehr lange dauern - bis zu einigen Wochen.
-
Wir würden sehr viele Ressourcen und Netzwerkbandbreite benötigen, was WebCare teuer machen würde.
Vorteile des DataReporter Swarm Crawlers
Deshalb hat DataReporter eine neue Methode entwickelt, um Ihre gesamte Seite zu erfassen: Swarm Crawling (auch als Crowd Crawling bezeichnet).
Dabei wird die Seite von Ihren Besuchern analysiert (durch den eingebundenen Cookie Banner) und die Ergebnisse (natürlich nur nach Einwilligung des Benutzers) anonymisiert zu uns gesendet.
Dadurch können wir in WebCare sämtlich Nachteile des herkömmlichen Crawlens eliminieren und die gesamte Seite erfassen - ohne zusätzliche Ressourcen oder Belastung Ihres Webauftritts.
Zu beachten ist dabei, dass korrekterweise auch Cookies erfasst werden, die in der Vergangenheit von der Website gesetzt wurden und deren Lebensdauer noch nicht abgelaufen ist.
Ein Beispiel wäre hier:
- Sie aktivieren Google Analytics im Januar 2021
- Besucher surfen auf Ihrer Website und es werden Cookies mit einer Lebensdauer von 2 Jahren gesetzt
- Im Februar 2021 entfernen Sie Google Analytics von der Website. Es werden keine neuen Cookies mehr verteilt
- Besucher, die im Januar auf der Website gewesen sind senden das Cookie bis zum Januar 2023 bei jedem Zugriff (auch wenn Analytics gar nicht mehr aktiv ist)
- Unser Swarm Crawler findet diese Cookies bis zum Januar 2023
Kein anderer Anbieter bietet solch eine Funktionalität.
Wie oft wird die Seite untersucht?
Das WebCare System besteht – wie oben beschrieben – aus unterschiedlichen Komponenten, um das beste Ergebnis für Sie zu erzielen und die Daten von Cookietabelle und Modulliste ressourcenschonend aktuell zu halten.
Der Swarmcrawler ist durchgehend aktiv.
Die Statische Analyse und die Browseranalyse werden automatisch mindestens alle zwei bis drei Tage durchgeführt.
Zudem kann im WebCare Backend jederzeit eine neue Untersuchung der Website gestartet werden unter > Einstellungen > Domains > Webseite neu untersuchen.
Das macht Sinn, wenn Sie wissen, dass Sie gerade relevante Anpassungen an der Website durchgeführt haben. Nach Abschluss der Untersuchung können Sie das neue Ergebnis veröffentlichen unter > Veröffentlichen > Jetzt Veröffentlichen.
Oder Sie warten bis das Ergebnis nach einigen Minuten automatisch veröffentlicht wird.
Kommentare
0 Kommentare
Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.