Schluss mit der (passiven) Datensammelei
Wir hinterlassen tagtäglich tausendfach unsere Spuren im Netz. Sei es nun beim versenden einer E-Mail, aktiver Teilnahme an Online-Diskussionsforen oder dem passiven Herumgesurfe im WWW. Damit Daten in Netzwerken ausgetauscht werden können müssen die Systeme zumindest die IP des Gegenübers für die Dauer der Kommunikation kennen. Webserver speichern allerdings fast alle diese Adressen in Form von Logeinträgen bei jedem Kontakt und jedem Aufruf eines von ihnen zur Verfügung gestellten Inhalts. Dabei ist das Protokollieren der IP, über die sich Nutzer über Systemgrenzen hinweg identifizieren lassen, fast nie nötig.
Die Information über die IP des Nutzers wird in den seltensten Fällen gebraucht und ist für den Webseitenbetreiber auch meist nicht von (dauerhaftem) Interesse. Dennoch landen die IPs nahezu immer in den Logdateien und schlummern dort — wenig beachtet — vor sich hin. Also warum das Mitschreiben der Adressinformationen nicht gleich ganz abschalten? Dann kann es, getreu dem Motto »nur nicht erfasste Daten sind sichere Daten« auch später zu keinem Problem kommen, sollten die Logdateien einmal in die falschen Hände geraten.
Und genau aus diesem Grund habe ich die Protokollierung der IP (und anderer Daten), mit Hilfe derer ein Nutzer eindeutig identifizierbar wäre, abgeschaltet. Wer also diesen Text hier gerade liest darf davon ausgehen, dass der Webserver die eigene IP nicht mitgeschrieben hat.
Ganz abgeschaltet ist die Protokollierung natürlich nicht. Es wird weiterhin mitgeschrieben, welche Inhalte überhaupt abgerufen werden. Nur das »von wem« bleibt verborgen. Die Umkonfiguration des Webservers, in diesem Fall lighttpd, hat nur Sekunden gedauert. Es reicht, in der Konfigurationsdatei lighttpd.conf die folgende Zeile einzufügen (bzw. wenn schon vorhanden entsprechend abzuändern):
accesslog.format =
"- - - %t \"%r\" %s %b \"%{Referer}i\" \"%{User-Agent}i\""
Dadurch bleibt das httpd-Accesslog-Format erhalten, so dass Statistiksoftware die Logdatei weiter auswerten kann. Nur die Spalten für die IP, den vHost und den HTTP-Auth-Nutzer sind dauerhaft durch ein »-« ersetzt. So hinterlässt ein Besucher meines Blogs keine personenbezogenen Daten mehr in den Protokolldateien. Bei Verwendung des Apache–Webservers kann man bequemerweise einfach das fertig Modul mod_removeip installieren und hat danach ebenfalls anonymisierte Logdateien.
Aber reicht das Nichtspeichern der Verbindungsdaten, um den Besuchern einer Webseite die nötige Anonymität zu gewährleisten? Sobald eine Webseite externe Inhalte wie z.B. Werbebanner, Textwerbung, externe Scripte, Statistiken und Grafiken einbindet, hinterlässt der Besucher — unbemerkt — wieder Spuren. Zwar nicht auf dem Webserver des Webseitenbetreibers, aber bei den extern eingebundenen Inhaltsanbietern. Diese können dann dennoch zu einer eindeutigen Identifizierung von Nutzern führen. Gerade solche Dienste wie Google Analytics sind hier zu nennen, da dieser Dienst durch seine Marktmacht auf sehr vielen Webseiten eingebunden ist. Auf den Servern von Google landen somit Verkehrs– und Verbindugsdaten von zigtausend Webseiten und Millionen von Nutzern täglich. Von der vielbeschworenen »Anonymität im Netz« keine Spur mehr. Wer seinen Webseitenbesuchern also Anonymität gewähren möchte muss auf solche Dienste verzichten.
Aber selbst das reicht noch nicht. Viele Webseiten, vor allem Blogs wie zum Beispiel dieses hier, erlauben die Interaktion von Nutzern in Form von Kommentaren. Standardmäßig speichert das Blogsystem die IP-Adresse des Kommentators mit dem Eintrag. Ganz unbemerkt passiert hier also wieder genau das, was wir vorher im Webserver als unerwünscht ausgeschaltet haben. Nimmt man das Nichtspeichern von Identifikationsdaten ernst muss man auch an diese Stellen denken.
Für das Blog-System Wordpress gibt es hier aber schon das ein oder andere fertige Plugin, das sich in die Kommentarfunktion einklinkt und die von Wordpress erfasste IP-Adresse wieder aus der Datenbank entfernt. Ich habe zu diesem Zweck das Plugin »123 AntiVDS« installiert. Dieses Plugin erlaubt es nebenbei auch, die E-Mail-Adresse bei Kommentaren, anstatt zu Löschen, durch einen MD5-Hash unkenntlich zu machen. Dadurch kann das System weiterhin erkennen, ob ein Nutzer schoneinmal einen Kommentar geschrieben hat, ansonsten ist die Zeichenkette aber wertlos und für Analysen unbrauchbar. Vom »hashen« der IP-Adresse sollte man allerdings absehen, da diese Hash-Werte relativ einfach wieder in gültige IPs zurückgerechnet werden können.
Seit ein paar Tagen protokolliert mein Webserver hier keine Verbindungsdaten mehr und Kommentare zu Artikeln hinterlassen in der Datenbank ebenfalls keine Spuren mehr. Auf externe Dienste wurde schon immer verzichtet. Auch muss beim Kommentieren kein Name und keine E-Mail-Adresse mehr angegeben werden.
Wer sich weiter zu dem Thema informieren möchte, dem sei das Projekt »Wir speichern nicht« empfohlen.
Ähnliche Artikel
Tags: access.log, Anonym, Anonymisierung, Apache, daten, E-Mail, Hash, IP, IP-Adresse, lighttpd, Log, MD5, Protokoll, Speicherung, VDS, Webserver, WordPress
Kommentar schreiben Trackback

[…] This post was mentioned on Twitter by andreas, alexf10. alexf10 said: RT @byteorder: Das eigene #Blog anonymisiert: Schluss mit der Datensammelei http://burls.de/2pb #wirspeichernnicht #antivds […]