Schluss mit der (passiven) Datensammelei

Wir hinter­lassen tagtäglich tausendfach unsere Spuren im Netz. Sei es nun beim versenden einer E-Mail, aktiver Teilnahme an Online-Diskussionsforen oder dem passiven Herumgesurfe im WWW. Damit Daten in Netzwerken ausge­tauscht werden können müssen die Systeme zumindest die IP des Gegenübers für die Dauer der Kommunikation kennen. Webserver speichern aller­dings fast alle diese Adressen in Form von Logeinträgen bei jedem Kontakt und jedem Aufruf eines von ihnen zur Verfügung gestellten Inhalts. Dabei ist das Protokollieren der IP, über die sich Nutzer über Systemgrenzen hinweg iden­ti­fi­zieren lassen, fast nie nötig.

Die Information über die IP des Nutzers wird in den seltensten Fällen gebraucht und ist für den Webseitenbetreiber auch meist nicht von (dauer­haftem) Interesse. Dennoch landen die IPs nahezu immer in den Logdateien und schlummern dort — wenig beachtet — vor sich hin. Also warum das Mitschreiben der Adressinformationen nicht gleich ganz abschalten? Dann kann es, getreu dem Motto »nur nicht erfasste Daten sind sichere Daten« auch später zu keinem Problem kommen, sollten die Logdateien einmal in die falschen Hände geraten.

Und genau aus diesem Grund habe ich die Protokollierung der IP (und anderer Daten), mit Hilfe derer ein Nutzer eindeutig iden­ti­fi­zierbar wäre, abge­schaltet. Wer also diesen Text hier gerade liest darf davon ausgehen, dass der Webserver die eigene IP nicht mitge­schrieben hat.

Ganz abge­schaltet ist die Protokollierung natürlich nicht. Es wird weiterhin mitge­schrieben, welche Inhalte überhaupt abgerufen werden. Nur das »von wem« bleibt verborgen. Die Umkonfiguration des Webservers, in diesem Fall lighttpd, hat nur Sekunden gedauert. Es reicht, in der Konfigurationsdatei lighttpd.conf die folgende Zeile einzu­fügen (bzw. wenn schon vorhanden entspre­chend abzuändern):

accesslog.format =
"- - - %t \"%r\" %s %b \"%{Referer}i\" \"%{User-Agent}i\""

Dadurch bleibt das httpd-Accesslog-Format erhalten, so dass Statistiksoftware die Logdatei weiter auswerten kann. Nur die Spalten für die IP, den vHost und den HTTP-Auth-Nutzer sind dauerhaft durch ein »-« ersetzt. So hinter­lässt ein Besucher meines Blogs keine perso­nen­be­zo­genen Daten mehr in den Protokolldateien. Bei Verwendung des Apache–Webservers kann man bequemer­weise einfach das fertig Modul mod_removeip instal­lieren und hat danach ebenfalls anony­mi­sierte Logdateien.

Aber reicht das Nichtspeichern der Verbindungsdaten, um den Besuchern einer Webseite die nötige Anonymität zu gewähr­leisten? Sobald eine Webseite externe Inhalte wie z.B. Werbebanner, Textwerbung, externe Scripte, Statistiken und Grafiken einbindet, hinter­lässt der Besucher — unbemerkt — wieder Spuren. Zwar nicht auf dem Webserver des Webseitenbetreibers, aber bei den extern einge­bun­denen Inhaltsanbietern. Diese können dann dennoch zu einer eindeu­tigen Identifizierung von Nutzern führen. Gerade solche Dienste wie Google Analytics sind hier zu nennen, da dieser Dienst durch seine Marktmacht auf sehr vielen Webseiten einge­bunden ist. Auf den Servern von Google landen somit Verkehrs– und Verbindugsdaten von zigtausend Webseiten und Millionen von Nutzern täglich. Von der viel­be­schwo­renen »Anonymität im Netz« keine Spur mehr. Wer seinen Webseitenbesuchern also Anonymität gewähren möchte muss auf solche Dienste verzichten.

Aber selbst das reicht noch nicht. Viele Webseiten, vor allem Blogs wie zum Beispiel dieses hier, erlauben die Interaktion von Nutzern in Form von Kommentaren. Standardmäßig speichert das Blogsystem die IP-Adresse des Kommentators mit dem Eintrag. Ganz unbemerkt passiert hier also wieder genau das, was wir vorher im Webserver als uner­wünscht ausge­schaltet haben. Nimmt man das Nichtspeichern von Identifikationsdaten ernst muss man auch an diese Stellen denken.

Für das Blog-System Wordpress gibt es hier aber schon das ein oder andere fertige Plugin, das sich in die Kommentarfunktion einklinkt und die von Wordpress erfasste IP-Adresse wieder aus der Datenbank entfernt. Ich habe zu diesem Zweck das Plugin »123 AntiVDS« instal­liert. Dieses Plugin erlaubt es nebenbei auch, die E-Mail-Adresse bei Kommentaren, anstatt zu Löschen, durch einen MD5-Hash unkenntlich zu machen. Dadurch kann das System weiterhin erkennen, ob ein Nutzer schon­einmal einen Kommentar geschrieben hat, ansonsten ist die Zeichenkette aber wertlos und für Analysen unbrauchbar. Vom »hashen« der IP-Adresse sollte man aller­dings absehen, da diese Hash-Werte relativ einfach wieder in gültige IPs zurück­ge­rechnet werden können.

Seit ein paar Tagen proto­kol­liert mein Webserver hier keine Verbindungsdaten mehr und Kommentare zu Artikeln hinter­lassen in der Datenbank ebenfalls keine Spuren mehr. Auf externe Dienste wurde schon immer verzichtet. Auch muss beim Kommentieren kein Name und keine E-Mail-Adresse mehr angegeben werden.

Wer sich weiter zu dem Thema infor­mieren möchte, dem sei das Projekt »Wir speichern nicht« empfohlen.

Post to Twitter Post to Delicious Post to Digg Post to Facebook Post to Ping.fm Post to Reddit Post to StumbleUpon

Flattr this!

Tags: , , , , , , , , , , , , , , , ,
Kommentar schreiben Trackback

Ein Kommentar

  1. […] This post was mentioned on Twitter by andreas, alexf10. alexf10 said: RT @byteorder: Das eigene #Blog anony­mi­siert: Schluss mit der Datensammelei http://​burls​.de/2pb #wirspei­chern­nicht #antivds […]

Kommentar schreiben