In diesem Artikel geht es um die Spuren, die wir alle im Internet hinterlassen.

Verwandte Themen werden an anderen Stelle behandelt: Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre und Verlust an Privatsphäre.
Andere Themen sind die Techniken für den gläsernen Menschen (d.h. Informationssammlung über möglichst viele) und Data Mining.
Und außerdem: Wie wir manipuliert werden.

Und dann gibt es hier noch den ganzen Themenkomplex Wie bin ich sicher im Internet unterwegs?

Ein weiteres Thema ist das Tracken von Kindern und (Ex-)Partnern mit Spyware-Apps.

 

 

Ihre Datenspuren im Internet - die Basis für den Überwachungs-Kapitalismus

 

Ja, die Seite ist teilweise schon etwas älter, aber leider weiterhin recht relevant. Letzte Anpassungen April 2023 - Autor: Philipp Schaumann

Diese Seite beschreibt zwei Aspekte des Trackings von Internetnutzern:

    Im ersten Teil erkläre ich, warum das Tracking aller Aktivitäten aller Nutzer im Web ein Problem ist.

    Im zweiten Teil beschreibe ich, an welcher Stelle im Netz welche Daten gesammelt werden, wie das technisch implementiert ist und was man dagegen machen kann. Hier jetzt zum allgemeinen Teil.

Umschlagbild von Shoshana Zuboff: Das Zeitalter des Überwachungskapitalismus

Shoshana Zuboff: The Age of Surveillance Capitalism - Das Zeitalter des Überwachungskapitalismus

Die Autorin untersucht dann vor allem, was dies für unsere Gesellschaft bedeuten kann und wie wir dieses System (hoffentlich) wieder etwas einbremsen können. Hier eine Besprechung des Buches: Das Zeitalter des Überwachungskapitalismus".

Umschlagbild von Shoshana Zuboff: Das Zeitalter des Überwachungskapitalismus

Für alle, den das Buch zu umfassend ist: Eine 28 Min. Zusammenfassung durch Journalisten, die Autorin und Max Schrems (englische Sprache, aber mE gut verständlich).

Worum geht es? Unternehmen wie Google und Meta sind zu den wertvollsten der Welt geworden, weil sie auf komplexe Weise mit unseren persönlichen Daten handeln. Die Autorin Shoshana Zuboff, Max Schrems und viele anderen sprechen über die Gefahren hinter dem Wirtschaftsmodell der großen Technologieunternehmen.

 

 

Werden unsere Daten verkauft oder wie läuft das eigentlich?
Die Regeln des Überwachungskapitalismus

Das Buch links ist DAS BUCH zu Überwachung und Tracking. Es ist eine umfassende Darstellung über die Entwicklung des Konzepts des Überwachungskapitalismus von 2000 bis jetzt. Die Autorin bringt die Erklärung, warum damit ein neues Kapitel in der Geschichte des Kapitalismus eröffnet wurde. Nicht mehr die Produktionsmittel, sondern die Daten und das Wissen über jeden Menschen sind die neue Grundlage des Mehrwerts für die Internet-Firmen.

Der Überwachungskapitalismus wurde 2002 von Google erfunden, beginnend mit der Auswertung unserer Suchanfragen. Aber dann setzte sich das Konzept der Wertschöpfung auf Grund von persönlichen Daten immer mehr als extrem erfolgreiches Geschäftsmodell durch und viele Firmen sprangen auf (an anderer Stelle zeige ich, dass die großen IT-Firmen jetzt die Großkonzerne dominieren). Und es werden immer mehr Firmen, nicht nur aus dem IT-Bereich. Auf diese Weise werden immer mehr Aspekte unserer Online-Aktivitäten dieser Verwertung zugeführt:

  • die Auswertung unserer Interaktionen mit unseren Kontakte in Social Networks (Facebook, Twitter Tiktok, Instagram, WhatsApp, Xing, LinkedIn, etc. - meine Betrachtungen zum Begriff "sozial" finden sich an anderer Stelle.)
  • die Liste unserer Kontakte in alle diesen Netzwerken und in den Smartphones. Daraus ergeben sich unsere Vernetzungen
  • ob wir irgewndwo in einem der Netzwerke auf Gefällt-mir geklickt haben und auf welche der Anzeigen wir auf den anderen Seiten geklickt haben
  • unsere weiteren sozialen Netze in Form unserer Email-Kontaktlisten
  • bei Emails: ob wir das Mail aufgemacht haben und falls ja, wieviel Zeit wir mit jedem Textblock verbracht habe und im Fall von gmail sogar der Inhalt unserer Emails
  • wonach wir gesucht haben (entweder bei einer allgemeinen Suchmaschine oder auch auf einer Zeitschriftenseite)
  • zu welchen Themen wir Kommentare abgegeben haben
  • unser Kaufverhalten im Internet, nach welchen Produkten wir gesucht haben und dann entweder gekauft oder nicht-gekauft haben. Dazu alle unsere Interaktionen auf Bewertungsplattformen wie Yelp, etc
  • unser Kaufverhalten im "realen" Laden wenn wir dort eine Kundenkarte einsetzen um an Rabatte zu kommen. Diese Treuekarten mit ihren zum Teil komplexen Regeln sind Teil des Gamifications (wieviel muss ich noch kaufen in diesem Monat in die nächste Rabattstufe zu kommen)
  • unser Leseverhalten auf allen (Medien-)Websites über die Myriaden von Trackern die dort eingebaut sind (alle Websites auf denen Werbung geschaltet ist)
  • aber auch beim Lesen von eBooks wird unser Verhalten aufgezeichnet und ausgewertet (Social Reading). Und natürlich wenn wir Online-Serien auf Netflix oder sonstwo schauen
  • mit wem ich per Telefon oder WhatsApp kommuniziere und wie oft und wie lange (und wer zumeist der Anrufende ist und wer nie abhebt wenn ich anrufe, etc. - die gesamte Beziehungsdynamik)
  • unser Such- und Reiseverhalten über Buchungsplattformen, inklusive den Plattformen der öffentlichen Verkehrsbetreiber
  • unser Fahrtstrecken im Auto über das Tracking in den Navis, die Autobahnmaut (in Ö durch Kennzeichenerkennung durch die ASFINAG) und section control für die Geschwindkeitsüberwachung
  • die neuen vernetzten Autos zeichnen aber viel mehr auf und versenden die Daten an Hersteller und andere. Dies betrifft nicht nur das konkrete Fahrverhalten (Heftigkeit beim Bremsen und Gas-geben, Querbeschleunigung in der Kurve), sondern über Innenraumkameras und -mikrophone oft auch die Aufmerksamkeit des Fahrers und was sonst noch im Fahrzeug passiert). Auch die Automobilfirmen wollen beim Überwachungskapitalismus mitnaschen
  • unser Unterhaltungsverhalten in Form von Social Reading (bei eBooks), Videoschauen auf Youtube, TikTok, Instagram, das Tracking und die Sprachsteuerung das die modernen Fernseher implementieren (für die Sprachsteuerung werden ALLE Gespräche in die Cloud übertragen)
  • die Schularbeiten der Kinder, die immer öfter auf kostenlosen Cloud-Plattformen wie Google-Docs bearbeitet und bewertet werden (statt auf staatlich angebotenen Plattformen)
  • die privaten Fotos die wir auf kostenlose (oder preisgünstige) Fotoclouds hochladen und die dann dort klassiziert, analysiert und geordnet werden. Dafür werden die Gesichter über Gesichtserkennung ausgewertet und Aufnahmeort und Aufnahmezeit zugeordnet
  • der größte Teil der Apps finanziert sich über Werbung und den Verkauf der gesammelten Daten auf die die App am Gerät zugreifen kann, vor allem die Standorte, aber auch Kontakte, bis hin zu Fotos. Dies betrifft auch (oder vor allem) so harmlos klingende Apps wie Wetter, Kochrezepte oder Taschenlampe
  • die große Menge unserer Zahlungsverkehrsdaten, speziell wenn wir sehr oft bargeldlos bezahlen. Diese Daten fallen typischerweise bei Banken und/oder Kreditkartenfirmen an, aber die PSD2-Richtlinie der EU gibt diese Daten mit Zustimmung des Betroffenen auch für Drittanbieter (z.B. Finanz-Start-ups - "Fintechs" und sog. Third Party Provider (TPP)) frei. US- oder chinesische Internetfirmen können jetzt mit Zustimmung des einzelnen Kunden auch auf diese Daten zugreifen und ihre vielen bisherigen Daten durch Zahlungsdaten ergänzen
  • zu allen diesen Online-Daten kommen aber immer mehr offline Situationen: die Fitness-Tracker, Smart Watches und ähnliche Geräte zeichnen unsere Körperfunktionen in ALLEN Lebenslagen auf, auch wenn wir vielleicht glauben, off-line zu sein
  • alle Kameras, Mikrophone und andere Sensoren in unseren Smart Homes, inklusive alle vernetzten Haushaltsgeräte (wie Herde, Kühlschränke, Kaffeemaschinen, Glühbirnen, Smart Locks, vernetzte Puppen, . . . . ), die viel über unser Verhalten in der Wohnung aussagen und in einigen Fällen (z.B. die Puppen) Gespräche ins Netz hochladen.
  • mehr und mehr der Geräte im Haushalt enthalten Mikrofone, so die Smart Home Steuerung von NEST (Google), die digitalen Assistentinnen und alle Geräte mit Sprachsteuerung. Diese Mikrofone sind wichtig für die geplante Erkennung unserer Gefühlslagen, siehe das Patent von Amazon. Das geht hin bis zu Mikrophonen in Matratzen, die die Qualität des Schlafs überwachen sollen und verbessern helfen sollen.
  • die Robot-Staubsauger haben oft nicht nur Mikrophone, sondern auch Kameras, mit deren Hilfe sie auch noch eine Karte der Wohnung anlegen, die sie dann (mehr oder weniger gut geschützt) ins Internet übertragen
  • beim Spaziergang durch die Stadt: JEDER WLAN Access Point an dem wir vorbeigehen registriert unser Gerät, egal ob wir uns verbinden oder nicht. Das ist der Grund warum Google (durch seine Tochter Sidewalk Labs) kostenlose WLAN (und noch vieles mehr) in einige Städten anbietet. Mehr Details unter Smart City. Und egal was immer da behauptet wird: Bewegungsdaten sind NIE anonym.
  • beim Spaziergang durch die Stadt der nahen Zukunft: Brillen wie Google Glas oder Snapchat Spectacles werden das gesamte Leben der Träger und ihrer Umgebung aufzeichnen

 

Die drei Intensitätsstufen der Datensammlung

Im Buch "Das Zeitalter des Überwachungskapitalismus" werden 3 unterschiedlich tiefe Stufen des Data Minings, der Auswertung unserer persönlichen Daten unterschieden:

  • Die 1. Stufe war (und ist) das Sammeln und Bewerten von Fakten, von wirklichen Ereignissen.
    Dies begann mit der Auswertung der Suchanfragen bei Google 2002. In diese Kategorien gehören die Suchanfragen auf allen Websites auf denen Werbung geschaltet ist, unser Kaufverhalten bei Amazon, unsere Likes, unsere Shares und Texte der Postings. Dazu die Texte der Mails die wir an einen Empfänger bei Gmail geschrieben haben. Das sind wirkliche Ereignisse. Bei dieser Art von Datensammlung habe ich als Nutzer noch eine gewisse Kontrolle, ich kann entscheiden, ob ich im Netz ein Thema diskutiere oder auf eine Website gehe oder dort etwas anklicke.
  • Die 2. Stufe ist die automatische Erstellung von Persönlichkeitsanalysen.
    Dies geschieht auf Grund von Ereignissen (Kauf, Besuch einer Website, Like, Share, etc.) aber auch auf Grund von Meta-Daten wie Wortwahl, Wortlänge, Satzlänge, Interpunktion, etc. Diese Analyse ist unabhängig von den Inhalten und erlaubt daher kein einfaches Verstellen mehr. Die Strategie "ich schreibe nichts über Politik" greift nicht mehr, die mein Schreibstil bewertet wird. Mehr dazu unter dem Stichwort automatische Persönlichkeitsanalyse. So etwas wird von vielen Firmen angeboten.
  • Die 3. Stufe betrifft das augenblickliche Gefühl einer Person (sentiment detection).
    Dies wird seit spätestens 2016 aktiv genutzt - Facebook hat bereits 2016 erklärt, über 6 Mio solcher Analysen pro Sekunde durchzuführen. Es geht darum, die Persönlichkeit durch den augenblicklichen Gefühlszustand zu ergänzen: "sentiment analysis". Hierfür sollen in Zukunft vor allem Stimme und Gesichtsausdruck verwendet werden (der ja über die Selfie-Kamera leicht abzugreifen ist). Diese Art der Datensammlung führt zu höchster Transparenz jedes Individuums und ist kaum noch zu kontrollieren.

Ziel der ganzen massiven Datensammlung und Auswertung ist die Steuerung aller unser Lebensentscheidungen, primär derzeit in Bezug auf das Konsumverhalten, aber wie Brexit und die Trump-Wahl gezeigt haben auch des Wahlverhaltens (und Wahlverhalten geht bis zur Partnerwahl mittels gesteuerter Auswahl bei den Dating-Apps bis hin zu Tinder und Grinder).

Ein winziger Lichtblick: Zum Glück fließen bei uns (derzeit) noch nicht alle diese Daten bei genau einem Unternehmen zusammen, in China ist die Konzentration so hoch, dass 2 Unternehmen sich alle diese Daten gemeinsam mit der Regierung teilen (In China gibt es nur wenige Menschen mit Smartphone, die nicht WeChat nutzen da damit alle digitalen Funktionen in einer App abgedeckt sind. Und auf diese Daten hat die Regierung freien Zugriff).

Die digitalen Assistentinnen wie Amazons Alexa, Apples Siri, Googles Assistant oder Microsofts Cortana gehen aber sehr wohl in die Richtung, dass jede der Firmen an ALLE unsere Daten will. So werden die Assistentinnen um so hilfreicher, je mehr man ihnen Zugang zu Diensten anderer Anbieter erlaubt. Diese Assistentinnen können um so hilfreicher sein, d.h. sie können uns um so intensiver steuern und lenken, je mehr unterschiedliche Dienste dort integriert sind. D.h. diese Dienste möchten den Zugang zu allen anderen Diensten erlangen (bzw. der Nutzer soll alle Dienste von nur dem 1 Anbieter nehmen).

Die Manipulierungstricks - so werden wir gelenkt

Hier jetzt einige Beispiele für Manipulierungstricks an die wir uns bereits weitgehend gewöhnt haben:

  • Direkte Kaufvorschläge bei Amazon (und anderen) oder Konsumvorschläge (Restaurants) z.B. vorgeschlagen von den digitalen Assistentinnen
  • Anstacheln von Wettbewerb zwischen "friends" oder Kontakte. Entweder über "friendly competitions" in Spielen, z.B. Pokémon Go "gamification"). Dieser Wettbewerb ist aber letztendlich ein ständiger Vergleich mit den anderen (Vergleich der Körper auf Instagram Fotos, Vergleich des aufregendenden Lebens das die anderen angeblich führen, Vergleich der tollen Sachen die die anderen kaufen, die tollen Urlaubsziele und Urlauserlebnisse). Dieses Vergleichen erzeugt Stress und Druck.
  • Social influence z.B. durch Vorbilder (influencer) oder das Aufzeigen von erwünschtem Verhalten von "friends" ("hat heute gewählt", "hat eben xxx gekauft", "hat eben eine Reise gebucht").
  • Als "social proof" werden solche Tricks auf Einkaufs- oder Buchungs-Websites auch gern betrügerisch genutzt: Dann zeigen Meldungen dass 'das gesuchte Produkt fast ausverkauft sei' oder 'gerade eben Maria Meier genau dieses Produkt gekauft habe' oder 'dass nur noch 3 Plätze auf diesem Flug frei seien'. Abgestimmt auf die jeweilige Persönlichkeit des Käufers sind solche Meldungen recht effektiv. Eine Studie zeigt, wie heftig dieses sog. "dark pattern" aktiv genutzt wird.
  • Positives Feedback wie Likes, Shares, Smiley-Rückmeldungen auf Whatsapp oder anderes Feedback (z.B. Retweet auf Twitter oder Snapstreak bei Snapchat oder Herzen in TikTok). Jedes (positive) Feedback erzeugt einen kleinen angenehmen Dopaminschub. Zu dem positiven Feedback gehören auch die Rabattpunkte/Treuepunkte bei den Kundenkarten oder Treuekarten oder virtuelle Belohnungen wie in Pokémon Go (das ist ein gutes Beispiel für "herding", bei der Konzeption und Entwicklung waren Ex-Google Mitarbeiter führend).
  • Ausnutzung von beobachteten Schwächen (z.B. Körperbildstörung oder Depression oder Unzufriedenheit die für einen Kaufimpuls genutzt werden kann)
  • Erzeugung von Suchtpotential durch gezielte Abfolge von Frust und Belohnung (Dopaminschub), zumeist genutzt in Computerspielen, aber auch in allen social networks (dort vor allem Likes, Reposts, neue Kontakte, friend-requests, Follower, etc.)
  • Erzeugung von Suchtpotential aber auch durch FOMO ("fear of missing out") ("etwas passiert und ich bin nicht dabei") oder die Drohnung mit Verlust der sozialen Kontakte. Dies wird verstärkt durch die Suche nach Bestätigung in der jugendlichen Unsicherheit und führt dazu, dass 1 Tag ohne Smartphone für viele Jugendliche extremer Stress ist.
  • Hervorrufen und Steigerung von starken Emotionen die zu "virtuellen Aktionen" und weiterem Verbleib auf der Seite führen (mit dem Ergebnis der möglichen Radikalisierung)
  • Steuerung entsteht auch über die Vorschläge bei Dating Plattformen (bewusst) oder in Zukunft durch gesteuertes Zusammentreffen z.B. durch gleichzeitige Pausen (ohne dass die Menschen sich dieser Steuerung bewusst werden)
  • Steuerung entsteht auch über die Filter Bubble, durch die automatisierte Auswahl der Nachrichten die jedem Internetnutzer gezeigt werden (sofern sie sich ihre Quellen nicht aktiv aussucht und bewusst, ansurft). Auch über gezielte Information (und die muss nicht mal "Fake" sein) können Menschen zu einem bestimmten Verhalten gelennkt werden, z.B. Wahl eines bestimmten Kandidaten oder eines Produktes über das sie ständig lesen.
  • Durch das Wissen um unsere ständige Online-Präsenz entstehen neue Verhaltensnormen die schwer zu ignorieren sind. Z.B. die Erfüllung der Erwartungshaltung, dass auf manche Formen der Ansprache, z.B. Posts in Whatsapp oder Tiktok oder Snapchat zügig zu reagieren ist um die andere Person nicht zu kränken und dadurch selbst an Position zu verlieren oder dass die eigene Präsentation in sozialen Medien gewissen Formen und Ansprüchen genügen muss - z.B. Erfolg zeigen, Stärke zeigen, zeigen dass man viele Freunde hat, ). Selbst in der Arbeitswelt gibt es Ansätze zu Always-On Kommunkationsformen: Business Chats wie Slack, Microsoft Teams, Google Hangout Chat, Facebook Workplace.
  • Am Arbeitsplatz werden AI-Systeme zum "kleinen Boss", das nennt sich "Workplace AI". So gibt es AI-Systeme, die die Emotionalität von Call Center Mitarbeitern während des Gesprächs messen und diese in einem Bildschirmfenster z.B. auffordern, stärker auf die Emotionen des Anrufers einzugehen und ähnliche leicht gruselige Anwendungen.

Shoshana Zuboff unterscheidet 3 unterschiedlich tiefe Techniken der Verhaltenssteuerung: 1. "Tuning", 2. "Herding" und 3. "conditioning". Der 3. Begriff verweist bereits auf den wissenschaftlichen Hintergrund der Techniken für Verhaltensmodifikation, nämlich die Forschungen von B.F. Skinner zu "operander Konditionierung". Nun zu den Details der 3 Stufen.

  1. "Tuning":
    Darunter versteht die Autorin, dass z.B. zu von den Algorithmen bestimmten Augenblicken bestimmte Inhalte (mehr oder weniger bewusst wahrgenommen) präsentiert werden. Dies passiert nach einer Analyse der Stärken und Schwächen einer Person und ihrer größten "Verwundbarkeiten" (siehe Klassifizierungen). Dazu gehören auch die sog. Nudges (von "anstupsen"), indem zum richtigen Zeitpunkt bestimmte Handlungsmöglichkeiten angeboten werden (und andere nicht angeboten werden - choice architecture).
  2. "Herding":
    Darunter versteht die Autorin direkte aktive Eingriffe in die Lebenswelt des Betroffenen (hauptsächlich im Bereich "vernetzte Geräte", d.h. zum Glück derzeit erst in Planung. Ein Beispiel wäre das "Still-Legen" eines vernetzten Fahrzeugs weil eine Rate nicht gezahlt wurde. Ähnliche Eingriffe wären das Sperren des Kühlschranks weil bereits genug konsumiert wurde, das Blockieren der Zündung bei einem alkoholisierten Fahrer, der Stuhl der ein Signal erzeugt, wenn jemand zu lange drauf sitzt und sich lieber ein wenig Bewegung gönnen sollte oder der Fernseher der sich abschaltet weil der Mensch morgen schon früh raus muss (erkennbar im Terminkalender).
  3. "Conditioning":
    Hier sieht die Autorin das eigentliche Endziel der Lenkung der Bürger, ganz im Sinne der operanden Konditionierung nach B. F. Skinner (sieh oben, auch "behavioral engineering"): Verstärken von Verhaltensweisen durch Feedback wie Lob, Anerkennung durch andere (siehe "Likes", "Shares" und andere Reaktionen der Mitmenschen oder der Computer) und Belohnungen (z.B. ein kleiner Rabatt weil ich das monatliche Einkaufsziel bei diesem Händler erreicht habe, Gamification). Am besten geht so etwas über Smartphone Apps, die ziemlich exakt "wissen", was ich gerade tue und mir gezieltes verstärkendes Feedback geben können.

Diese 3 Techniken der Verhaltensmodifikation werden auch ziemlich offen als Basis für das Geschäftsmodell der meisten Anbieter von Internet-Diensten formuliert. Denn erst durch die gezielte Steuerung können diese Anbieter "sicherstellen", dass genügend Kunden bei den Geschäftspartnern dieser Datensammler aufschlagen um den IT-Aufwand kommerziell zu rechtfertigen. Und das rechnet sich gut, wenn man sich das Ranking der größten Konzerne der Welt ansieht.

Und es gibt noch eine Gefahr: Wenn Menschen realisieren, dass sie sehr oft nach ihrer "virtuellen Repräsentanz" der Daten-Tracker beurteilt werden, so werden einige versuchen, diese zu manipulieren. Hier ein Artikel dazu: 2019 KI-Forscher: "Algorithmen werden uns verrückt machen". Eine andere kritische Stimme schreibt dazu 2019: Selbstzensur durch automatisierte Datenverarbeitung. Dies läuft auch unter dem Begriff: Chilling Effects = Selbstzensur von Verhalten und halb-öffentlichen Aussagen.

Ob es wirklich gelingen kann, eine falsche Identität zu erzeugen, das bleibt offen. Tools für so etwas werden aber bereits entwickelt: 2019 greift Mozilla (die Entwickler von Firefox und Thunderbird) diese Idee auf und entwickeln Track This. Das ist eine Website, mit deren Hilfe Internetz-Nutzer den Trackern eine falsche Identität vorgaukeln können. Man kann es verschiedenen Profilen wählen mit denen man getrackt werden möchte. 2 Probleme dabei: Wenn der Rechner so eingestellt ist wie meiner, mit viel Tracking-Schutz, siehe oben, dann geht das alles nicht. Außerdem muss man realisieren, dass dann bei den Trackern wirklich die falsche virtuelle Identität entsteht. Und die könnte bei Bewerbungen oder anderen zusammenhängen evt. mal relevant werden und müsste dann erklärt werden.

Die Studie Behavior Change Techniques Implemented in Electronic Lifestyle Activity Monitors: A Systematic Content Analysis ist nur ein Beispiel für die zahlreichen Forschungen zu "behavior change techniques". Und diese Techniken zur Verhaltenssteuerung sind leider unter ausschließlicher Kontrolle der Firmen (die ihre Ziel natürlich nicht veröffentlichen), nicht unter einer effektiven Kontrolle der Nutzer. Außerdem gilt zu berücksichtigen, dass alle diese Algorithmen ja keine wirklichen kausalen Zusammenhänge untersuchen, sondern reine Korrelationen. Selbst wenn die Steuerung zum Besten des Nutzers wäre, so würde das gewünschte Verhalten trotzdem nur bei der Mehrheit, aber nicht bei allen Nutzern eintreten.

2016: Ein Artikel berichtet darüber, dass Facebook sogar noch zusätzliche Daten über ihre Nutzer zukauft um ein noch kompletteres Bild ihrer Nutzer zu bekommen: Werbe-Tracking: Facebooks Kooperation mit Datenhändlern in der Kritik. Die Kritiker sagen, dass dies aus den Nutzungsbedingungen nicht hervorgeht, dass Facebook nicht nur alles sammelt, was sie direkt von uns bekommen können. Ich vermute, die anderen Datensammler werden auch eher noch hinzukaufen, statt ihre Kronjuwelen an andere weiterzureichen.

 

Was können wir dagegen tun?

Das versuche ich an anderer Stelle zu diskutieren: Wäre ein Internet ohne Überwachung denn kommerziell möglich? und

Wie können wir das Internet aus dem Griff der Konzerne befreien?

Und jetzt eine Ergänzung nach der Lektüre der NY Times: Following the Breadcrumbs on the Data-Sharing Trail. Der Artikel behandelt nicht die Welt des Internets sondern die amerikanische Autorin des vorigen Artikel hat in den USA viele Zeitschriften abonniert und dabei ihre Adresse jeweils leicht modifziert. Auf diese Weise hat sie herausgefunden, wohin jeder der Zeitschriftenverlage ihre Adresse verkauft hat. Das heißt, dass die Situation außerhalb des Internets nicht viel bessser ist. Das wäre in dieser Form in Europa ohne die vorherige Zustimmung (noch) illegal und wäre klagbar.

 

 

 

 

(Automatisierte) Datenschutzauskunft und Verbesserung der Privatsphäre-Einstellungen

Bei allen diesen Auskünften bekommt der Bürger immer nur die Roh-Daten zurückgeliefert, d.h. die Daten die direkt angefallen sind. Ziel der Datensammlungen ist natürlich, daraus Daten über die Interessen, aber auch die Persönlichkeit und ähnliche intime Daten zu errechnen. Diese eigentlich wertvollen Daten werden NICHT beauskunftet. An anderer Stelle beschreibe ich, wie solche Klassifizierungen und Kategorisierungen aussehen können.

 

Was hat Google über Sie gesammelt?

2018: Dass Google viel über uns alle weiß, das ahnen wohl alle. Spätsommer 2018 gab es eine kleine Aufregung, weil Google auch dann weiter Standortdaten sammelt, wenn der Android-Nutzer dies deaktiviert hat. Die Argumentation von Google ist ungefähr so: Der Benutzer deaktiviert das ständige und automatisierte Tracking seiner Standorte, aber wenn der Nutzer irgend etwas mit seinem Gerät tut, z.B. eine Suchanfrage startet, so dürfen sie trotzdem den Standort in ihren Servern ablegen. Das zeigt, wie zentral das gierige Datensammeln für das Geschäftsmodell von Google ist.

Wer aber wissen will, was da konkret gesammelt wurde, der braucht nur mit seinem Google Account einzuloggen und dann nachzusehen.

 

Was hat Apple über Sie gesammelt?

Apple gilt als deutlich datensparsamer (weil sie nicht von Werbung leben müssen, sondern von ihren teuren Geräten), aber wer wissen will, was Apple trotz allem weiß, hier die Anleitung.

 

Was hat Facebook über Sie gesammelt?

Facebook gilt bei vielen nicht als der große Datenkrake, aber über die Likes und andere Interaktionen wird die Psychologie und das Intimleben der Nutzer sehr transparent, dies war spätestens seit dem Cambridge Analytica Skandal deutlich.

 

Was hat Whatsapp über Sie gesammelt?

Wussten Sie, dass Instagram und WhatsApp ebenfalls Teil von Facebook sind? Die Daten die bei Instagram und WhatsApp gesammelt werden fließen auch alle zu Facebook weiter. Die Daten bei Whatsapp sind meist nicht so detailliert, aber dort fallen Verbindungsdaten an.

 

Was hat Instagram über Sie gesammelt?

Wussten Sie, dass Instagram ebenfalls Teil von Facebook ist? Die Daten die bei Instagram gesammelt werden fließen auch zu Facebook weiter. Die Daten bei Whatsapp sind meist nicht so detailliert, aber dort fallen Verbindungsdaten an.

 

Was haben LinkedIn und Xing über Sie gesammelt?

Viele Facebook-Verweigerer finden sich dann auf Xing und LinkedIn wieder. Wie viel diese Firmen außer unserer Kontaktliste noch wissen, das hängt von unseren Aktivitäten dort ab.

 

Was hat Amazon über Sie gesammelt?

Beim Chaos Computer Club Kongress 2018 (33C3) gab es einen Vortrag zur Datensammlung von Amazon. Hier ein Artikel über den Vortrag mit Link zum Vortrag selbst.

 

Was hat Billa über Sie gesammelt?

Billa ist eine der großen Lebensmittelketten in Ö, Teil von REWE. Beliebt sind dort die Kundenkarten, die einige Vorteile anbieten, wenn jemand bereit ist, dem Konzern gegenüber transparent zu werden und sich gezielte Werbung zusenden zu lassen.

 

Wie macht man eine allgemeine Datenabfrage bei irgendeinem Unternehmen?

Jeder Mensch auf der Welt hat das Recht, von jedem EU-Unternehmen eine Auskunft einzuholen, welche Daten dort über die Person gespeichert sind. Das geht immer nur für sich selbst und die Identität muss z.B. über eine Kopie des Ausweises erfolgen. Man muss nicht Kunde dort sein. Wenn man Kunde ist oder in einer konkreten Beziehung steht, so ist es hilfreich, eine Kundennummer oder ähnliches mitzuliefern. Diese Auskunft geht bis zu Fotos und Videos (dabei muss der Anfrager natürlich sagen, bei welcher Gelegenheit das Foto oder Video wohl entstanden ist).

Das einfachste Möglichkeit zu so einer Anfrage ist, sich ein Formular aus dem Internet zu laden, z.B. von der hier verlinkten Website der ö. Datenschutzbehörde (das Formular hat zwar das Logo der Behörde, kann aber in ganz Europa verwendet werden und wird nicht an die Behörde, sondern an die Firma gesendet. Jede Firma in der EU MUSS eine solche Anfrage innerhalb fester Fristen beantworten). Die Anfrage muss zusammen mit einer Kopie des Passes eingesendet werden, damit sollen Anfragen im Namen anderer Personen verhindert werden. Hier direkt zu den Formularen, z.B. zum Recht auf Auskunft (das ist zwar die österreichische Behörde, aber das Formular geht überall).

 

 

 

 

Datenspuren nicht nur im Internet: Die permanente Datenspur jedes Smartphones

Wenn Sie mit ihrem Smartphone durch die Stadt gehen, so hinterlassen sie permanente Datenspuren die ihre Bewegungen transparent machen. Da ist einmal natürlich die Spur bei Ihrem Telefonprovider. Dessen Systeme müssen natürlich ständig wissen, wo sie sich aufhalten. Sonst könnte der keine Anrufe zustellen. Hier ein Artikel aus den USA, wie einfach es dort ist, an die Standortdaten einer beliebigen Telefonnummer zu kommen. Das sollte in der EU nicht so einfach sein.

Aber ihr Smartphone versucht außerdem ständig, sich mit WLANs zu verbinden, und zwar mit allen, nicht nur den öffentlichen oder solchen, die sie bereits einmal genutzt hatten. Damit das Gerät sich sofort und automatisch in bereits bekannte WLANs verbinden kann, sendet es kontinuierlich enstprechende Anfragen und fordert die WLAN-Router auf, sich zu identifizieren (mittels SSID). Diese Liste der SSIDs der erreichbaren WLANs wird gegen die im Smartphone gespeicherte Liste ihrer früheren Verbindungen verglichen. Wenn eine SSID mit diesem Namen bereits gespeichert ist, so versucht das Gerät, sich automatisch zu verbinden. Auf diese Weise sind Sie zu Hause sofort mit dem Wohnungsnetz verbunden, oder mit dem Hotel-Netz, in dem Sie bereits früher mal waren.

Das ist bequem, aber nicht ganz ungefährlich. Wenn jemand die SSID ihres Heimnetzes (oder eines früher besuchten Hotels) vorspielt, so verbindet sich das Smartphone sofort und ohne Meldung. Ab dann läuft der Datenverkehr über dieses Netz, egal ob vertrauenswürdig oder nicht. Der Betreiber kann von ihrem Datenverkehr alles mitlesen, was nicht separat verschlüsselt wird, z.B. über HTTPS.

Aber es passiert noch etwas: Das Smartphone sendet seine Gerätekennung, d.h. die Mac-Adresse. Die ist zwar nur indirekt ihrem Namen zugeordnet (sie ist ein Pseudonym), aber mittels dieser Adresse wird ihr Gerät zuverlässig beim nächsten Vorbeigehen an dem WLAN wiedererkannt, egal ob sie sich angemeldet hatten oder nicht. D.h. wann immer Sie in ein Geschäft oder Lokal hineingehen, so weiß das dortige Netz, wie sie kommen und wann das letzte mal war. Der Artikel hier behandelt die Frage, ob das eigentlich legal ist: WLAN-Tracking und Datenschutz.

Das heißt, wenn Sie durch die Straßen einer Stadt fahren oder gehen, so hinterlässt ihr Smartphone bei allen WLANs in Reichweite seine Kennung. Wer sich die Mühe machen würde, könnte analysieren, wie oft und wann ihr Gerät sich gemeldet hat. Die Mühe wird sich aber niemand von den Wohnungsbesitzern nachen. Anders ist es jedoch bei den Betreibern von öffentlichen WLANs, z.B. städtische WLAN-Zugangspunkte (Access Points) oder die der DB oder OeBB. Diese Netze sind zentral gesteuert, d.h. die Zentrale weiß, an welchen dieser Geräte Ihr Smartphone gerade vorbei gekommen ist (egal ob Sie es genutzt haben oder nicht).

Falls Sie das Netz früher irgendwann mal genutzt hatten, so weiß das WLAN-Netz noch viel mehr über Sie. Z.B. weiß es, welche Websites Sie damals angesurft hatten und evtl. auch ihren Namen, falls eine der Verbindungen unverschlüsselt war. Und er hat die Kontrolle über ihren augenblicklichen Internetzugang. Mit diesem Trick könnten Händler verhindern, dass die Kunden in seinem Laden gleichzeitig Preisvergleiche im Internet anstellen.

Das heißt, die Betreiber von öffentlichen WLANs lernen auf diese Weise sehr viel über die Bewegungen aller Bürger der Stadt, selbst wenn diese sein Netz nicht nutzen. Daher überrascht es nicht, dass ein Konsortium rund um Google der Stadt New York anbietet, kostenlos viele tausend WLAN-Kiosks in der Stadt aufzustellen. Je enger das Netz der Zugangspunkte ist, desto genauer sind die Tracking Daten. Wer sein Smartphone einmal angemeldet hat, der hat den Nutzungsbedingungen zugestimmt und damit der Weitergabe und kommerziellen Nutzung seiner Bewegungsdaten und des Surfverhaltens. Wer nicht zugestimmt hat, wird aber trotzdem getrackt, wenn auch nur über sein Pseudonym, die MAC-Adresse.

Wie kann man diese spezielle Form das Standort-Trackings verhindern? Eigentlich ganz einfach, aber etwas mühsam. Bevor Sie das Haus verlassen müssen Sie ihr WLAN im Smartphone deaktivieren. Ab dann wissen nur noch ihr Mobilfunkprovider (und viele viele Apps in denen die Standortdaten erhoben werden) wo Sie gerade sind. Das könnten Sie natürlich auch deaktivieren (indem Sie das Mobilgerät ausschalten), aber dann bekommen Sie auch keine Anrufe mehr. wenn Sie irgendwohin gehen, wo Sie lieber nicht getrackt werden wollen (z.B. ein Klinik, ein Kirche oder Moschee oder eine politische Demonstration), so ist ausschalten, bzw. zu Hause lassen, eine sehr gute Idee.

Android-Nutzer können sich übrigens über die Timeline, die Google aus den Bewegungen eines Android-Handys bestimmt, und die offenbar auch abrufbar ist alle ihre Bewegungen in der Vergangenheit ansehen.

 

 

 

Facebook und die anderen Datensammler klassifizieren ihre Nutzer

Im Zusammenhang mit den Untersuchungen zur Wirkung von Facebook auf die US-Wahl und Brexit sind 2017 einige der Möglichkeiten, gezielte Werbung auf bestimmte Personengruppen zuzuschneiden, ans Licht gekommen. Diesen Vorgang nennt man Micro Targeting, das Zuschneiden einer Werbebotschaft exakt auf möglichst präzise bestimmte Zielgruppen. Und diese Einteilung in Zielgruppen kann durchaus gruselig sein.

Die US-Organisation Pro Publica hat Tests durchgeführt. Sie konnten Werbung für Leute platzieren, die etwa "Nazi Party" oder die SS aus dem Dritten Reich als Arbeitgeber eingetragen hatten. Die Zielgruppen waren aber zu klein um Werbung zu platzieren. Die Kategorie "Jew Hater" hatte nur 2274 Facebook-Mitglieder, "German Schutzstaffel" oder "Nazi Party" als Arbeitgeber jeweils 3149 und 2449 Profile. Werbung konnte aber platziert werden, nachdem Nutzer mit einem Interesse an der deutschen NPD in die Auswahl genommen wurden (194 600 Profile). Pro Publica konnte auch auf folgende Interessen selektieren: "Jew hater", "How to burn jews" oder, History of "why jews ruin the world." Facebook war peinlich berührt und hat diese Selektionen gesperrt.

Beim Big Brother Award 2017 wurde Facebook trotzdem "ausgezeichnet". Denn Facebook bietet Werbetreibenden natürlich weiterhin Microtargeting anhand von Persönlichkeitsprofilen an. Dafür teilt Facebook Jugendliche z.B. in Gemütsverfassungsklassen wie "wertlos", "unsicher", "besiegt", "ängstlich", "dumm" oder "nutzlos" ein.

In früheren Tests wurde gezeigt, dass auch gezielt Anorektikerinnen, Selbstmordgefährdete und andere Problemgruppen mit Werbebotschaften angesprochen werden können. Eine Studie in Austrialien berichtet über Werbung für Teenager, die sich "wertlos" fühlen. Auch "unsicher", "gestresst", "niedergeschlagen", "ängstlich", "dumm" oder "überwältigt" werden den Werbern als Selektionen angeboten. Dies alles findet sich in einem internen Papier von Facebook selbst.

Auch Bilderkennung wird einsetzt, um Emotionen in Fotos auf Facebook und Instagram für Werbetreibende nutzbar zu machen. Noch genauer und in Echtzeit können die Gefühle beim neuen iPhone X analysiert und überwacht werden: Face ID: iPhone X kann Gefühlslage des Betrachters in Echtzeit überwachen. Mit Hilfe der TrueDepth-Gesichtskamera kann ermittelt werden, wie sich die Gesichtszüge des Betrachters während des Betrachtens eines Fotos, Films oder einer Werbung verändern. Im Prototyp wird nur zwischen wütend, glücklich, traurig und überrascht unterschieden, aber das ist auch nur ein Prototyp (der Code steht öffentlich auf Github).

Etwas weiter unten zeige ich, dass auch Selektionskriterien wie "Opfer einer Vergewaltigung", "AIDS-Patient", "Alkohol- und Drogenmissbrauch", "selbstmordgefährdet" angeboten werden. Hier Forschungen aus 2017: Soziale Medien verraten psychische Probleme. Taiwanesische Forscher behaupten, aus den Tweets einer Person Rückschlüsse auf eine bipolare Störung ziehen zu können. Anscheinend arbeiten ganz viele Arbeitsgruppen an der automatisierten Diagnose von psychischen Störungen: Jan. 2018 - Künstliche Intelligenz sagt Psychosen vorher. Es wurden Transkripte von Interviews mit Risikogruppen analysiert und dann mit der Diagnose 2 Jahre später verglichen. Das System konnte mit 83-prozentiger Wahscheinlichkeit voraussagen, welche Jugendlichen in einem Zeitraum von zwei Jahren nach den Interviews tatsächlich an einer Psychose erkrankten. Das bedeutet aber auch, dass 17% falsch eingestuft wurden.

Diese automatischen Diagnosen durch AI sind gruselig, egal ob das wirklich möglich ist oder nicht. Falls das Verfahren wirklich funktioniert, so sind weitere Klassifizierungen von Internet-Nutzern möglich, die Nutzer werden noch ein bisschen mehr transparent. Falls das entweder ganz Humbug ist oder auf Grund der false-positiv Raten werden auf diese Weise für einige Testpersonen falsche Diagnosen gestellt. Im nächsten Abschnitt zeige ich, was auf Grund solcher Kategorisierungen im Rahmen von Werbung geschieht. Aber wer garantiert uns, dass solche automatisierten Kategorisierungen nicht auch bei Einstellungsgesprächen verwendet werden?

Mich überrascht es dann kaum, dass die Nutzung von Instagram, Snapchat, Facebook und Twitter mit Unzulänglichkeit und Ängstlichkeit korreliert ist.

Nach all dieser Bad Publicity hat Facebook die Möglichkeiten, gezielt anzusprechen, weiter eingeschränkt. Trotzdem hat Pro Publica zeigen können, dass sie z.B. Wohnungsinserate bei Facebook in Auftrag geben konnten, die bestimmten Nutzern nicht gezeigt werden sollten - beispielsweise Afroamerikanern, Juden oder Menschen, die sich für Rollstuhlrampen interessieren. In den USA ist diskriminierende Werbung in den Bereichen Kredit-, Wohnungs- und Stellenmarkt illegal.

Weitere Details zu Klassifizierungen gibt es bei Datenaggregatoren und alle anderen Datensammler klassifizieren jeden von uns.

 

 

 

Tracking im Internet und Behavioral (Micro) Targeting:
Was ist eigentlich so schlimm an "benutzerbezogener Werbung"?

Eigentlich klingt das ja recht harmlos: Durch benutzerbezogene Werbung bekommen wir nur Angebote, die für uns relevant sind. Das klingt vielleicht gut, ist es aber in vielen Fällen nicht. Dies kann z.B. bei Essstörungsproblemen weitere Diätvorschläge bedeuten.

Häufiges Ziel der Sammlung und Auswertung der Daten die bei der Nutzung des Internets hinterlassen werden ist das Erstellen von Internet-Nutzungs-Profilen. Die Techniken die dafür verwendet werden laufen unter dem Namen Data Mining. Solche Profile können nicht nur dafür verwendet werden, Werbung gezielt zu platzieren (was man ja erst mal noch nicht als schlimm ansehen muss), sie können für Diskriminierung eingesetzt werden.

D.h. jemand der durch die Auswertung seines Internet-Nutzungsverhaltens als jemand erkannt wurde, bei dem Geld "vergleichsweise locker sitzt" (z.B. weil er mit iPhone oder MacOS surft), der bekommt bestimmte Sonderangebote gar nicht erst angezeigt ("discriminatory prizing"). Amazon hat vor einigen Jahren angeblich in diese Richtung experimentiert und nach Protesten von Nutzern diese Aktivitäten wieder aufgegeben.

Aber unangehnehmer wird es, wenn gezielt Schwächen ausgenutzt werden. In den Klassifizierungen der Nutzer die nach der Datenauswertung durchgeführt werden entstehen Klassen wie "fühlt sich wertlos", "unsicher", "gestress", "niedergeschlagen", "ängstlich", "dumm", "überwältigt", "besiegt", "ängstlich", "dumm" oder "nutzlos. Oder Klassen wie "Opfer einer Vergewaltigung", "AIDS-Patient", "Alkohol- und Drogenmissbrauch", "selbstmordgefährdet", "anorektisch", etc.

Wenn solche Problematiken von Menschen bekannt sind, so können diese auch gezielt ausgenutzt werden: Personen mit Körperbildstörungen werden ständig Diäten angeboten. Oder Personen die gerade als frustiert kategorisiert werden bekommen dann gezielt Konsumangebote um zu "Frustkäufen" zu verleiten. Auch eher ängstlichen Menschen können gezielt Angebote unterbreitet werden, die diese Problematik ausnutzen.

Die Auswertung der momentanen Gefühlslage wird übrigens "sentiment analyse" genannt. Bereits 2016 erklärte Facebook, dass sie pro Sekunde mehr als 6 Mio. solche Bewertungen der Gefühlslage einer Person durchführen.

Eine weitere Gefahr solcher Nutzerprofile ist, dass einer bestimmten Bevölkerungsgruppe bestimmte Informationen vorenthalten werden. Zusätzlich lassen sich Daten die Benutzer im Netz hinterlassen, auch für kriminelle Zwecke einsetzen, z.B. für Erpressungen, oder auch zur Unterstützung anderer krimineller Aktivitäten, wenn z.B. Abwesenheitsnachrichten auf Twitter oder im Social Networking für die Planung von Einbrüchen eingesetzt werden.

In den USA gibt es seit den Wahlen 2012 und in England spätestens mit der Brexit-Abstimmung eine breite Diskussion über die Tatsache, dass die Parteien das Internet intensiv nutzen. Ziel ist, auf Grund der im Internet und in Social Networks wie Facebook über sie gesammelten Daten detaillierte Profile der Wähler zu erstellen und dann ganz gezielt Werbebotschaften für ganz kleine Zielgruppen zu versenden. Der Wahrheitsgehalt dieser Botschaften muss nicht sehr groß sein, denn andere Zielgruppen bekommen diese Werbung überhaupt nicht und daher werden die Inhalte auch nicht öffentlich in Frage gestellt. Mehr dazu unter Wahl-Beeinflussungen.

Die Internetdienste (Suchmaschinen, Social Networks, Online-Shops, Informationsportale) sammeln diese vielen Daten über unser Verhalten im Web damit sie uns genau die Informationen oder Suchergebnisse liefern können, die genau uns interessieren. Was kann daran eigentlich schlimm sein, wenn ich genau das bekomme, was mich interessiert?

Diese Frage beantwortet ein Artikel Corrupt Personalization, oder "Algorithmic allocation of attention". Die kurze Antwort ist, dass wir NICHT die Informationen geliefert bekommen, die uns am meisten interessieren. Dies widerspräche dem Geschäftsmodell der Internet-Anbieter. Denn natürlich geht es nicht wirklich um unsere Interessen, sondern die Interessen der Werbetreibenden.

Werbefirmen sagen, dadurch dass sie die Interessen der Besucher genau kennen aus der Werbung wertvolle Information wird. Ganz so einfach ist es jedoch nicht, siehe hier:

    "Yahoo's network knows many things about recent high-school graduate Cate Reid. One is that she is a 13- to 18-year-old female interested in weight loss. ... Yahoo's take on Ms. Reid, who was 17 years old at the time, hit the mark: She was, in fact, worried that she may be 15 pounds too heavy for her 5-foot, 6-inch frame. She says she often does online research about weight loss. "Every time I go on the Internet," she says, she sees weight-loss ads. "I'm self-conscious about my weight," says Ms. Reid, whose father asked that her hometown not be given. "I try not to think about it. Then [the ads] make me start thinking about it."

Unangenehm (und unethisch) wird es dann auch, wenn z.B. als Selektionskriterien auch "Opfer einer Vergewaltigung" oder AIDS-Patient angeboten wird.

An dieser Stelle wird es dann richtig unangenehm. Heute wird es immer mehr üblich, auch krankheitsbezogene Informationen in die Profile aufzunehmen. Einige der Tracking-Firmen behaupten, dass sie Interesse an Stichworten wie HIV/AIDS, Geschlechtskrankheiten, Ess-Störungen und Impotenz nicht tracken. Trotzdem werden Diät-Anzeigen gezielt auch Minderjährigen gezeigt, die entsprechende Interessen zu haben scheinen.

Jemandem, der an Anorexie leidet, ständig mit Diät-Anzeigen zu bombardieren, ist für mich klar un-ethisches Verhalten. Was mich beunruhigt ist, dass der Rest der Gesellschaft dieses Bombardement gar nicht sieht, auf den gleichen Websites sehen die anderen Benutzer vergleichsweise harmlose Werbung. Eine US-Studie zeigt, dass aus Facebook Postings und Twitter Tweets mit einer hohen Wahrscheinlichkeit auf Alkohol- und Drogenmissbrauch geschlossen werden kann - vermutlich auf noch vieles andere mehr.

Ganz schlimm kann es dann werden, wenn, wie 2010 aufgezeigt, auch in Selbstmordforen Werbung geschaltet wird: Google admits cashing in on suicide pact chatroom. Da werden schon mal die Pillen, die dort diskutiert werden, über sog. "Internet Pharmacies" angeboten. Das Gleiche passiert mit vielen Diskussionsseiten auf denen gesundheitliche und andere sensible Probleme diskutiert werden.

Letztendlich geht es darum, dass die Werbenetzwerke unsere Schwachstellen finden wollen, das, vordem wir am meisten Angst haben. Denn an dieser Stelle sind wir am besten manipulierbar. Hier ein Anekdote dazu: "When Mark Zuckerberg started Facebook, a friend of his expressed surprise that people were surrendering so much personal data to the platform. "I don't know why," Zuckerberg said. "They trust me. Dumb . . . "

Es wird über unsere Nutzerprofile nicht nur entschieden, welche Werbung wir Anwender sehen. Unternehmen die Kreditkarten anbieten nutzen diese Profile um zu entscheiden, welche der verschiedenen Angebote diesem potentiellen Kunden gezeigt werden, genaus Besucher auf Websites auf denen Autos verkauft werden. Das ist soweit noch OK, solange den Kunden das Gesamtangebot trotzdem zur Verfügung steht. Theoretisch möglich (und nur schwer beweisbar wenn es stattfindet) ist auch eine differenzierte Behandlung, z.B. Ablehnung eines Kredits weil die IP-Adresse des Besuchers auf eine Gegend deutet, die zu den schlechteren Gegenden einer Stadt gehört oder weil die meisten der Kontakte dieser Person in Social Networks wie Facebook einer ärmeren Gesellschaftsschicht zugeordnet wurden.

Hier ein leicht erschreckendes Beispiel aus einem amerikanischen Artikel - jemand berichtet dort:

    ..... one of the reasons American Express gave for lowering his credit limit: "Other customers who have used their card at establishments where you recently shopped have a poor repayment history with American Express."

Das ist die Umkehrung von "andere Kunden die dieses Produkt kauften haben auch folgende Produkte gekauft" in "sie kaufen in den falschen Geschäften ein, wir reduzieren ihr Kreditlimit". Ein weiterer Artikel You for Sale: Mapping, and Sharing, the Consumer Genome sagt:

    . . . privacy advocates say they are more troubled by data brokers' ranking systems, which classify some people as high-value prospects, to be offered marketing deals and discounts regularly, while dismissing others as low-value known in industry slang as waste. Exclusion from a vacation offer may not matter much, says Pam Dixon, the executive director of the World Privacy Forum, . . . , but if marketing algorithms judge certain people as not worthy of receiving promotions for higher education or health services, they could have a serious impact.

Die Befürchtung ist, dass Internet-Nutzer die sich nicht für (Sonder)-Angebote "qualifiziert" haben irgendwann ganz von vielen Angeboten ausgeschlossen werden könnten und das müssen nicht nur Konsum-Angebote sein. Wir müssen an dieser Stelle realsieren, dass wir für diese Firmen die unsere Profile erstellen nicht mehr Konsumenten sind, sondern jeder von uns wird zum Produkt. Und wie bei vielen Produkten gibt es einige, die einen höheren Wert zu haben scheinen und denen werden die besseren Angebote gemacht. Und jeder lebt in seiner eigenen virtuellen Blase, die bestimmt wird durch das Profil das diese Firmen von uns gebildet haben. Das wird dadurch bestärkt, dass auch die Nachrichten die jemand im Internet sieht dadurch bestimmt werden, welche Nachrichten die Person früher aufgerufen hat. Den Effekt nennen einige "Leben in einer Internet-Blase" in der man nur das sieht, wofür man sich zu interessieren scheint.

Dass es nicht um die wirklichen Interessen der Nutzer geht, das wird auch bei der Google-Suche deutlich, wo in den Suchergebnissen die Partnerfirmen von Google höher gereiht werden und ebenso die Treffer in Google+ und auf Youtube. Facebook präsentiert die Nachrichten von Werbekunden (oder die privaten Nachrichten die sich auf Produkte beziehen "war gerade bei McDonalds") höher und prominenter als privates (viele Beispiele zeigt der oben verlinkte Artikel "corrupt personalization").

 

 

 

Behavioral Micro Targeting in der Politik - die wilde Story rund um Cambridge Analytica und ihre "psychographic modeling techniques"

März 2018 gibt es eine heftige Aufregung rund um Facebook und Cambridge Analytica. Im Folgenden die Details und was wir daraus lernen.

Rund um die Brexit-Abstimmung und die US-Wahl 2016 hatte die Firma Cambridge Analytica behauptet, dass sie mit ihrer "psychographic modeling techniques" jeweils entscheidend bei der Beeinflussung der Bevölkerung aktiv waren. Die Firma behauptet, dass sie in der Lage sei, für einen signifikanten Teil der Wähler eine so genaue psychologische Analyse zu machen, dass sie genau sagen können, mit welchem Argument diese Person bei der Wahl zu beeinflussen sei.

D.h. Wahlwerbung wird zugeschnitten auf möglichst jede einzelne Person, jeder Wähler bekommt eine eigene "Story" präsentiert, die diesen Wähler überzeugen wird. Oder, oft noch effektiver, die potentiellen Wähler des anderen Kandidaten werden durch entsprechende (nicht immer korrekte) Stories von der Wahl abgehalten. Solche Einschaltungen nennt man heute "dark posts". "Dark" weil sie jeweils nur wenige Personen aus einer bestimmten Zielgruppe sehen, und daher können diese Meldungen auch nicht korrigiert oder richtig gestellt werden. Dies öffnet Tür und Tor für Falschmeldungen, Fake News.

Eines der großen Probleme dieser Dark Posts ist die Tatsache, dass die Öffentlichkeit insgesamt gar nicht mehr mitbekommt, welche (möglicherweise falschen) Botschaften an "die Wähler" kommuniziert werden. Früher, als Wahlbotschaften in der "breiten Öffentlichkeit" veröffentlicht wurden (d.h. in Zeitungen oder im "linearen Fernsehen") da konnten die anderen Parteien auf diese Botschaften eingehen, sie korrigieren, oder ihren eigenen Botschaften gegenüberstellen. Diese "Öffentlichkeit" der Botschaften enfällt durch das Micro Targeting. Dies bedeutet, dass Lügen (z.B. das Hetzen gegen Minderheiten mittels Verbreitung von falschen Nachrichten) die mittels Microtargeting an kleine Zielgruppen verteilt werden kaum eine Chance haben, je aufgedeckt zu werden.

Ob der Wahlsieg durch Micro Targeting in diesem konkreten Fall gelungen ist wird kontrovers diskutiert - aber zumindest wurde es versucht und es wird in jeder weiteren Wahl als Option für die Wahlkämpfer zur Verfügung stehen. Einige halten dies für eine gefährliche Technik und Wahlen zu beeinflussen, andere haben die Behauptungen von Cambridge Analytica als Schaumschlägerei abgetan, wie wichtig ihre Aktivitäten wirklich waren werden wir wohl nie erfahren.

Im März 2018 wird über einen Whistleblower, einen Ex-Mitarbeiter von Cambridge Analytica die Hintergrundgeschichte publik und die ist auch für Facebook ein wenig peinlich: Datenskandal erschüttert Facebook.

Facebook kommt durch diese Geschichte unter zusätzlichen Druck zu den Diskussionen um die russische Wahlbeeinflussung.

Der Vorwurf ist vor allem, dass die Datenabflüsse durch Apps sowohl intern bei Facebook wie auch extern bereits seit Jahren Thema waren. Facebook tut jetzt überrascht, aber Max Schrems erklärt, dass das Thema der unkontrollierten App-Zugriffe bereits 2011 Thema seiner Einreichungen bei der irischen Datenschutzbehörde war. Dies habe der US-Internetkonzern damals "vollkommen legal" gefunden.

Einige ehemalige Manager von Facebook haben zwischenzeitlich aufgegeben: Sandy Parakilas, der 2011 bis 2012 als platform operations manager bei Facebook gearbeitet hatte, erklärte, es sei seine Sorge gewesen, dass all die Daten, die zu App-Entwicklern abfließen, nicht von Facebook kontrolliert wurden. Auch der Sicherheitschef Alex Stamos hatte bereits vor einiger Zeit aufgegeben. Seine Aufgaben wurden Ende 2017 an eine andere Abteilung übergeben und seine direkten Mitarbeiter auf 3 reduziert.

Weiteren Facebook-Managern gruselt es mittlerweile: Bereits 2017 hatte der früher für das Wachstum des sozialen Netzwerks zuständige Manager Chamath Palihapitiya mit der Aussage aufhorchen lassen, dass man ein Werkzeug erschaffen habe, das den sozialen Zusammenhalt der Gesellschaft zerreiße.

Andrew Bosworth, ein Facebook-VP, denkt jetzt, 2018, laut darüber nach, ob Facebook das Datensammeln vielleicht doch übertrieben habe. Er zitiert ein konkretes Beispiel aus 2010 wo sie zum ersten mal realisiert hätten, dass die Facebook-Daten nicht nur für "soziale" Zwecke verwendet, sondern zu Werbezwecken verkauft wurden. Daraufhin wäre die Datenfreizügigkeit eingeschränkt worden (die Default-Einstellung, dass Apps auch auf die Profile der Freunde zugreifen können).

Da bin ich dann über die (angebliche) Naivität des Facebook Managements verwundert. Ich wundere mich, dass Facebook verwundert ist, dass diese große hoch-intime wertvolle Datensammlung die sie selbst intensiv für kommerzielle Werbezwecke meist-bietend anpreisen (siehe voriger Abschnitt), auch bei anderen Unternehmen Begehrlichkeiten erzeugt.

Die Facebook Anhörungen

Und dann kamen die beiden großen Anhörungen von Mark Zuckerberg vor den US-Politikern. Hinter dem Button gibt es eine umfangreiche Analyse des das Facebook von der Welt hat.

"Politik der Gefühle"

Im Falter 12/2018 wird auf den Essay "Politik der Gefühle" von Josef Haslinger referenziert. Er hat bereits 1987 sehr gut beschrieben, was heute bei Wahlen passiert. Früher haben die Kandidaten ihre Positionen publiziert und dann versucht, die Wähler für diese Positionen zu gewinnen.

Heute geht das andersrum: Der Wähler wird analysiert was er denn wohl wünschen würde und dann werden personalisierte Dark posts gezeigt, die möglichst zielgenau auf die Gefühle dieses einen Wählers zugeschnitten sind und mit der Position des Kandidaten nicht viel zu tun haben müssen. (Dark posts, weil niemand anders diese Werbung sieht, d.h. für die anderen Wähler und die Presse unsichtbar. Niemand wird versuchen, diese Aussage zu hinterfragen.

Die Auswertung der momentanen Gefühlslage wird übrigens "sentiment analyse" genannt. Bereits 2016 erklärte Facebook, dass sie pro Sekunde mehr als 6 Mio. solche Bewertungen der Gefühlslage einer Person durchführen.

Hasslinger: "Es ist die Strategie einer prinzipiellen Standpunktlosigkeit. Der Werber bewegt sich selbst, umschmeichelt den Umworbenen, hält ihn in gegebenen Gefühlswelten fest und bestätigt diese."

 

 

 

Von Targeted Advertising zu Targeted Journalismus

Evgeny Morozov bringt in seinem lesenwwerten Buch "To save everything click here" (siehe rechts) einen weiteren sehr guten Grund, warum wir uns gegen die Profilierung im Netz wehren müssen. Profilierung durch Big Data gilt nicht nur für Werbung und Verkaufen, sondern der Journalismus unterliegt mittlerweile den gleichen Gesetzen.

Journalisten werden immer mehr zu Gehilfen, deren einzige Aufgabe es ist, Nutzer auf die Website der Zeitung oder Zeitschrift zu locken. Die Journalisten werden kontinuierlich informiert über die Zahl der Leser die ihr Artikel gebracht hat, die Zahl der Likes, ob der Artikel es nach Twitter geschafft hat, etc. Und sie werden auch danach beurteilt. D.h. die Journalisten werden immer mehr gezwungen, nicht das zu schreiben, was sie den Lesern gern sagen würden, sondern das, was die höchste Zahl von "Eye Balls", von Lesern ergibt, denen dann die Werbung serviert werden kann.

Ganz wichtig ist die Verweildauer der Leser bei einem Artikel. Daher gibt es immer mehr Artikel, die auch eine Slide-Show haben, das hält den Leser.

Aber diese Fokusierung auf die vorgeblichen Interessen des Lesers wird immer weiter gehen. Heute ist bereits die Technologie vorhanden, dass nicht nur die Werbung, sondern auch der redaktionelle Inhalt automatisch dem Profil des jeweiligen Lesers angepasst werden kann. Dafür werden Programme wie Automated Insights oder Narrative Science verwendet. D.h. unterschiedliche Lesers des gleichen Artikels sehen anders fokusierte Inhalte. Wer als politisch-interessiert eingestuft ist, der liest über politische oder humanitäre Aktivitäten eines Prominenten, andere finden im gleichen Artikel eher die Eheprobleme ausgebreitet. Der Leser sieht, was er sehen möchte (oder was der Algorithmus glaubt, dass er sehen möchte). Die Redakteure werden darauf reduziert, attraktive Inhalte für das Zielpublikum zu produzieren, nicht jedoch, dem Publikum wichtige und kritische Themen näher zu bringen. Die politischen und demokratie-fördernden Aufgaben der Journalisten verflüchtigen sich.

 

Auktionen im Hintergrund

Wie sehr jeder von uns zum Produkt wird zeigt sich u.a. auch darin, dass im Hintergrund während wir im Internet surfen Auktionen stattfinden, welche Firma wieviel zu zahlen bereit ist, wenn auf der Seite die wir gerade angefordert haben, eine Anzeige dieser Firma stehen darf. Bei diesen Auktionen sind natürlich die Firmen im Vorteil, die mehr über uns wissen, die z.B. wissen, dass wir gerade auf einer anderen Website (oder ihrer eigenen Website) nach einem bestimmen Service geschaut haben. So etwas wird dann Re-Targeting genannt - das Wiedererkennen eines potentiellen Kunden in einer anderen Umgebung und die gezielte Wieder-Ansprache. Diese Auktionen um den Werbeplatz sind nichts neues, Google "versteigert" ziemlich seit Beginn seiner Aktivitäten den Platz für die bezahlte Werbung auf der rechten Seite der Suchergebnisse meistbietend.

 

Preis-Differenzierung / Behavioural Pricing

Ein anderer Effekt der sich aus der Verwertung dieser Daten ergibt ist die Preisdifferenzierung. Darunter wird verstanden dass unterschiedliche Personen unterschiedliche Preise zahlen müssen. Der (für den Verkäufer) optimale Preis wird aus dem bisherigen Verhalten des Käufers berechnet. In dem Artikel Beängstigend, aber unvermeidlich berichtet der ORF dass Händler immer öfter den im Webshop angezeigten Preis davon abhängig ob sie davon ausgehen, dass der potentielle Kunder ein Schnäppchenjäger ist (z.B. weil der von www.geizhals.at kommt oder weil er bei früheren Käufen positiv auf einen (vermeintlichen?) Rabatt reagiert hat). Oder ob der Kunde bisher immer brav den geforderten Preis gezahlt hat, in diesem Fall bekommt er natürlich kein Sonderangebot angezeigt.

Ein Blick in die nahe Zukunft

Gezielte Werbung werden wir in naher Zukunft nicht nur im Internet finden, sondern auch "im richtigen Leben". Die Hersteller von Infosäulen und Plakatwänden sind bereits dabei, dort Kameras einzubauen, Gesichtserkennung ist bereits heute fortgeschritten genug um dann bei den Passanten nicht nur das Geschlecht und das Alter zu erkennen (und entsprechend zugeschnittene Werbung zu platzieren), sondern auch Personen die vorher eingespeichert wurden, z.B. Stammkunden eines Geschäfts oder eines Lokals.

Juni 2012:
Die Industrie ist der Sache hart auf der Spur und findet heraus, dass Apple-Nutzer beim Hotelzimmer gern etwas mehr zahlen. Hintergrund: der Browser verpetzt bei einem Besuch auf einer Website als erstes mal ganz viel über sein "Herrchen" oder "Frauchen", z.B. das Land, die eingestellte Sprache, aber auch das Betriebssystem. Und da findet orbitz.com durch eine simple Auswertung heraus, dass MacOS Nutzer im Durchschnitt 30% mehr für's Zimmer zahlen. D.h. der kluge Hotelbetreiber bietet solchen Kunden die günstigeren Zimmer gar nicht erste an. Ähnliche Beobachtungen wurden auch in Bezug auf iPad gemacht, gleiche Angebote sind dort oft ein wenig teurer, weil damit die großzügigeren Kunden unterwegs sind.

 

 

 

 

Das Internet als Echokammer - Filterblase, Filter Bubble

Wir haben auf Grund der Möglichkeiten des Internets und konkret der Art, wie das Internet entwickelt hat, eine Krise des Journalismus und dadurch auch eine Krise der Meinungsbildung in der Öffentlichkeit. Das Internet war von seinen Entwicklern und Vordenkern zu einem emanzipatorischen Medium für alle erklärt worden, es ist heute aber eine Medienmaschine für Monopole (zumeist in den USA).

Was Informationen betrifft, so haben es mit einer Spaltung der Öffentlichkeit zu tun. Nur noch ein Teil der Bevölkerung (in der Regel die besser verdienenden) informiert sich noch aus den traditionellen Quellen wie Zeitung und Fernsehen. Der Rest bezieht seine Informationen aus kostenlosen (werbefinanzierten) Zeitungen und vor allem aus Social Networks wie Facebook und Twitter, sowie vielleicht noch über Recherchen in Suchmaschinen.

Dies hat zu einer Krise des Journalismus geführt und die Reaktionen der Zeitungen wie z.B. mehr und mehr Inhalte nur noch gegen Geld (heute noch fast ausschließlich durch ein dauerhaftes Abo) anzubieten, machen die Krise nur noch schlimmer (Natürlich versteht man, dass sie Zeitungen Geld verdienen müssen, aber dies treibt die eine Hälfte der Gesellschaft weiter in die Hände der Social Networks mit ihren News-Aggregationsmaschinen). Joelle Stolz verweist im Standard 2016 auf den von Bernard Poulet in 2009 geprägten Begriff der "Zwei-Klassen-Informationsgesellschaft". Gut aufbereitete und ausgewogene Information verschwinden hinter der Paywall, für den Rest der Bevölkerung gibt es schlechte Informationen oder gefährliche Disinformationen.

Aber was hat das mit unseren Spuren im Internet zu tun?

Auf Grund des mittlerweile dominanten Geschäftsmodell im Internet, nämlich kostenlose Dienste gegen die Bereitschaft gezielte Werbung zu akzeptieren, verbunden mit einer beschränkten Aufnahmemöglichkeit des Nutzer und dem unglaublich detaillierten Wissen über jeden einzelnen Nutzer durch das allgegenwärtige Tracking, versuchen alle diese Informationsanbieter ihre Angebote so gezielt wie möglich auf jede einzelne Person und seine vorgeblichen Interessen zuzuschneiden.

Ergebnis ist, dass jeder genau das sieht, was er eh schon weiß. Ziel ist, keine Verunsicherung zu erzeugen z.B. durch irritierende Artikelüberschriften, die dann doch nicht angeklickt werden, wodurch das Risiko besteht, dass der Nutzer woanders weiter surft.

In der NY Times und an anderen Stellen wird seit 2011 über diesen Echo-Effekt (auch Filterblase oder Filter Bubble genannt) des trackenden Internets berichtet: The Trouble With the Echo Chamber Online. Es geht dabei darum, dass z.B. Suchmaschinen sich merken, auf welche der Ergebniss-Links der Benutzer in den letzten Monaten geklickt hat und daraus herleitet, wofür ein Benutzer sich hauptsächlich interessiert. Wenn dann neue Suchanfragen gestartet werden so bringt die erste Seite nur solche Ergebnisse, die mit den Interessen und Neigungen des Benutzers übereinstimmen.

Ergebnis ist, dass wenn mehrere Leute die identische Suchanfrage stellen sie ganz unterschiedliche Ergebnisse geliefert bekommen und zwar vorwiegend solche, die die eigene Meinung bestätigen. Das heißt der Benutzer bekommt den Eindruck, dass im Internet sowieso alle seiner Meinung sind. Die NY Times berichtet von Tests bei denen in einer Gruppe die Frage "Is Osama really dead?" eingegeben wurde und einer der Teilnehmer hauptsächlich Links auf Verschwörungsseiten bekommen hat. Oder Suchanfragen nach dem Energiemulti BP liefern entweder Verkaufsempfehlungen für Aktien oder sie liefern eine Liste der Skandale in die das Unternehmen verwickelt war, abhängig von früheren Suchanfragen. D.h. eine Information über das, was wirklich im Internet über ein Thema gesagt wird, ist nicht möglich (außer ich fange auf einem neuen Gerät unter einer neuen IP-Adresse ein ganz neues "Internet-Leben" an).

Auch Facebook verteilt ihre Nachrichten an die Nutzer nach deren bisherigen "likes". Facebook weiß ziemlich genau über die politischen und gesellschaftlichen Vorlieben und Einstellungen jedes Nutzers Bescheid. Google beantwortete in 2016 täglich 3,3 Milliarden Suchanfragen, 4,5 Milliarden "Likes" werden täglich über Facebook verteilt. Diese gigantische Informationsmenge über die Nutzer ist der finanzielle Motor des Internets.

Die gleichen Effekte gibt es auf mehr und mehr Websites, z.B. bei Amazon, Netflix, etc. Das Internet ist eine tolle Maschine um die eigene Meinung zu bestätigen (und die eigene Meinung bestätigen zu lassen haben wir wohl alle recht gern).

2016 wird die Filterblase immer mehr zu einem großen Thema, auch weil mehr und mehr Nutzer sich nur noch über ihre Facebook-Timeline informieren und keine anderen Quellen mehr für Informationen nutzen. Dies führt zu abgeschlossenen Welten, auch Filterblase oder Filter-Bubble genannt, in der keine neuen Informationen eindringen können. Ergebnisse sind dann z.B. Hasspostings, das Weiterschicken von Meldungen ohne jede Realität und ähnliches.

2018, nach Brexit-Abstimmung und Trump-Wahl werden diese Themen immer mehr zu einem Forschungsthema. Und dabei gibt es dann auch überraschende Ergebnisse. So wurden in einem Test US-Twitter-Nutzer die entweder republikanische oder demokratische Wähler waren aus ihrer Filterblase herausgeholt, indem man ihnen gezielt auch gegenteilige Positionen zugesendet hat. Die Hoffnung war, dass ihrer Positionen moderater würden. Das Gegenteil war der Fall: durch das Empfangen der konträren Meinungen verfestigten sich die eigenen Positionen.

Ein US-Wissenschaftler, C Thi Nguyen, verfeinert die Analyse indem er 2 Phänomene unterscheidet, die er "echo chamber" und "epistemic bubble" nennt. Die "epistemic bubble" ist harmloser, da geht es darum, dass fast alle Menschen sich in Umgebungen bewegen (entweder physisch oder in Social Networks) in denen die anderen ähnliche Positionen vertreten. D.h. in der "epistemic bubble" hört man die anderen Positionen nicht.

In der "echo chamber" werden die anderen Positionen aktiv diskreditiert, "schlecht geredet". Diese Umgebung ist für die Bildung einer eigenen Meinung deutlich problematischer, die Umgebung wird mit einem Kult verglichen, bei dem die Außenwelt ganz bewusst als feindlich dargestellt wird. Auf der Basis dieser Unterscheidungen beschreibt er (mit vielen Referenzen auf andere Forschungen) die Probleme, Menschen aus der "echo chamber" zu "befreien.

 

 

 

Brexit und die US-Wahl 2016 - Abstimmungen im postfaktischen Zeitalter und Fake-News

Diese Inhalte finden sich jetzt unter Fake News an anderer Stelle.

 

 

 

Die nächste Stufe: Gezieltes Verändern von Gewohnheiten (Nudging)

Ein Artikel in der NY Times vom Frühjahr 2012 berichtet über die Forschungen zum gezielten Verändern (Manipulieren) von Gewohnheiten. Der Autor berichtet über seine Erfahrungen mit Target, einer großen Einzelhandelskette in den USA, wo es zwar von Lebensmitteln bis Möbeln fast alles gibt, aber der klagt, dass die meisten Kunden dort nur hingehen, wenn sie etwas suchen, das sie im gewohnten Lebensmittelladen nicht finden.

Über Kundenkarten, nummerierte Rabatt-Coupons, Kreditkartenzahlungen oder auch das Öffnen eines Werbe-Emails (zur Erklärung siehe hier) bekommt Target einen sehr guten Überblick über das Verhalten vieler Kunden. Sie können diese Informationen auch mit anderen Informationen über das Verhalten dieser Person im Web verknüpfen, dafür gibt es ja die (beim Öffnen des Werbe-Emails wird ein Cookie gesetzt, das die Tracking-Firmen dann auf vielen anderen Websites wieder abrufen können). Über Aktivitäten am Handy bekommt Target den Standort und weitere demographische Informationen über die Wohnadresse lassen sich leicht zukaufen. Mit Hilfe eines Teams von Statistikern kann Target (und jede andere Firma die das möchte) sehr viel über die Kunden lernen.

Jetzt wird es psychologisch: Verhaltensforscher haben (zuerst an Versuchstieren wie Ratten) studiert, wie Gewohnheiten entstehen und wie sie verändert werden können. Eine Gewohnheit beginnt immer mit einem Stimulus, z.B. einem wiederkehrenden Ereignis, einem Geräusch oder einem Zeitpunkt. Dadurch wird eine Routine ausgelöst und am Ende steht eine kleine Belohnung, ein Ziel ist erreicht. Ohne diese Aufteilung des Tagesablaufs in solche Routinen wäre unser Leben erheblich anstrengender - so fahren wir jeden Morgen an die Arbeit, oft ohne am Ende genau zu wissen, was dabei im Detail passiert ist.

Auch das Einkaufen ist eine solche Routine. Die Einkaufsroutinen sind stabil, aber es gibt einige Zeitpunkte im Leben, wo sie sich oft verändern. Dazu gehört das Zusammenziehen mit einem Partner, die Trennung von einem Partner und auch die Geburt eines Kindes. Wie der oben verlinkte NY Times Artikel aufzeigt hatte Target ihren Statistikern die Aufgabe gestellt, dass sie die Schwangerschaft einer Frau an Hand der Verhaltensdaten so früh wie möglich sicher erkennen sollten. Der Artikel erklärt, wie das gemacht wird: Die Analyse-Computer von Target erkennen in ihren Daten subtile Veränderungen z.B. auf einmal nur noch unparfümierte Creme gekauft werden, oder bestimmte Nahrungsergänzungsstoffe. Je mehr Daten vorliegen (z.B. auch darüber welche Websites besucht und welche Bücher gekauft werden) so kann der Schwangerschaftsmonat mit einer recht guten Genauigkeit bestimmt werden.

Jetzt (2016) werden Schwangerschaften auch noch auf andere Weise öffentlich, bevor die engeren Betroffenen das wissen: Husband learns wife is pregnant from her Fitbit data. Der Ehemann hatte den erhöhten Puls seiner Frau bemerkt und im Internet auf Reddit diskutiert weil er einen technischen Fehler vermutet hatte. Einer der anderen Teilnehmer in seiner Diskussionsgruppe hat dann auf Schwangerschaft getippt und ein Test hat diese auch bestätigt. An anderer Stelle mehr zu Self-Tracking.

Die Verhaltensmodifikation wird dann darüber versucht, dass die Kundin in ihrer Post "zufällig" Coupons findet die genau zum Stadium ihrer Schwangerschaft passen. Das ganze war dann irgendwann so exakt, dass es einigen aufmerksamen Kundinnen gespenstisch vorkam. Aber auch das lies sich lösen: Target fügt jetzt immer einige Coupons dabei, die auf keinen Fall zum Lebensstil der jeweiligen Kunden passen, so dass diese den Eindruck bekommen, die Auswahl der Rabatt-Coupons wäre zufällig. Die Details finden sich im NY Times Artikel.

Juni 2012:
Der Artikel E-Tailer Customization: Convenient or Creepy? beschreibt den Umfang dieser Aktivitäten in 2012:

    Half of the largest online retailers in the United States used some personalization techniques last year, compared with about 33 percent the year before, according to Internet Retailer's Top 500 Guide. And e-tailers are turning to a handful of specialty software companies like PredictiveIntent, RichRelevance, MyBuys and Monetate to help them analyze customer data and segment their audiences for special treatment.

Der Artikel verweist auch darauf, dass heute mittlerweile der Begriff uncanny valley dafür verwendet wird, zur Beschreibung des Effekts verwendet wird, so es den Benutzern zu gruseln beginnt weil die Werbung zu exakt die Interessen wiederspiegelt. Ein Beispiel dafür ist die etwas weiter oben erwähnte "Schwangerschaftsbestimmung" durch Analyse des Verkaufsverhaltens.

Sept. 2014:
Eine Wissenschaftlerin die sich mit solchen Themen beschäftigt hat im Selbstversuch versucht, ihre Schwangerschaft vor den mächtigen Firmen im Internet geheim zu halten. Sie berichtet ausführlich davon, wie schwer das im Detail war (z.B. musste sie alle ihre Freunde davon abhalten, in Facebook oder anderen Social Networks Kommentare dazu abzugeben). Außerdem haben sie vermieden, ihre Kreditkarten bei Online-Käufen zu nutzen, und dann wird es schwierig. Durch die Nutzung einer großen Zahl von Pre-Paid Kreditkarten waren sie in Verdacht der Geldwäsche gekommen. Im Interview erkärt sie, dass diese Methoden einer normalen Person heute nicht mehr zumutbar sind, d.h. es gibt kein effektives Verstecken vor den "Data Minern".

 

 

 

 

Wie verbreitet ist eigentlich Tracking und wie genau funktioniert das: Die Tracking-Studie des EFF in 2019

Ende 2019 veröffentlicht die Electronic Frontier Foundation (EFF) eine sehr ausführliche Studie über die aktuellen technischen und geschäftlichen Details des allgegenwärtigen Trackings im Internet (Leider 2023 immer noch aktuell): Behind the One-Way Mirror: A Deep Dive Into the Technology of Corporate Surveillance. Das ist ein sehr gut erklärte, reichlich bebilderte Beschreibung des gesamten technischen Geschäftsmodell unserer Überwachung und Lenkung. Der Gesamttext ist sehr empfehlenswert für alle, die tiefer in das Thema Datenhandel und Tracking einsteigen möchten.

Man kann folgende Gruppen von Datensammlern unterscheiden:

  • Ortsdaten entstehen bei allen WLAN Punkten an denen man mit aktivem Handy vorbei geht, egal ob man sich verbindet oder nicht. Dies sind z.B. Geschäfte die man besucht oder auch nur vorbei geht, aber auch alle anderen öffentlichen oder privaten WLANs. Nach europäischen Regeln (Datenschutzgrundverordnung) dürfen diese Daten nicht verkauft werden, aber Geschäfte dürfen sie (mehr oder weniger legal) für eigene Zwecke verwenden, z.B. um zu sehen, wie viele Personen zu welcher Zeit in welchem Teil des Geschäfts sind
  • Ortsdaten entstehen auch bei allen Handynetzbetreibern, aber in Europa dürfen sie die Daten nicht weiterverkaufen oder anderweitig verwerten. Mehr zu der Brisanz von Ortsdaten an anderer Stelle.
  • Social Networks und andere kostenlose Dienste, vor allem Google (Mail, Maps, Docs, Android), Twitter, Facebook, Instagram, Whatsapp. Sie sammeln diese Daten für sich selbst, verkaufen nur indirekt (z.B. indem sie Klassen bilden und gezielte Werbung für diese Klassen ermöglichen. Die Firma die die Werbung schaltet erfährt (normalerweise) nicht, an wen die Werbung ging - Ausnahme: DoubleVerify). Social Networks sammeln auch auf anderen Websites mit Hilfe der Share- oder Like-Button
  • (fast) alle kostenlosen, anzeigenfinanzierten Webseiten, z.B. Zeitungen, oder viele andere. Diese websites wollen wissen, was beliebte Themen auf ihren Seiten sind (das ist soweit erst mal legitim). Auf diesen Seiten sind aber auch bis zu 100 3rd party Tracker eingebunden, die Daten sammeln um gezielte Werbung platzieren zu können und mehr über die Interessen der Websurfer zu lernen. Damit verkaufen diese Zeitungswebsites die Daten ihrer Besucher auf eine indirekte Weise an die Werbeunternehmen (z.B. Google, Adobe und viele kleine andere). Dadurch, dass diese Firmen ihre Tracker auf möglichst vielen Seiten haben bekommen sie einen guten Überblick über die Besucher der Webseiten. Mit Hilfe von Advertising IDs (auf Smartphones) und anderen Tricks können die Nutzer zwischen Websites weiterverfolgt werden. Welche Werbung wir auf einer Website sehen wird durch superschnelle Auktionen bestimmt, bei denen die Firmen die Werbung schalten wollen pseudonyme Daten der Menschen, denen die Werbung gezeigt werden soll bekommen. Die Firma der Werbung für diesen Nutzer am meisten Wert ist, gewinnt und darf dann ihre Werbung platzieren und dabei aus dem Browser alles auslesen, was dort gespeichert ist. Aber auch schon bei der Auktion werden pseudonyme Daten an alle Firmen übermittelt, die mitbieten wollen
  • Fast alle Apps (vor allem kostenlose) sammeln mit Hilfe von sog. SDKs (Software-Entwicklungstools) von Google Analytics oder Facebook so viele Daten wie sie nur können. Das ist sogar in Europa legal, weil der Nutzer ja diesem Weiterverkauf auch der Standortdaten in den (nicht gelesenen) Geschäftsbedingungen zugestimmt hat. An anderer Stelle mehr zu App-Entwicklern
  • Und dann gibt es noch wirkliche explizite Datenhändler, in Europa, z.B. Schufa, KSV, Herold, Post. Sie kaufen Daten aus unterschiedlichen Quellen und bieten sie ihren Kunden zum Zwecke von Werbung oder im Fall der Kreditwürdigkeitsfirmen den Banken und Händlern zur Einschätzung ihrer Kunden an. Dies ist in Europa streng reguliert und daher auch legal.

Noch einige interessante Detailpunkte aus der Studie:

Bei unseren Besuchen auf Webseiten wird gesammelt, für was genau wir uns dort interessiert haben. Diese Daten gehen über sog. Tracker (Software die in die Webseiten eingebunden wird, bis zu 100 Stück auf einigen Webseiten) an eine große Zahl von interessierten Firmen. Diese Firmen sind nicht die werbenden Firmen selbst, sondern Advertising-Networks, die für die Werbetreibenden die Daten sammeln und an den superschnellen Auktionen teilnehmen. Die Daten von den besuchten Websites, zusammengeführt und angereichert durch die Advertising Networks enthalten implizit unsere politische und religiöse Ausrichtung, die sexuelle Orientierung (das lässt sich aus besuchten Websites recht sicher bestimmen) plus ethnischer Hintergrund, Ausbildungsstand, finanzielle Situation, Einkaufsgewohnheiten, physische und körperliche Gesundheit.

Dabei ist es egal, ob zu diesen Daten der korrekte Name bekannt ist, der ist für gezielte Werbung nicht notwendig, es reicht ein Pseudonym das mit einer Person / einem Gerät verknüpft ist. Es ist auch egal, ob die Daten 100% stimmen, Fehler sind zumeist nur lästig, manchmal auch zum Nachteil des Kunden (z.B. bei Kreditwürdigkeit). Es werden mehr oder weniger grobe Klassen gebildet die zum Teil tief in die Persönlichkeit gehen (Selbstmordrisiko, fühlt sich unsicher, minderwertig, Interesse an Homosexualität).

Sog. third-party data broker = "data management platforms" (DMPs) liefern auf der Basis der Pseudonyme weitere Daten. Die Werbetreibenden (oder die Advertisting Networks) können eine pseudonyme User ID mit Data Broker-Firmen teilen und erhalten dann wiederum "angereicherte" weitere Detail-Daten ("cookie syncing"). Auf diese Weise erfahren die Datensammler, dass der Nutzer "abc" von Googles Doubleclick der gleiche Mensch ist wie der Nutzer "xyz" bei einem anderen Advertising Network.

Große Firmen wie Amazon, Google und Facebook gewinnen Daten auf noch direktere Weise: Sie kaufen einfach Firmen auf, die interessante Daten gesammelt haben. Google kaufte in 2019 fitbit mit ihren detaillierten Gesundheitsdaten und seit Bestehen 214 weitere Firmen. Facebook kaufte 67 Firmen seit Bestehen, Amazon 91.

Data broker kaufen Daten von vielen kleinen Firmen (die großen verkaufen ihre Daten nicht). Data Broker kaufen von Händlern oder Handelsketten mit Kunden-/Treue-Karten, App-Entwicklern, Hersteller von Internet of Things Geräten, Automobilkonzernen und allen anderen Datenanbietern (in Europa sind das die Firmen oder Institutionen bei denen man im Kleingedruckten des Vertrags unterschrieben hat, dass "Daten an Partnerunternehmen weitergegeben werden dürfen"). Dabei scheint es kaum ethische Grenzen zu geben: Auch Websites, die als Thema 'psychische Probleme' haben "verkaufen" die sehr brisanten Daten ihrer Nutzer. Die Untersuchung aus 2019 fand auf Websites in Deutschland, Frankreich und Großbritannien die bereits erwähnten Tracker von Google, Facebook, Amazon und anderen. Auf diese Weise verkaufen die Websites indirekt ihre Nutzer. Weiter unten beschreibe ich, wie man sich durch Blocking Tools im Browser zumindest teilweise vor Trackern schützen kann.

Facebook bietet noch eine Feature: 'look-alike audiences'. Der Werbetreibende kann einen Facebook Tracker (unsichtbares Pixel) auf seiner eigenen Website einbauen und dann Facebook bitten, die Werbung bei allen Facebook-Nutzern zu platzieren, die von Facebook ähnlich zu den Besuchern der Website eingestuft werden. Diese können auf diese Weise auch auf die Website des Werbetreibenden gelockt werden.

Location Daten, die an vielen Stellen anfallen, gehören zu den wertvollsten Daten, da die Aufenthaltsorte viel über unsere Vorlieben, Gewohnheiten, Eigenheiten und sogar Persönlichkeit aussagen. Fast alle Apps und oft auch Websites versuchen diese zu sammeln wo immer sie können. Solche Daten sind nie wirklich anonym (Arbeitsort + Schlafort). Darin sind auch sensible Daten wie Besuch in spezifischen Kirchen oder Kliniken, auch die werden verkauft. Zum Glück für die Datensammler wissen unsere Smartphones selbst dann wo wir gerade sind, wenn GPS ausgeschaltet (oder gar nicht verbaut ist). Dies geschieht über die Liste der WLAN-Zugangspunkte die ein Gerät gerade "sieht".

 

 

 

Spuren beim Webmaster / Website-Betreiber

Irgendwo muss ich anfangen, also warum nicht gleich mit der obigen Geschichte von der katholischen Organisation. Wenn jemand eine Website betreibt (wie z.B. ich und der oben erwähnte Blogger), dann protokolliert der Webserver jeden Zugriff von außen (d.h. der Rechner der unter der Adresse 'sicherheitskultur.at' erreicht wird - im Fall der sicherheitskultur.at ist das ein Server in Deutschland auf dem sehr sehr viele Websites gleichzeitig betrieben werden). Diese Protokoll-Daten sind u.a.: Datum und Uhrzeit, IP-Adresse des Surfers, welche Seite oder welche Graphik aufgerufen wurde, ob dies gelungen ist (es könnte ja auch eine Tippfehler im Aufruf sein), aber auch ob der Aufruf über einen Link einer anderen Website kommt, z.B. von Google oder einer anderen Suchmaschine. Das ist für den Webmaster interessant, er sieht dann, wieviel Traffic/Verkehr von jeder der Suchmaschinen kommt.

Google ist sogar noch netter, sie melden sogar, welchen Suchbegriff der Surfer eingegeben hat. Da kommen oft sehr interessante, oft lustige Sachen raus. Das ist der Hintergrund der obigen Geschichte. Vermeiden kann der Surfer dies, indem er in der Auflistung der Fundstellen nicht einfach auf den fettgedruckten Titel klickt, sondern über Copy und Paste die URL selbst (die Internet-Adresse) übernimmt und selbst in ein anderes Browserfenster einträgt. Jetzt bekommt der Webmaster immer noch die IP-Adresse seines Gasts, aber er weiß nicht mehr, von welcher anderen Website dieser gerade kam (referrer).

Ein bei den Webmastern recht populäres System für die Analyse der Anfragen bei der eigenen Website ist das public-domain Tool Piwik. Ein weiteres ist der Webalizer. Sehr viele Webmaster benutzen aber das (zumindest für kleinere Websites) kostenlose Google Analytics. Das ist aus Datenschutzsicht nicht so toll, weil dabei die Analyse in den USA stattfindet und Google ist nicht dafür bekannt, dass sie Daten, die sie einmal haben, wieder löschen. Nach Druck von europäischen Datenschützern findet seit einigen Jahren zumindest eine vorsichtige Anonymisierung der IP-Adressen statt. Aber Analytics-Lösungen auf der Website selbst, oder zumindest in Europa sind vom Datenschutz her deutlich besser.

 

Für die Fortgeschrittene:
Wie kann ich mich gegen die Preisgabe der IP-Adresse schützen?
Dies geschieht durch Nutzung eines Anonymizers wie AN.ON oder TOR. Die Installation ist recht einfach und auch für den Laien machbar. Erreicht wird dabei aber keine Vertraulichkeit der Daten, sondern nur eine Verschleierung der IP-Adresse. Dies wird spätestens 2007 sehr deutlich offen gelegt, wo jemand mittels TOR Passworte ausgespäht hat, was wohl ein beliebter "Sport für Geheimdienste ist". (Viel mehr Details zu TOR an anderer Stelle)

Anonymisierung verhindert nicht, dass die Daten auf dem Weg durchs Internet ausgelesen werden können (einschließlich z.B. unverschlüsselter Passworte) sondern das verschleiert nur die IP-Adresse. Um die Inhalte der Übertragungen zu schützen müssen die Daten verschlüsselt übertragen werden, z.B. durch die Nutzung des Protokolls HTTPS statt des normalen HTTP, sofern der Webserver diesen Verschlüsselungsservice nutzt), was aber trotzdem ein Auslesen der beiden IP-Adressen von Sender und Empfänger preis gibt, die sog. Verkehrsdaten (mehr dazu später). Für den vertraulichen Austausch von Dateien oder E-Mails (die auch beim Provider nicht gelesen werden können) empfiehlt sich z.B. explizite Verschlüsselung mit PGP oder die Nutzung eines end-to-end verschlüsselnden Messengers, z.B. Signal.

Natürlich ist auch die Position richtig, die hier 2016 in einem Vortrag präsentiert wird: Wer explizite Verschlüsselungen wie PGP ohne den Anonymisierungdienst TOR nutzt, der ist für die Abhörer deutlich sichtbar, auch wenn sie nicht an die Inhalte kommen. Wer anderseits PGP nicht nutzt um nicht aufzufallen, der hat sich schon an die Überwachungsgesellschaft angepasst, die Überwacher sind ihrem Ziel wieder einen Schritt näher.

Anonymisierung verhindert überigens auch nicht, dass Betreiber der Ziel-Websites durch die Nutzung von Cookies oder Webpixels oder über einen Dienst wie Google Analytics Benutzerprofile anlegen können (siehe unten).

So ein Anonymisierungsservice wäre ideal für Musik-Downloader, weil diese zumeist über ihre IP-Adresse identifiziert werden, aber solch ein Service verlangsamt den Datenaustausch erheblich und damit vergeht die Freude am Austausch großer Datenmengen wie raubkopierten Filmen.

Die IP-Adresse

Auf jeden Fall hat der Webmaster die IP-Adresse. Mittels des Whois Systems oder hier über die IKS GmbH kann der Webmaster dann herausfinden, wer diesen bestimmten Block von IP-Adressen angemeldet hat. (Was er damit über Sie lernt, das finden Sie heraus, wenn Sie diese Anfrage mit Ihrer eigenen IP-Adresse durchführen. Wie sie diese finden, steht etwas weiter unten. Und hier finden Sie weitere DNS- und IP-Abfragemöglichkeiten - DNS = Domain Name System, die Verwaltung der "lesbaren" Adressen im Internet wie "hotmail.com").

Auf diese Weise kommt der oben erwähnte Webmaster zum o.g. katholischen Arbeitgeber. Den einzelnen Computer dort kann er nicht identifizieren, denn ziemlich sicher stehen diese alle hinter einer Firewall, die mit einer einzigen IP-Adresse im Internet kommuniziert. Trotzdem ließe sich der einzelne Computer identifizieren, denn der Firewall schreibt eine sog. Logdatei (ein Protokoll) und dort steht, welcher der internen Computer im welche Uhrzeit auf welche Internet-Adresse zugegriffen hat. Dies gilt für alle Firmen, d.h. der Administrator im Unternehmen kann durch Einsicht in den Logfile sehen, wer auf welche Website geht - er kann, darf aber (eigentlich) nicht, die Details sollte eine entsprechende Betriebsvereinbarung regeln (existiert aber sehr oft nicht).

Auch Ihr Computer hat eine (im Falle einer Modem-Einwahl oder bei xDSL zumeist nur tempopräre) IP-Adresse. Diese wird zum Webserver durchgereicht und dort protokolliert. Wenn der Webmaster nachforscht, so kommt er über Whois nur bis zum Internet-Provider. Legal kommt man dort nicht weiter, außer man hat einen richterlichen Beschluss, dann schaut der Provider im Log nach (in dem vermerkt ist, wer wann mit welcher IP-Adresse aktiv war) und gibt den Namen und die Anschrift das Kunden raus. Wer von der Uni aus surft, bei dem ist es wie in einer Firma: im Firewall oder im Proxy Log wird eine entsprechende Zuordnung zum Benutzernamen oder zum genutzten PC gemacht. Auch das ist nachvollziehbar. Wer im Internet-Café surft, bei dem enden die Nachforschungen dann dort. Manchmal nutzen die jedoch Webcams und zeichnen auf, wer wann an welchem PC gesessen hat.

Wie finde ich heraus, unter welcher IP-Adresse ich eigentlich im Netz aufscheine?
Die IP-Adresse, die ich über "Eigenschaften" bei den Netzwerkeinstellungen finde oder die mir "ipconfig" im Command-Fenster gibt, ist nicht immer meine externe Adresse, z.B. wenn ich hinter einem externen Fiewall bin, z.B. als Teil meiner WLAN-Installation. Ein einfacher Weg um die wirkliche externe Adresse zu finden ist die Nutzung dieses Services Utrace.de oder ip-check.info. Die so gefundene Adresse (im Format xxx.xxx.xxx.xxx) kann man dann in die diversen, hier beschriebenen Tools einsetzen. Noch einfacher ist natürlich wenn Sie einfach ein wenig tiefer schauen, dort wird ihre IP-Adresse und ihr Wohnort angezeigt.

 

Ein Beispiel für die Nutzung der IP-Adresse: Besucher beim Bundeskriminalamt in Deutschland
heise.de berichtet von einem Beispiel der Nutzung der IP-Adresse für die Fahnung. Das BKA hat einige Fälle aufklären können weil die Täter sich auf der Website des BKA über den Fahndungsfortschritt informieren wollten.

 

Was verrät ihr Browser über ihre Installation?

Hier einige Website die das für sie anzeigen: Com! Magazin und ip-check.info.

 

grafik von Zugriffsstatistik
Eine typische Zusammenfassung von Zugriffsstatistiken

Nutzungsstatistiken

Daten die routinemäßig beim Betreiber einer Website anfallen enthalten aber noch mehr Informationen als ihre IP-Adresse und ihr Web-Browser. Da ist z.B. der Referrer, d.h. die Webseite auf der der Surfer gerade vorher war und von der er auf die jeweilige Website "geschickt" wurde. Es werden aber auch die Suchworte übermittelt unter denen diese Website gefunden wurden (Google liefert in dem Verweis auf die Website gleich diese Suchworte mit).

Alle diese so übermittelten Daten werden von kostenlos verfügbaren Programmen wie Webalizer ausgewertet und graphisch dargestellt. Da finden sich dann z.B. Details wie "Detailierte Analyse der letzten 20 Besucher". Dort findet sich die oben erwähnte IP-Adresse, die z.B. aussagt, von welcher Firma aus gesurft wurde.

grafik mit Suchanfragentexten
Darstellung der häufigsten Suchanfragen - für den Betreiber ist jedoch auch eine Auswertung für einzelne IP-Adressen möglich. Viel mehr zum Thema Website-Analyse weiter unten - Stichwort Analytics

Wie solche Nutzerstatistiken dann gezielt ausgenutzt werden können zeigt diese Veröffentlichung auf Wikileaks zum BND. Nachdem Adressbereiche des deutschen Bundesnachrichtendienstes veröffentlicht waren, wurden diese Adressen in Google gesucht und auf diese Weise sieht man dann, dass von einer dieser Adressen auf die Website eines Berliner Escort-Service zugegriffen wurde, dienstlich oder privat, das bleibt offen.

 

Februar 2008: Ein Artikel in heise.de berichtet aus Deutschland, dass dort in einer seit März 2007 geltenden Regelung im Telemediengesetz (TMG) Betreiber von Internetdiensten keine personenbezogenen Daten auf Vorrat speichern dürfen. Anlass für den Artikel war eine kräftige Strafandrohung für das Innenministerium für den Fall, dass es die nun eingestellte Praxis der Löschung der IP-Adressen nicht einhält.

Im Xamit Datenschutzbarometer 2008 (pdf) wird aufgezeigt, dass die allermeisten Websitebetreiber sich wenig um Datenschutzregeln scheren und weit mehr Daten sammeln (lassen) als sie zugeben. Die Aktualisierung im Datenschutzbarometer 2009 zeigt, dass sich die Lage in 2009 weiter verschlechtert hat. Der Anteil der Websites die gegen Datenschutzbestimmungen verstoßen ist um 11% gestiegen.

Oktober 2011:
Im Zusammenhang mit den Klagen von Max Schrems gegen Facebook in Irland erscheint dieser Artikel im Guardian, in dem sehr detailliert aufgezählt wird, was Facebook so alles aufhebt (als Beispiel für andere manische Datensammler), z.B. jede Einladung die jemand gesendet oder empfangen hat, egal ob angenommen oder nicht, und auch dann, wenn der Benutzer Daten ausdrücklich gelöscht hat.

An anderer Stelle beschreibe ich die Unmöglichkeit einer wirklichen Anonymisierung von Daten.

 

 

 

Spezialfall Suchmaschinen

Aber es gibt ja auch noch andere Tricks. Google kennt von vielen seiner Nutzer (z.B. den gmail-Kunden und den Menschen, die ihre übrigen Services nutzen und sich dafür registriert haben) nicht nur die IP-Adresse, sondern viel mehr. D.h. wenn die Suchmaschine von Google die IP-Adresse bekommt, dann braucht diese nur in der Kundendatenbank nachgeschlagen zu werden und schon ist der Suchbegriff mit dem Namen verbunden. Und hier ist beschrieben, was Google noch alles tut.

Hier noch eine Geschichte über AOL, die aufzeigt, wie selbst sauber anonymisierte Protokolle von Suchanfragen zu einem Verlust an Privatsphäre führen können. AOL hatte, um Wissenschaftlern zu helfen, auf einer speziellen Website 20 Millionen Suchanfragen von 657 000 Kunden zur Verfügung gestellt, und zwar in anonymer Form. Die Anfragen sind nach Kunden geordnet, aber IP-Adresse und Name des Kunden wurden durch Nummern ersetzt. Diese Daten sind mittlerweile ausgewertet worden und sie bieten einen guten Überblick, was einzelne Personen so alles gesucht haben. Die erste der Personen ist mittlerweile auch bereits identifiziert und von der Presse angesprochen worden. AOL hat zwar die Website mit den Daten gesperrt, die Liste kursiert jetzt im Internet und es gibt eine Website, wo jedermann in den Daten stöbern kann.

 

März 2008:
Die NY Times beauftragt comScore mit einer Studie, welches Unternehmen die meisten "Datenkontakte" hat. Damit meinen sie Ereignisse wie "Benutzer ruft eine bestimmte Webseite auf (mit bestimmten Inhalten)", "Benutzer tippt eine Suchanfrage ein", "Benutzer sieht eine Werbung (statisch oder als Video), entweder auf der Website selbst oder auf einer Website, deren Werbeeinblendungen von dieser Firma sind". Dabei ergeben sich die hier dargestellten Rankings. Es zeigt sich, dass die Firmen Yahoo, Google, Time Warner, MySpace die führenden Firmen sind, wenn es um die Möglichkeiten geht, Informationen über das Verhalten von Internetnutzern zu sammeln (und Yahoo hat einen sehr deutlichen Abstand). Und die "alten" Medienfirmen wie die New York Times, die Wochenzeitschriften von CondéNast und auch Amazon, Wikipedia und eBay weit abgeschlagen sind, wenn es darum geht, ganz gezielte zielgruppenorientierte Anzeigen zu verkaufen, weil sie einfach nicht genügend über ihre Nutzer wissen. Dieses Wissen entsteht für die Marktführer durch die breite Kombination mehrerer Angebote (und dabei sind Informationen, die Google durch das inhaltliche Auswerten der Gmail-E-Mails bekommt und die Inhalte in den Profilen auf MySpace und Facebook noch gar nicht mit eingerechnet worden).

 

Gezielte Werbung und Benutzerprofile

Ein Vorschlag der Network Advertising Initiative, einer Organisation von Online Werbefirmen, zeigt wie fein die Benutzerprofile aufgebaut werden. So schlagen sie vor, dass es keine Kategorien für AIDS, Krebs und Erektionsstörungen geben soll (damit der Benutzer nicht ständig an dieses Problem erinnert wird), ebenso für psychische Erkrankungen, Abtreibungen und sexuelle Ausrichtungen wie homosexuell, lesbisch, bisexuell, etc.). Auch Opfer von Verbrechen, z.B. Vergewaltigung sollen nicht gezielt beworben werden. Parkinson, Herzschwäche und Warzen sind aber sehr wohl als Kategorien auch für die Firmenmitglieder der Organisation möglich. Ebenso Abhängigkeiten, kriminelle Vorgeschichte, Tod von Angehörigen, Behinderungen, politische oder relgiöse Anschaungen oder Interesse für Gewerkschaftsthemen.

Was dies für mich zeigt ist, wie fein und gezielt wir heute, bzw. in naher Zukunft beworben werden. Sehen kann man das spätestens 2017, als publik wird, wie gezielt in Facebook und anderswo Zielgruppen angesprochen werden können.

 

Die Google Suchprotokolle

Die Personalized Search History kann laut Google auch deaktiviert werden. Hier der Link dafür: Personalisierung anhand des Suchverlaufs deaktivieren. Das funktioniert sowohl für Suchen mit Anmeldung und auch Suchen ohne Anmeldung. Google hat aber weiterhin ihre Search-History. Diese kann man aber angeblich editieren, d.h. Einträge löschen: Seiten aus Ihrem Webprotokoll entfernen. Dafür muss ich aber mit einem Google-Account eingelogt sein. Und angeblich gibt es auch "Gesamtes Webprotokoll entfernen". Das erscheint aber bei mir nicht, da ich die History wohl de-aktiviert habe.

 

 

 

Die Tracking-Funktionalität des Like- / Gefällt mir-Buttons

März 2011: Facebook hat gerade die Funktionalität des Like / Gefällt-mir Buttons deutlich erweitert. Der Button setzt jetzt bereits durch seine blose Anwesenheit auf einer Website einen Tracking-Cookie bei allen Besuchern der Website, egal ob Facebook-User oder nicht. Dies gibt Facebook noch weit mehr Hintergrund-Informationen über ihre Benutzer und auch Informationen über Nicht-Nutzer.

heise.de berichtet Was Facebooks Gefällt-Mir-Buttons verraten. Der Artikel ist sehr informativ, zeigt, was die reine Anwesenheit des Buttons auf einer Website bereits tut und zeigt auch einen Weg für Webmaster die die Privatsphäre ihrer Kunden respektieren möchten, wie sie die Funktionalität trotzdem anbieten können (wenn auch einen kleinen Schritt umständlicher, aber dafür fair für alle Besucher).

Dez. 2011:
Hier jetzt ein Artikel zur Problematik der Like-Buttons von Facebook, die beim reinen Betrachten einer Seite ohne dass man Like gedrückt hat, bereits ein Surfprofil erstellen: Facebooks Schutzbehauptung. Zitat:

    ". . . eine Beschreibung des Grundproblems: Wenn ich eine Spiegel-Seite aufrufe oder die Fan-Seite von Hannover 96 oder irgendeine andere Seite mit Facebook-Elementen, bekommt Facebook die Information, dass ich, Jürgen Schmidt, diese konkrete Seite gelesen habe. Da Facebook-Buttons quasi omnipräsent sind, kann Facebook eine komplette Liste aller Websites erstellen, die ich besuche und diese mit meiner Person verknüpfen - einer Person, deren Namen, Adresse, Vorlieben und Freunde es kennt".

Und dann gibt es einen Verweis auf Spiegel und einen Artikel zum Identitäts-Cookie: Facebook rechtfertigt seine Datensammelei. Facebook 'versichert auf SPIEGEL ONLINE: "Die Informationen über Seitenbesuche - ganz gleich ob bei eingeloggten oder nicht-eingeloggten Nutzern - werden nicht fürs Werbetargeting verwendet. Wir nutzen diese Informationen nur für die Sicherheit."

So geht's übrigens richtig, wenn ein Website-Betreiber den Datenschutz respektieren möchte: 2 Klicks für mehr Datenschutz. Mit dem ersten Klick bestätigt der Benutzer, dass er zu Facebook möchte und erst dann wird der aktive Like-Button mit seinen Javascript Tricks gezeigt.

Ein weiteres Problem ist, dass viele Website propagieren, doch ständig bei ihnen eingeloggt zu bleiben, weil das so bequem ist. Dadurch kann die Website noch kontinuierlicher Daten sammeln. Ob man irgendwo eingeloggt ist (obwohl man sich dessen nicht bewusst ist), das zeigt robinlinus. So wie diese Website zeigen kann, wo der Nutzer sonst noch eingeloggt ist, so kann jede andere Website das auch.

 

 

 

Geolocation Dienste

Noch ein Trick, den viele Websites nutzen, wenn sie wissen möchten, wo sich ihre Nutzer aufhalten: es gibt sog. Geolocation Dienste. Diese nehmen eine IP-Adresse und geben mit einer Sicherheit zwischen 70% und 90% die Standort-Daten für diesen Rechner an (geographische Länge und Breite, aber auch Stadt, Bundesland, Staat).

Die Treffsicherheit ist sehr unterschiedlich. Wer über den zentralen Zugangsknoten der Firma surft, scheint auch unter dessen Standort auf. Genutzt werden diese Dienste für Marketingzwecke, da kommt es auf einer Fehlerrate von 30% nicht an, sog. "Streuverluste" sind einkalkuliert. Auf diese Weise kommen dann manchmal Angebote wie "Heiße Dates in Herbergsburg" zustande.

Wenn man mehrere dieser Services testet (siehe Box rechts), dann merkt man, dass dies keine exakte Wissenschaft ist. Manche liefern korrekte Ergebnisse, andere liegen ziemlich daneben. Der Ort, der dort gemeldet wird, das ist der Ort, in dem der Internet-Anbieter in das allgemeine Internet überleitet, speziell bei Handys ist das oft ein zentraler Ort für eine große Region oder das ganze Land.

Wenn es um das Platzieren von Werbung geht, ist das kein Problem. Wenn auf Grund dieser Daten andere Entscheidungen getroffen werden (Services, die an bestimmten Orten gesperrt sind), so sind solche fehlerbehafteten Angaben problematischer.

 

Veröffentlichung des eigenen Standorts und Wohnorts über Photos-Uploads

Dies ist potentiell noch dramatischer in den Auswirkungen: Mehr und mehr Smartphones haben auch GPS und speichern den Aufnahmeort in den Meta-Daten von Photos (EXIF-Daten) oder Videos. Wenn diese Fotos dann ins Internet gestellt werden (z.B. über Flickr, oder auf Twitter) und sie eine heimische Idylle zeigen, so ist auch klar klar, wo man selbst und die Kinder zu finden sind. Und wenn im Tweet noch steht, das ich gerade in Urlaub fahre, so ist das eine nette Einladung.

 

Mai 2011:
So eine Datenweitergabe der Standorte kann wirklich drastische Auswirkungen haben: In Weißrussland werden Oppositionelle nach der Auswertung von Handydaten durch die Polizei verhaftet

 

 

 

Cookies, Flash Cookies, Webpixel, (Google-)Analytics und andere Tracking Tools

Betreiber kommerzieller Websites, speziell wenn sie mit Werbung Geld verdienen (müssen), möchten möglichst viel über ihre Besucher wissen, damit die Werbung gezielt platziert werden kann. Dafür wertet Google die Inhalte der Privatmails auf gmail.com aus, Amazon wertet aus, welche Bücher sich jeder Besucher über die Jahre so angeschaut hat, andere Websites schauen, von welchen anderen Websites die Benutzer kommen.

Diese möglichst passende Platzierung der Werbung ist für die Werbetreibenden sehr wichtig, weil dadurch die immensen Streuverluste vermieden werden sollen. Die werbenden Firmen zahlen sehr häufig nicht für die Platzierung der Anzeigen, sondern nur wenn der Website-Besucher auf die Anzeige geklickt hat (click-thru), d.h. wenn der Besucher Interesse an der Anzeige hatte. Um das zu optimieren muss möglichst viel über den Besucher der Seite bekannt sein und das soll über eine Profilerstellung erreicht werden.

Hilfreich für diese Profilerstellung ist wenn ein Benutzer "wiedererkannt" wird, wenn erkannt wird, dass er sich immer wieder für ähnliche Themen interessiert. Dabei geht es nicht (unbedingt) um eine Erkennung mit Namen und Anschrift, sondern nur darum, welchem der vielen gespeicherten (anonymen) Profile dieser Besucher zuzuordnen ist. Dies ist aber recht schwierig, die oben erwähnte IP-Adresse ist nicht optimal, da viele Internet-Nutzer sich jeden Tag mit einer anderen IP-Adresse auf der Website anmelden (siehe oben).

Domain:
Namensstruktur im Internet. Top-Level Domain sind entweder Länderkennungen (.at: Österreich, .de: Deutschland, ...) oder andere Kategorien (edu education com commercial org organization mil military). Die vollständige Domäne (Domain Name) besteht aus einem Begriff oder Namen plus der top level Domain (z.B. orf.at)

Sub-Domain:
Namenselement vor dem Domain-Name einer URL. Z.B. books.google.com (books ist die Sub-Domain von google.com). Websites auf einer Sub-Domain können auf Cookies zugreifen, die von der übergeordneten Domain geschrieben wurden

Cookies

Ein alter Trick für die Erstellung eines Profils sind sog. Cookies (die aber mittlerweile - 2013 - immer mehr aus der Mode kommen, weil sie vergleichweise einfach zu blockieren und löschen sind und wegen sog. "Stateless Tracking" auch eigentlich gar nicht mehr benötigt werden - mehr Details dazu im nächsten Abschnitt dieser Seite).

Cookies sind kleine Dateien, die eine Website auf dem Rechner eines Websurfer speichern kann. Sie werden beim nächsten Aufruf der gleichen Website, bzw. der gleiche Domain, automatisch wieder abgerufen. Dies bedeutet, dass nur diejenige Website, die den Cookie geschrieben hat, ihn auch wieder lesen kann. Hilfreich sind diese Cookies, wenn der Benutzer sich auf der Website anmelden muss, z.B. um seine Webmails abzurufen. Dann kann die Benutzer-ID des Besuchers im Cookie gespeichert werden. Wenn der Benutzer dann später im Büro wieder sein Webmail abruft, so wird auch dort die gleiche Benutzer-ID gespeichert und der Betreiber hat die Sitzungen an verschiedenen Orten dem gleichen Profil zugeordnet. Dagegen kann der Surfer sich wehren, indem er die Nutzung von Cookies verbietet. Dann gehen aber die meisten Websites nicht mehr, bzw. er muss sich jedesmal auf der Website neu anmelden.

Das Sicherheitskonzept von Cookies besteht darin, das nur auf Cookies zugegriffen werden kann, die diese Website (bzw. einer sog. Sub-Domain dieser Website) geschrieben wurden. Auf diese Weise soll ein Tracking des Benutzers über mehrere Domains verhindert werden (wie dies z.B. von Werbefirmen gewünscht ist). Ein Trick besteht darin, z.B. der Server der Werbefirma als Sub-Domain der Website registriert wird, dies wird jedoch nur selten verwendet, denn es gibt einfachere Methoden.

Third-party Cookies

Wenn Websites Werbefläche auf ihren Seite an andere Firmen vermieten, wie z.B. an doubleclick (im Besitz von Google), dann platzieren diese Firmen für ihre Werbekunden dort Werbung in Form von Graphiken oder Filmchen. Diese Inhalte kommen aber nicht von der Website, die der Benutzer aufgerufen hat, sondern sie werden direkt von der Werbefirma abgerufen z.B. von doubleclick.com. Dafür muss der Browser des Benutzers mit dieser Website Kontakt aufnehmen um die Graphik abzurufen (und zwar ohne dass der Benutzer auf diese Werbung klickt, rein durch die Anzeige der Graphik. Bei dieser Kontaktaufnahme muss auf jeden Fall die IP-Adresse des Benutzers mitgegeben werden (sonst findet die Graphik ja nicht wieder zurück), zumeist wird jedoch auch der sog. Referrer mitgegeben, d.h. auf welcher Seite war der Surfer vorher.

Es werden in vielen Fällen aber noch viel mehr Informationen mitgegeben. Eine Studie On the Leakage of Personally Identifiable Information Via Online Social Networks zeigt, dass viele der Social Networks die interne Benutzer-ID mitgeben, mit deren Hilfe der Werbetreibende in aller Regel auf das Profil (mit Name, Foto und vielen privaten Details) zugreifen kann (außer der Nutzer des Netzwerks hat diese Daten explizit gesperrt, was aber beim Namen fast nie der Fall ist). Und weil manche Benutzer Details wie die Email-Adresse nicht öffentlich zugänglich machen so senden manche der Netzwerke solche Daten ihrer Nutzer beim Abruf von Werbeeinschaltungen automatisch ganz explizit zu den Werbetreibenden (auch wenn dies in den Datenschutzerklärungen oft anders dargestellt wird). Details finden sich in der o.g. Studie.

Zurück zu den Cookies: Bei diesem Abruf der Werbung kann das Werbeunternehmen auch einen Cookie auf dem Rechner ablegen und bei einem zukünftigen Abruf einer anderen Werbung vom gleichen Werbeunternehmen auch wieder abrufen, auch wenn die nächste Werbung dieses Anbieters auf einer ganz anderen Website ist. Und so entsteht ein Benutzerprofil über viele Websites hinweg.

Third-party Cookies lassen sich sehr einfach in jedem Browser sperren. Leider ist das aber nicht die Grundeinstellung der Browser, anderseits bringt es keinen großen Schutz gegen Tracking. Denn auch ohne Cookies können sehr viele Daten über die Nutzer einer Website gesammelt werden, und wie das passiert steht ihm nächsten Abschnitt. Mehr zu Schutzmöglichkeiten weiter unten.

Webpixel und Webbugs

Doubleclick (und andere Tracking-Unternehmen) können verfolgen, auf welchen Websites ein bestimmter Rechner aktiv war. Diese Verfolgung über mehrere Websites kann ein Benutzer recht leicht erschweren, indem er im Webbrowser die Nutzung der sog. "Third Party Cookies" sperrt.

Deswegen setzen diese Unternehmen einen weiteren Trick ein um an Daten zu kommen, nämlich Webpixel oder Webbugs. Das sind kleine (unsichtbare) Graphiken (1 pixel x 1 pixel), die nicht von der Website abgerufen werden von der die Inhalte der Webseite kommen, sondern die vom Werbeunternehmen, z.B. Doubleclick, abgerufen werden. Der Trick besteht darin, dass der Aufruf dieser Grafik nicht fest auf der Webseite platziert ist sondern dynamisch durch ein Javascript erzeugt wird. Und in diesen Abruf der Grafik kann das Javascript viele persönliche Daten hineinpacken, z.B. Browsertyp, Betriebssystem, eingestellte Sprache, aber auch Inhalte von Datenfeldern eines (evt. sogar unsichtbaren) Formulars. Und in diesen Datenfeldern kann sehr wohl eine Kunden-ID drin stecken.

Wenn der Anwender in der gleichen Sitzung zwischen verschiedenen Websites wechselt so erscheint in den Logs der Tracking-Firma jeweils die gleiche IP-Adresse. Damit weiß die Tracking-Firma, auf welchen Websites und auf welchen Seiten dieser Sites sich dieser Surfer heute alles herumgetrieben hat.

Dieses Verfahren hat für die Werbenden den Nachteil, dass bei wechselnden IP-Adressen keine durchgehende Profilerstellung möglich ist, aber es liefert trotzdem umfangreiche Information über dieInteressen des Surfers. Am besten ist es für die Werbetreibenden, wenn beides kombiniert werden kann, ein Cookie gesetzt und die Daten der Benutzer über Webpixel auf seinem Weg durchs Internet ausgespäht werden können. Dies mag einer der Gründe sein, warum Google z.B. die Firma Doubleclick gekauft hat. Google kannte bis dahin "nur" das Suchverhalten und die Inhalte aller Mails auf gmail.com und der abgerufenen Videos auf Youtube, aber mit Doubleclick können sie auch sehen, was diese (bei google oft sogar namentlich identifizierten) Benutzer auf anderen Websites so treiben.

Google sind übrigens nicht die einzigen, die solch ein Tracking einsetzen, sie sind nur eben die größten. Yahoo tut ziemlich genau das gleiche, deswegen ist z.B. bei der Nutzung aller Browser Toolbars, ob von Google, Yahoo, Alexis oder anderen, große Vorsicht angeraten. Alle diese Toolbars versuchen, dem Unternehmen bei der Erstellung von Profilen zu helfen, indem sie Informationen versenden (sofern der Benutzer dies nicht deaktiviert hat).

 

Flash Cookies

Das Thema Flash hat sich zum Glück mittlerweile erledigt. Für alle, die sich trotzdem interessieren,

 

Weitere Tricks der Tracker: HTML5 and ETag Respawning - Evercookies

Sept. 2011: Leider geben die Tracker keine Ruhe und die Universität Berkeley hat jetzt bei der Benutzer-Tracking Firma KISSmetrics nachgebohrt: KISSmetrics erzwingt Website-Statistiken um jeden Preis. Sie verwenden dazu eine so große Sammlung von Methoden, dass es dem Benutzer nicht mehr sinnvoll möglich ist, alle Spuren gleichzeitig zu löschen. Denn wenn 1 Objekt übersehen wurde, so werden die anderen Objekte aus diesem wieder alle rekonstruiert. Hier die technischen Details in 2 Artikel: Respawn Redux und Flash Cookies and Privacy II: Now with HTML5 and ETag Respawning.

Wie die Artikel erklären kann mit Hilfe einer geschickten Kombination der Technologien der Wunsch des Kunden nach Nicht-Tracking sehr sicher ignoriert werden. So funktioniert dieses Tracking (bei den Websites die das anwenden, siehe Artikel) auch dann wenn Private Browsing eingestellt ist, Cookies blockiert werden, zwischen 2 Browsern gewechselt wird (die ja getrennte Cookie-Sammlungen haben) und auch mit Javascript disabled. Und durch geschickte Wahl der Benutzer-IDs auch über verschiedene Websites hinweg (die Trackingfirma setzt dafür die gleiche Benutzer-ID auf verschiedenen Websites ein). Wenn eine Firma die Kunde eines bestimmten Trackers ist von einer anderen Firma die dort ebenfalls Kunde ist solche Tracking-Daten zukauft, so nennt man das heute "data enhancement". Dies ermöglicht vertiefte Erkenntnisse über den Kunden und muss in der Datenschutzerklärung nicht mal erwähnt werden.

Juli 2014: Eine Studie untersucht das Ausmaß des Einsatzes von "nicht-löschbaren" Cookie-Nachfolgern.

Wie kann man sich schützen: Wenn es eine Firma wirklich darauf anlegt, den Kunden reinzulegen, so hilft nicht viel. Mehr zu den Schutzmöglichkeiten weiter unten.

 

Tracking unter iOS - UDID und IDFA

Auf iPhones konnten die Apps bis iOS 5 die sog. UDID auslesen, so etwas wie eine eindeutige Gerätekennung. Als Apple dafür kritisiert wurde hat Apple dies mit iOS 6 gesperrt und dafür die IDFA eingeführt (IDentifier for Advertisers). Vorteil für den Benutzer ist, dass er das Tracking über diese Kennung verhindern kann, sofern es ihm gelingt, diese sehr gut versteckte Einstellung zu finden. Die Werbeindustrie ist über diesen Schritt von Apple sehr erfreut, denn die Wahrscheinlichkeit, dass jemand sich die Mühe macht diese Einstellung zu suchen, ist gering ("General", dann "About", dann "Advertising", dann muss "Limit Ad Tracking" auf ON gestellt werden).

Analytics Tools

Google (und andere) setzen noch einen weiteren Trick ein: Scripts. Bei Google nennt sich das Google Analytics, ein kostenloser Service von Google für Websitebetreiber die mehr über ihre Besucher lernen möchten. Google Analytics bietet fertige Javascript "Programme", die Informationen über die Besucher einer Website an die Google Website liefern, wo sie gesammelt und ausgewertet werden und dann dem Betreiber der Website in bequemer Weise zur Verfügung stehen. Aber natürlich stehen die Informationen auch Google zur Verfügung. Daher sollte ein korrekter Betreiber einer Website in seiner Datenschutzerklärung darauf hinweisen, was aber nach der ganz unten erwähnten Studie nicht mal Bundesbehörden in Deutschland konsequent tun. Es entstehen in den Datenschutzerklärungen sogar explizite Lügen wie "auf dieser Website werden keine Cookies und kein Javascript eingesetzt" - aber Google Analytics wird eingesetzt und das verwendet Javascript und Cookies. Ein Artikel in heise.de berichtet, die Notwendigkeit der Aufklärung in den Datenschutzhinweisen. Mehr zu Google Analytics. (Yahoo bietet übrigens einen ähnlichen Service an, der auch nicht "privatsphäre-schonender" ist.)

 

Dirk Fox: Glückliche Sklaven - wie gängige Tools ganz automatisch Daten zu Google transferieren

Dies ist eine Artikel von Dirk Fox über die immer weiter um sich greifende Datensammlung, gefördert durch die Bequemlichkeit der Web-Entwickler und der geschickten Strategie von kostenlosen Dienste, angeboten gegen (notfalls auch fremde) Nutzerdaten.

Juni 2016 - Zitiert und leicht ergänzt aus dem Secorvo-News Juni 2016.

Anfang der 2000er Jahre schossen sich Datenschützer auf die Nutzung von Cookies als Tracking-Instrument ein. Darauf reagierte die EU am 25.11.2009 mit der Verabschiedung einer (wenig universellen) Cookie-Richtlinie, die eine Einwilligung der Benutzer fordert. Sie ist bis heute in vielen EU-Staaten nicht umgesetzt; Verstöße werden nicht geahndet.

Derweil wichen Google & Co. auf andere, weit ergiebigere Methoden zur Gewinnung von Internet-Nutzungsdaten aus: Mit "kostenlosen" Service-Angeboten spannten sie Webseitenbetreiber vor ihren Karren. Mit Erfolg: Das Webseiten-Analysetool Google Analytics erreichte einen Marktanteil von über 90%, bevor es in den Fokus von Datenschützern geriet, denen die Datensammelei von Marketingabteilungen ohnehin ein Dorn im Auge war.

Während sich Datenschützer an Google Analytics und Social Media Plugins festbissen, zündeten Google & Co. ein Feuerwerk an Angeboten für Webentwickler, die diese bereitwillig in ihren Code einbetteten. Kaum eine Webseite, die kein Javascript- oder CSS-Framework und keinen Web-Font nachlädt und dabei die Nutzerdaten bei Facebook, Google oder Twitter abliefert.

Bootstrap: Das von Twitter angebotene CSS-Framework erfreut sich großer Beliebtheit bei Webseitenbetreibern. Wird es jedoch nicht auf dem Webserver des Betreibers installiert sondern jeweils von Twitter geladen, so bekommt Twitter beim Online-Download die Nutzerdaten (IP-Adresse, besuchte Webseite und Zugriffszeitpunkt) frei Haus.

jQuery/Ajax: Eine Webseite zu finden, die ohne den Einsatz der freien JavaScript-Bibliothek auskommt, gleicht schon fast einem Wunder. Werden dabei die jQuery-Bibliotheken von Google nachgeladen, erhält Google die Nutzerdaten.

AngularJS: Genauso verhält es sich mit Googles JavaScript-Webframework. Eine lokale Installation ist aus datenschutzgründen anzuraten, doch welcher Webdesigner macht das schon?

React: Facebook bietet mit React eine Alternative zu Angular ein Webframework, das beim Nachladen die Nutzerdaten an Facebook übermittelt.

Web-Fonts: Annähernd jede moderne Webseite nutzt Web-Fonts von Google oder Adobe. In der Regel werden die Fonts dabei erst beim Seiten besuch nachgeladen. Dabei wäre eine lokale Installation der Fonts problemlos möglich.

Kartendienste: Beliebt ist es auch, auf der Kontakt-Seite die Kartendienste von Google oder Bing Maps einzubinden. Auch hier liefert man dem Anbieter die Nutzungsdaten seiner Seitenbesucher. Mangels einer ähnlichen Lösung wie für die Social-Media-Plugins würde hingegen ein Link zum Kartendienst genügen - sofern man nicht gleich auf die 'freie' Alternative OpenStreetMap setzen möchte.

No CAPTCHA reCAPTCHA: In den Secorvo News 12/2014 berichteten wir über die Google-Version des Turing-Tests, bei der die IP-Adresse übermittelt und Mausbewegungen ausgewertet werden.

Schließlich erfand Google die Safe Browsing-API, die jeden Seitenaufruf anhand einer Google-Blacklist auf enthaltene Schadsoftware prüft. Inzwischen Teil von Firefox, Safari und Chrome meldet die API jeden Webseitenaufruf von einer Milliarde Nutzern an Google. Microsoft wollte da nicht zurückstehen führte im IE8 den SmartScreen-Filter ein. Ein genialer Coup. Denn die erbittertsten Feinde der Freiheit sind bekanntlich die glücklichen Sklaven.

 

 

 

Stateless Tracking und Device Fingerprinting

Ende 2013 wird in den Fachzeitschriften berichtet, dass Google und Microsoft an neuen Tracking Technologien arbeiten, die weniger leicht zu blockieren sind als z.B. Cookies: Amid NSA Outrage, Big Tech Companies Plan to Track You Even More Aggressively.

Das ist extrem unschön, denn gleichzeitig zeigen Veröffentlichungen, dass die NSA die Tracking Technologien von Google, Facebook, Yahoo!, Microsoft, LinkedIn, Slashdot, etc. zur Identifizierung ihrer Opfer nutzt.

Über diese neuen Technologien liegen noch keine Informationen vor, bei Google wird über eine Technologie names AdId spekuliert.

Wie auch immer die Technologien aussehen werden, sie werden vermutlich stateless sein, d.h. sie werden unabhängig davon sein, dass auf dem Rechner oder Smartphone des Benutzers etwas abgespeichert wird. Denn was immer dort abgespeichert wird, das kann der Benutzer auch wieder löschen. Ziel der Technologien ist von solchen Herausforderungen unabhängig zu sein und den Benutzer auch dann wieder zu erkennen, wenn er mit einem anderen Browser oder gar einem anderen Gerät surft (Cookies werden immer nur in genau 1 Browser gespeichert, verschiedene Browser haben unterschiedliche Cookies).

Device Fingerprinting

Eine der Techniken die stateless funktioneren ist das Wiedererkennen eines Rechners an Hand seines sog. Fingerprints. Dabei geht es um Eigenschaften einer Betriebssystem-Installation, die so unterschiedlich sind, dass sie ziemlich sicher eine eindeutige Identifizierung erlaubt.

Die US-Bürgerrechtsorganisation EFF (Electronic Frontier Foundation) hat eine Website Panopticlick erstellt. Dort kann jeder Besucher testen, wie eindeutig die Konfiguration SEINES Browsers ist. Das Ergebnis der Untersuchung von 470 000 Besuchern war, dass 83% aller Browser nur auf Grund der Browser-Charakteristika eindeutig erkannt werden konnte (Hier die Meldung die ich selbst bekomme: "Your browser fingerprint appears to be unique among the 1,072,341 tested so far").

Dieses sog. "Device Fingerprinting" ist keine verspielte Theorie, eine Reihe von Firmen bietet diese Technologie aktiv an, z.B. Arcot, 41st Parameter, ThreatMetrix und Iovation. Die Möglichkeiten reichen vom Wiedererkennen eines Angreifers bis zu Marketing. Iovation sagt, dass sie in ihrer "reputation database" die Fingerprints von über 1 Million PCs gespeichert haben die irgendwann mal mit unerwünschten Aktivitäten aufgefallen sind.

Wie funktioniert Device Fingerprinting: Browser senden an Websites eine Reihe von Eigenschaften freiwillig und aktiv (z.B. den Typ des Browsers, für mich "Mozilla/5.0 (Windows; U; Windows NT 5.1; de; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3 GTB7.0"). Viele andere Eigenschaften eines Rechners können über Javascript ausgelesen werden, z.B. die Bildschirmauflösung, die Zeitzone, und vor allem, welche Browser-Plugin Versionen und welche Fonts im Rechner installiert sind. Speziell die letzten beiden Informationen geben extrem viel Informationen preis, an denen der Rechner erkannt wird. Dies kann dann noch mit der IP-Adresse kombiniert werden, die heute für die Mehrheit der Internet-Nutzer konstant ist. Ganz schlecht werden Firmenrechner erkannt wenn diese alle über die gleiche IP-Adresse reinkommen und vollkommen einheitlich installiert und gepatcht sind. Dann stimmen Fonts und Plugin-Versionen identisch überein.

Eine weitere moderne Methode (2014) ist Canvas Fingerprinting. Das sog. Canvas-API wird von modernen Browsern unterstützt, weil auf diese Weise die Schriften von Websites klarer darstellbar sind. Beim Canvas Fingerprinting werden mittels HTML5-Kommandos Unterschiede in der Zeichensatz-Darstellung (Rendering) identifiziert, die von Grafikkarte, Treiber-Versionen und installierten Zeichensätzen abhängen. Diese Unterschiede werden für eine Wiedererkennung ausgenutzt. Kombiniert mit Browser Plugins oder Konfigurationseinstellungen des Rechners ist so eine nahezu eindeutige Rechner-Wiedererkennung möglich - unbemerkt vom Nutzer und nur durch ständigen Rechnerwechsel zu verhindern.

Wie kann man sich gegen solche Methoden schützen? Nur sehr schlecht. Das Abdrehen von Javascript verhindert viele dieser Erkennungstricks. Aber es gibt nur wenige Websites, die dann noch vernünftig funktionieren. Und einige der möglichen Tricks zum Verhindern der Erkennung sind kontraproduktiv, denn wenn sie nur von wenigen angewendet werden sind diese wenigen auf diese Weise klar "markiert". So gibt es einen "privacy enhancing Browzar" der aber nur 7 mal auf panopticlick gesichtet wurde und daher recht eindeutig wiedererkannt wird. Andere Browser wurden daran erkannt, dass der Browsertyp bewusst geändert wurde. Aber dadurch entstehen z.B. Situationen, wie dass ein IE der sich als FF verstecken will ActiveX unterstützt und damit sehr klar wiedererkannt wird; oder ein vorgeblicher iPhone-Browser, der aber Flash unterstützt. Als sinnvoll haben sich bei solchen Tests TorButton und NoScript erwiesen.

Diese Techniken sind für Werbetreibende die Profile anlegen wollen, eine sehr angenehme Ergänzung zu den Cookies. Wenn nämlich der Benutzer, z.B. 1x die Woche, die Cookies löscht so kann das Tracking-Unternehmen beim nächsten Besuch des "Benutzers ohne Cookie" in seiner Fingerprint-Datenbank nachsehen ob dieser PC nicht vielleicht doch bereits bekannt ist und den gelöschten Cookie wiederherstellen. Umgekehrt kann über die Permanenz des Cookies nach einer Aktualisierung des Browsers und der Plugin-Versionen der Fingerprint auf den neusten Stand gebracht werden. Und falls der Benutzer bei der Browser-Aktualisierung auch gleich die Cookies löscht, so greifen viele dieser Firmen heute auf sog. "Supercookies" oder Flash-Cookies zurück, die bereits weiter oben beschrieben wurden. Diese Flash-Cookies müssen nämlich separat gelöscht werden und das wird vermutlich zumeist nicht durchgeführt. Hier ein Bericht zur Verbreitung: Top sites (and maybe the NSA) track users with "device fingerprinting". t-online.de wird als eine der Website angeführt, die dies heimlich durchführen.

Reputation Databases

Eine detaillierte Veröffentlichung zum Thema ist: Dusting the Web for Fingerprinters. Sie finden dabei, dass die Technik bereits auf einer beträchtlichen Zahl von Websites eingesetzt wird, d.h. längst aus dem Experimentalstadium heraus ist. Verknüpft werden die Ergebnisse vor allem in sog. Reputation Databases. Und das kann unangenehm sein, z.B. in folgendem Szenario:

    Jemand surft seine Facebook-Seite in einem Internetcafé an. Vom gleichen PC hat vorher ein Kleinkrimineller gesurft, der auf einschlägigen Websites unterwegs war. Der Fingerprinter entdeckt jetzt dass der Facebook-Nutzer der selbe ist wie der Kleinkriminelle (der anonym geblieben war) und verknüpft in der Reputation Database diese Facebook-ID mit Kleinkriminalität.

 

 

 

Tracking der Benutzer beim Email-Lesen

Diese Tricks mit Webpixeln und Webbugs funktionieren auch mit Email, wenn dieses als HTML-Email geöffnet wird. Ob dies der Fall ist, entscheidet der Benutzer in seinen Einstellungen (bzw. der Webmail-Anbieter in seinen Grundeinstellungen). Bei Hotmail ist dies z.B. der Fall wenn der Benutzer das Mail oder den Absender als vertrauenswürdig eingestuft hat. In diesem Augenblick werden die Bilder (d.h. auch die oben erklärten Webbugs) vom Webserver des Versenders abgerufen und der Versender bekommt Daten über den Empfänger (wann wurde gelesen, von welcher IP-Adresse, welche Teile des Mails wurden gelesen, etc.). Dies ist auch dann der Fall, wenn das Email gar keine sichtbaren Bilder enthält, diese Webbugs sind zumeist nur 1 Pixel groß, d.h. unsichtbar.

Wenn bei einem Werbe-Email Bilder oder Logos angezeigt werden, so kann der Benutzer davon ausgehen, dass der Versender des Mails jetzt weiß, dass das Mail geöffnet wurde. Sie sollte auch davon ausgehen, dass der Versender weiß, wie lange das Mail offen bleibt und ob der Benutzer dann noch auf einen der eingefügten Links geklickt hat und zwar auf welche. Dies wird erreicht, indem dieses Mail personalisiert ist. Dies bedeutet, dass alle Links in diesem Mail personalisiert sind, d.h. dass sie eine Kennung enthalten die nur dieser eine Adressat zugewiesen bekam, z.B. seine interne Kundennummer oder etwas ähnliches.

Der Empfänger des Emails muss davon ausgehen, dass der Inhalt dieses Emails vermutlich genau auf seine bisherigen Reaktionen auf frühere Emails oder auf der zugehörigen Website zugeschnitten ist. Dies wurde sehr intensiv für die 2012 Wahlkampagne in den USA dokumentiert. Dort werden für viele der Millionen Emails die in diesem Rahmen versendet wurden verschiedene Versionen aufgelistet. Das geht so weit, dass bei Spendenaufrufen ein Betrag vorgeschlagen wird, der sich aus den früheren Spenden dieser Person errechnet.

Wie kann man diese "fürsorgliche Beobachtung" verhindern? Der erste Schritt ist, dass man sich erst gar nicht auf solche Werbeverteiler setzen lässt, oder sich, wenn man an den Mails nicht mehr interessiert ist, wieder entfernen lässt (was bei reputablen Firmen eigentlich immer funktionieren sollen und zumeist auch klappt). Die nächste Option ist Löschen vor dem Öffnen des Mails. Auf diese Weise erfährt der Versender gar nichts, d.h. er geht davon aus, dass das Mail gelöscht wurde (oder die Images unterdrückt sind).

Wenn man sich für die Inhalte sehr wohl interessiert, aber das detaillierte Tracken nicht möchte, so kann man dies verhindern indem man blockiert, dass Bilder angezeigt werden (sofern das in dem genutzten Email-Programm möglich ist. Manchmal geht es, indem der Absender nicht in der Liste der vertrauenswürdigen Versender gespeichert wird). Auch sollte man in diesem Fall nicht auf die im Mail enthaltene Links klicken sondern die verlinkten Artikel irgendwie anders auf der Website suchen. Das ist natürlich mühsamer und jeder Benutzer muss für sich entscheiden, ob er anonym auf das Email reagieren möchte oder nicht - oder ob sie sich ganz vom Verteiler nehmen lässt.

Ein separates Thema ist Gmail. Wer dort ein Konto hat, der hat zugestimmt, dass sogar die Inhalte der Emails für eine Profilbildung genutzt werden dürfen. Rechtlich sehr problematisch ist dabei, dass Menschen die keinen Gmail-Account haben, aber ein Mail an einen Menschen mit Gmail-Account senden, zwar nicht zugestimmt haben, aber deren Inhalte können auch ausgewertet werden. Ich bin mir nicht sicher, dass alle Nutzer das wissen.

 

 

 

Spuren beim Internet-Provider (ISP)

Soweit erst mal nur die Endstelle der Kommunikation, der Webserver. Auf dem Weg zum Webserver werden die Daten aber von vielen anderen Stellen weitertransportiert, die für unsere Betrachtungen wichtigste ist der eigene Internet-Provider. Bei diesem laufen alle Datenpakete durch und hier gibt es eine zentrale Möglichkeit zur Protokollierung des Datenverkehrs. Daher ist dies die ideale Stelle wenn Behörden (oder jemand anders, siehe die Abhörskandale in Griechenland und in Italien) den Datenverkehr abhören will.

Die Daten des Telefon- und Internet-Providers sind deshalb das Thema der sog. Vorratsdatenspeicherung in Europa. Denn bisher besagte das Fernmeldegeheimnis, dass solche Protokoll-Daten nur soweit aufgehoben werden dürfen, wie sie zur ordnungsgemäßen Rechnungsstellung dienen und sie dürfen maximal so lange aufbewahrt werden, bis mögliche Einsprüche gegen die Rechnung nicht mehr möglich sind. Jetzt sollen die sog. Verkehrsdaten (d.h. wer hat wann mit wem kommuniziert?) für Strafverfolgungszwecke (Stichwort Terrorismus) viel länger aufbewahrt werden und den Behörden auf Abruf zur Verfügung stehen. Weiterhin verboten ist die Speicherung der Inhaltsdaten, z.B. der Inhalt von E-Mails, SMS oder Telefongesprächen, anderseits sind die Suchstichworte bei Google Teil der URL, d.h. Teil der Verkehrsdaten).

In den USA ist ziemlich bald nach 9/11 bei vielen Internet Providern eine spezielle Hardware der Firma Narus (NarusInsight) installiert worden, die eine systematische Durchforstung das gesamten Datenverkehrs, d.h. auch der Inhalte, nach Stichworten ermöglicht und das mit sehr hoher Geschwindigkeit und in "real-time". Dass dies ohne richterlichen Bechluss passiert ist, hat bei vielen Amerikanern einige Aufregung verursacht, anderseits wird diese Praxis vermutlich jetzt bald legalisiert. Hier noch einige Hintergründe zum Abhören.

Eingehende Emails sind ein weiteres Gebiet, wo möglicherweise vertrauliche Daten beim Internet-Provider vorliegen (auch aus diesem Grund sollten wirklich vertrauliche Informationen immer nur verschlüsselt versendet werden, z.B. mit dem kostenlosen PGP). Diese Emails werden vom Internet-Provider auf sog. SMTP-Servern zwischengespeichert, bis sie dort vom Emailprogramm des Nutzers über das POP-Protokoll (oder in Ausnahmefällen IMAP) abgerufen werden. Das lokale Email-Programm kann dabei vorgeben, ob die abgerufenen Emails auf dem Server des Providers verbleiben sollen. Ausgehende Emails werden beim Provider nicht gespeichert.

In den USA ist der Verkauf der bei einem Internet-Provider anfallenden Daten sogar ganz legal. Dies tun Kabelnetzanbieter und Mobilfunkanbieter. Dies ist zwar allein schon mal schlimm, aber dann verschwinden die Daten manchmal bei den Käufern einfach ins Internet. 2018: Mobilfunker verkaufen Standortdaten ihrer Kunden und einer der Käufer wird gehackt und verliert die Kontrolle darüber. Wie der Artikel beschreibt sind dies nur die Surf-Daten sondern auch die Standortdaten, die wie weiter oben geschildert sehr viel über das Leben eines Menschen erzählen.

 

Behavioral Targeting durch Internet-Provider

März 2008: Die britische Firma Phorm meint, dass die Tatsache, dass der gesamte Internetverkehr durch die Netze der Internet-Providers führt, doch eine Goldgrube sei, die bisher vollkommen ignoriert wurde. Sie haben es geschafft, in England Verträge mit 3 Providern abzuschließen (u.a. British Telecom, BT) die zusammen 70% des privaten Datenverkehrs durchschleußen. Und diesen Datenverkehr wird Phorm zwecks Profilierung von Internetnutzern zu Werbezwecken auswerten. Die Kunden dieser 3 ISPs sollen die Möglichkeit erhalten, aus dieser Datenschnüffelei auszusteigen, wie das im Detail aussehen wird, ist noch offen. - Zum Hintergrund: Phorm ist eine Umbenennung der Spyware-Firma 121Media, die jetzt versuchen, auf einem legalen Weg an die Informationen über das Surfverhalten der Internetnutzer zu kommen. Und es scheint fast so, als ob es klappen könnte.

Aber Phorm sind nicht die einzigen, die so etwas in Arbeit haben. Die Firma NebuAd hat ebenfalls Verträge mit einer Reihe von ISPs in den USA. Eine weitere Firma, die auf diesem Gebiet aktiv ist, ist FrontPorch. Der Chef von NebuAd erklärt hier das Konzept. Wenn die Überwachungsssoftware merkt, dass der Nutzer nach einem bestimmten Begriff sucht, oder gar auf eine Werbung in Adwords klickt, so bekommt er beim nächsten Besuch einer Partnerwebsite des Überwachungsunternehmens genau solche Anzeigen gezeigt. Hier ein Artikel zum Stand des Behavioral Targeting durch Internet-Provider in den USA.

Inhaltlich stellt dies eine deutliche Steigerung des Eingriffs in die Privatsphäre dar. Das Unternehmen behauptet zwar, dass sie Suchanfragen und besuchte URLs nicht speichern, sondern nur für die Bildung eines Interessenprofils des Nutzers auswerten, d.h. sie setzen z.B. den Zähler "Autointeresse" um 1 hoch, wenn jemand auf einer Automobilwebsite war, nach einem Autothema gesucht hat oder einen Artikel einem Autothema gelesen hat. Dieses Profil wird in einer Datenbank gespeichert und dann mit einem Cookie auf dem Rechner das Nutzers verknüpft. Aber es setzt natürlich viel Vertrauen voraus, das Unternehmen beim Surfen über die Schulter schauen zu lassen, auch wenn sie versprechen, alles sofort wieder zu vergessen. Die Allgemeinen Geschäftsbedingungen können geändert werden, bzw. staatliche Stellen können Interesse bekommen, auf diese Daten zuzugreifen, indem sie eine Gesetzesänderung wie die jetzige zum Sicherheitspolizeigesetz einführen.

Mit dem Trick den gesamten Verkehr abzuhören hat das Unternehmen nicht nur Zugriff auf die Suchanfragen bei 1 Suchmaschine, sondern gleich bei allen. Und außerdem sehen wie, auf welchen Seiten der Nutzer noch war und bei welchen Banken er oder sie eBanking nutzt, und, und, und. Phorm behauptet allerdings, dass sie alle diese Daten sofort löschen und nur eine Einordnung des Internetnutzers in eine Interessenklasse ("channel") vornehmen.

Wie schnell einmal gesammelte Daten dann auch genutzt werden zeigt der Fall von YouTube.

Hier

Eingriffe durch Internet-Provider

Das folgende ist nicht direkt über Spuren beim ISP, aber ISP lassen sich manchmal von Regierungen instrumentalisieren. Oder es bleibt ihnen gar nichts anderes übrig, die Regierungen verabschieden einfach ein entsprechendes Sicherheitspolizeigesetz oder eine Vorratsdatenspeicherung durch die ISPs.

Eingriffe in den Datenverkehr durch ISPs werden an anderer Stelle ausführlicher behandelt.

 

 

 

Spuren auf dem Rechner des Internetnutzers - die "History"

Die letzte Stelle, wo Spuren vom Internet-Surfing verbleiben, ist der Rechner selbst. Dort speichert jeder Browser eine sog. History und er verwendet einen sog. Cache zum Speichern der Inhalte und Bilder, die er einzeigt. Durch den Cache soll vermieden werden, dass bei einer Rückkehr zu einer eben gerade betrachteten Seite die Inhalte alle wieder aus dem Internet abgerufen werden müssen.

Mittlerweile haben alle Webbrowser Funktionen, z.B. unter "Extras" oder unter "Tools", die ein Löschen solcher Daten erleichtert. Manchmal kann man dabei einstellen, was alles gelöscht werden soll. Ein Löschen aller Cookies führt z.B. dazu, dass man sich bei allen Websites, z.B. Zeitungen oder Amazon, bei denen man nur nach einer Registrierung Zugriff hat, wieder mit Benutzername und Passwort anmelden muss.

In diesem Zusammenhang ist auch die Funktion Private Browsing zu erwähnen (weiter hinten mit mehr Details beschrieben) bei dem die History gar nicht erst geschrieben wird. Diese History-Datei ist an sich nur lokal auf dem jeweiligen Rechner gespeichert, d.h. wenn niemand Zugriff auf diesen Rechner hat, so sollte diese History auch geschützt sein. Leider haben die Browser fast alle erweiterte Funktionalität die diese History-Datei auch für Website verfügbar macht. Die hier verlinkte Studie Empirical Study of Privacy-Violating Information Flows in JavaScript Web Applications (pdf) zeigt auf, dass diese Funktionalität für sog. History Sniffing aktiv genutzt wird.

Zu diesem Thema siehe auch die Diskussion zum Bundestrojaner.

 

 

 

Eigenhändig erzeugte Spuren und Reputation Management

Bis jetzt waren das alles Spuren, an deren Erzeugung wir nicht bewusst mitgearbeitet haben. Dieses Kapitel behandelt jetzt Spuren, die wir selbst gelegt haben und dies ist unzweifelhaft die größte (und vermutlich auch die gefährlichste) Quelle von sehr persönlichen Informationen. Ich spreche von den Informationen, die wir auf Social Networking Sites (viel mehr dazu auf meiner anderen Website, siehe Link), wie z.B. Instagram, Tiktok, Facebook, Xing, LinkedIn, schulfreunde.de, schulfreunde.at, stayfriends.de, klassenfreunde.at, klassentreffen.at selbst eingegeben haben.

Der Trend geht (derzeit noch?) zu ständig steigender freiwilliger Transparenz, anscheinend ist dies vom (hauptsächlich jüngeren) Publikum so gewünscht. Ungefähr 2009 hat aber sogar die etwas seriösere Business Networking Website Xing eingeführt, dass alle eigenen Kontakte über jede Änderung sofort informiert werden, z.B. wer hat wen eben gerade als Kontakt hinzugefügt. Zu den Risiken der Social Networks gibt es einen separaten Artikel.

Andere Websites auf denen wir Privates abspeichern sind z.B. die Photosharing Websites, z.B. flickr.com, Picasa Web Albums, Sevenload.de, fotolog.net, oxp.de oder Spezialsites wie baby-boom.at, babyphotos.at, und die Videosharing Websites wie YouTube, vimeo und viele andere. Selbst wer nicht selbst etwas von sich da hochlädt, dem kann es trotzdem passieren, dass jemand anderes das tut und vielleicht als Bildunterschrift (oder über sog. Tags) den vollen Namen angibt.

Leider ist oft nicht ganz klar, wer auf solche Informationen zugreifen kann, ob nur Mitglieder, nur die eigenen "Freunde", "Kontakte", "Buddies" oder jeder, d.h. auch Firmen, die die Informationen für eine Profilerstellung ausnutzen. Das hängt nämlich vom Kleingedruckten der Datenschutzerklärung (Privacy Policy) ab. Da kann man dann durchaus überrascht sein, wenn Einträge von schulfreunde.de auf einmal in Google angezeigt werden.

Datenschutzerklärungen sind ein Kapitel für sich. Oft sind sie trickhaft formuliert und sagen nicht wirklich aus, was der Dienstanbieter mit den Daten wirklich vorhat. Natürlich hat er möglichst viel vor, der Wert der Daten, die die Benutzer eingeben sind ein wichtiger Grund, warum solche Services kostenlos angeboten werden. Dies bedeutet nicht (unbedingt), dass die Daten direkt weiterverkauft werden, obwohl auch dies möglich ist. Da stehen dann z.B. Formulierungen dahingehend, dass "die Daten nicht den DB-Konzern verlassen, garantiert nicht an Dritte weitergehen" (siehe Deutsche Bahn [Big Brother Award 2007]. Damit ist gemeint, dass die Daten im Unternehmen Loyalty-Partner, die jedoch auch Bonuspunkte für andere Unternehmen verwaltet, also die Daten auch für Nicht-Bahn Zwecke verwenden kann.)

Sehr oft stimmt man aber bei der Anmeldung zu, dass die Daten "an Partnerunternehmen weitergegeben werden können", bzw. dass man bereit ist, "E-Mail von Partnerunternehmen" zu erhalten. Und Partnerunternehmen sind im Zweifelsfall alle, die genügend Geld für die Daten zahlen. In den anderen Fällen werden die Daten zwar nicht direkt weitergegeben, aber die Inhalte dienen oft als Grundlage für eine gezieltere Platzierung von Werbung.

Was wirklich über Sie im Netz zu finden ist, finden Sie nur durch eine direkte Suche heraus. Gehen Sie auf google und suchen Sie nach "Vorname Nachname" (die Gänsefüßchen sind wichtig, sonst werden sehr viele falsche Einträge gefunden.

Hier der Link zu meinem ausführlichen Artikel zu Social Networking und Privatsphäre. Dort gibt es auch einen Abschnitt, der im Details erklärt, was beim vorsichtigen Umgang mit solchen Netzwerken zu beachten ist, für Privatleute und auch Firmen: Wie stelle ich meinen Account bei Xing and LinkedIn sicher ein.

Damit sind wir beim Thema Reputation management. Dabei geht es darum, dass betroffene Personen versuchen, die Kontrolle darüber zu bekommen, wie sie bei einer Internetsuche aufscheinen. Wenn da z.B. Fotos erscheinen die zu später Stunde bei einer wilden Party entstanden sind oder ähnliche Sachen die bei einer späteren Bewerbung schädlich sein könnten, dann gibt es Firmen, die darauf spezialisiert sind, diese wieder löschen zu lassen. Oder, wenn dies nicht möglich ist, dann versuchen sie diese negativen Fotos (oder Artikel) durch andere (selbst erstellte) positive Beiträge auf anderen Websites bei den Ergebnissen der Suchmaschinen auf die hinteren Seiten zu verdrängen.

Hier eine Website eines US-Anbieters für Reputation Management Visible Technologies. Diese Firma wertet täglich alle wichtigen Blogs und Social Network Seiten in sehr vielen Sprachen der Welt aus und stellt für ihre Auftraggeber (Firmen, aber auch Spionage- und Überwachungsbehörden) Berichte nach den jeweils gewünschten Stichworten zusammen. In-Q-Tel, der Investmentarm der CIA hat sich gerade mit einer größeren Summe am Unternehmen beteiligt.

Social Networks sammeln auch Daten über Nicht-Mitglieder
Auf meiner Seite über Social Networks und Privatsphäre gibt es jetzt auch einen Beitrag zu Diensten wie Friend Finder von Facebook. Das gespenstische daran ist, dass dort auch Daten über Nicht-Mitglieder gesammelt werden.

Gesichtserkennung, Face-Recognition, Foto-Tagging
2011 gibt es rasante Fortschritte bei der Gesichtserkennung, täglich werden Millionen Fotos von Personen mit deren Namen versehen und mittlerweile wird überall auch automatisches Tagging angeboten: unter den vielen bereits gespeicherten Gesichtern die bereits mit Namen verbunden sind werden ähnliche gesucht und vorgeschlagen. Und mit jeder dieser Interaktion werden die Programme schlauer und haben ein größeres Datenmaterial vorliegen das noch bessere Erkennungen ermöglicht. Mehr dazu unter Face Recognition - Gesichtserkennung.

 

 

 

Vorsicht bei Nick-Names und Pseudonymen - Probleme des Klarnamen-Zwangs

Viele Websites bei denen die Benutzer eigine Texte oder Kommentare eingeben können, z.B. die vielen Foren, aber auch amazon, fast alle Zeitungen, etc., bieten die Möglichkeit, unter einen sog. Nick-Name aufzuscheinen. Man könnte meinen, dass damit die Anonymität meiner Beiträge gewährleistet ist.

So einfach ist jedoch leider das Leben im Internet nicht. Da gibt es eine ganze Reihe von Fallen, die dazu führen können, dass sehr wohl ersichtlich ist, wer einen Beitrag geschrieben hat. Hier ein Beispiel: Ich hatte eine Weile unter dem eigenen Namen bei amazon Bücher kommentiert, aber dann wollte ich lieber unter einen Pseudonym aufscheinen. Und auf den ersten Blick klappt das auch, man ändert seinen Nick-Name auf einen neuen der keinen Hinweis auf die Identität verrät, schreibt seinen Kommentar und der erscheint unter dem neuen Name. Aber leider gibt es den Button "alle Beiträge dieses Autors". Dieser Button führt dann den neuen Nick-Name und den ursprünglichen Namen zusamnmen und die Anonymität ist geplatzt. Das ist mir auch bei einer Zeitung passiert.

Eine andere Falle besteht darin, dass man den gleichen Nick-Name auf mehreren Websites nutzt. Google führt diese Beiträge dann sehr schön zusammen und schon aus der Zusammenstellung der Themen können sich Hinweise ergeben. Und wenn eine dieser Websites dann irgendwo eine E-Mail-Adresse mit dem Nick-Name verlinkt und das die normale E-Mail-Adresse des Benutzer ist, dann ist die Anonymität sicher geplatzt.

Aber es gibt noch mehr Fußangeln: Wenn es auf der Website die Möglichkeit gibt, sich selbst einen Avatar zu gestalten, so kann dieser Hinweise auf die Identität verraten. Auch spezielle Grußformeln (z. B. Salve) oder gleiche Signaturen haben auch einen großen Wiedererkennungswert. Ebenso können Hinweise auf eine bestimmte Region, in Verbindung mit einer wiedererkennbaren Familiensituation oder auch ein besonderer Schreibstil die Anonmität aufheben.

Wichtig: Wenn bei einem Forum Ihre Anonymität wirklich wichtig ist, so müssen Sie einen Nick-Name verwenden, der Sie auf keiner anderen Website verwendet haben. Und als E-Mail-Adresse für diese Website sollten Sie ebenfalls eine neue kreieren, die keinen Hinweis auf ihre wirkliche Identität zulässt (gmx, gmail oder ähnliches). Falls Sie auf der gleichen Website früher bereits nicht-anonym aktiv waren, sie kreieren Sie vorsichtshalber einen ganz neuen Account ohne Verknüpfung mit ihrer vorigen Aktivität. Letztendlich müssen Sie sich komplett neu erfinden, mit einer anderen Wohnregion, einer anderen Familiensituation und mit einem anderen Schreibstil. Eine wirklich sichere Anonymität herzustellen ist harte Arbeit. Ein sehr schönes Beispiel wie Nicknames auffliegen ist die Verhaftung von Dread Pirate Roberts, dem angeblichen Gründer der Website Silk Road.

Noch mehr Beispiele wo sehr wissende Hacker und Profis sich über ihre Nicknames verraten haben, finden sich in dem Auszug aus Bruce Schneiers Buch zu Big Data: In our modern surveillance state, everyone can be exposed. Es ist fast unmöglich, anonym im Netz aktiv zu sein. TOR ermöglicht eine begrenzte passive Anonymität, aber sobald ich etwas poste, bin ich auf dünnem Eis was Anonymität betrifft.

Zusätzlich wird die Nutzung von Pseudonymen immer schwieriger gemacht. Google+ und Facebook verbieten sie in den Nutzungsbedingungen, bekannt als Klarnamen-Zwang. Facebook ist Sommer 2012 dabei ertappt worden wie sie durch Rückfragen bei den friends versuchen herauszufinden, ob jemand ein Pseudonym verwendet. Hier ein Artikel zur Nutzlosigkeit des Realnamen-Zwangs mit vielen Details und Untersuchungen.

Die Zeitschrift c't schreibt dazu einen sehr interessanten Artikel: Datenschutz-Fallrückzieher. Jemand hatte ich bereiterklärt, für einen Test zur Verfügung zu stehen, bei dem die Redaktion mal schaut, was sie so alles über ihn findet. Als er dann gesehen hat, wie die verschiedenen privaten und beruflichen Identitäten und die seiner Familie in einem großen Profil zusammengefasst waren, da hat er die Veröffentlichung des Artikels verboten. Die Gegenfrage der Redaktion: Was ändert das eigentlich die Daten sind doch eh schon alle online?

 

Falsche Profile

August 2012
Es gibt eine Gegenbewegung zum Zwang zum vollen Namen: Mittlerweile gibt es Fake Profile Generatoren. Aber Achtung: Wie ich an anderer Stelle ausführlicher erkläre, ist dies kein wirklicher Schutz gegen eine Profil-Erstellung durch die Profis.

Darum bemüht sich aber ein anderes Projekt: breadcrumbssolutions.com. Sie schreiben "Breadcrumbs automatically creates a Bogus Identity for you, preventing trackers from analyzing your real browsing information. The software transparently performs Internet browsing sessions, building interest topics that do not represent who you are. Any analysis of your browsing data will yield useless results. The Breadcrumbs Bogus Identity dashboard will let you control your Bogus Identity browsing behavior and interests, letting you decide who you want to be online." Bruce Schneier berichtet, dass Apple ein Patent für Pollution of electronic profiling angemeldet hat. Das muss aber nicht viel bedeutet, oft werden Patente auch nur angemeldet um andere Firmen von einer bestimmten Technologie fern zu halten. Inhaltlich klingt es ähnlich, der Nutzer spezifiert ein anderes Profil so, wie er gern gesehen werden möchte.

Ob das die große Lösung ist kann ich derzeit nicht beurteilen. Falls sich so etwas durchsetzen würde, so würde gleichzeitig eine heftige Gegenbewegung der Datensammler entstehen, so wie derzeit (2012) heftig gegen die No-not-Track-Feature in den Browsern gekämpft wird. Erstens wird so etwas bestimmt verboten werden (wie auch immer das durchzusetzen wäre, siehe die Bemühungen um das Erzwingen von Realnamen bei Google+ und Facebook). Anderseits können natürlich die Analyse-Programme versuchen, den Unterschied zwischen wirklichem Surfen und Robot-Surfen zu erkennen.

 

 

 

Schutzmöglichkeiten gegen Tracking

 

Do-not-track Funktionalität der Browser

Alle Browser bieten heute die Möglichkeit "Do-not-track" an die Trackingfirmen zu senden. Dies ist der sog. DNT (Do-not-track) Header der bei jeder Anfrage eines Browser an eine Website mitgesendet werden kann. Was die Website dann damit macht, ist bisher noch nicht ganz klar definiert, der Benutzer hat aber die Möglicheit, seinen Wunsch deutlich zu machen. Daraus wird sich evtl. in der Zukunft mal was vernünftiges entwickeln.

Herbst 2012 zeigte sich bereits, dass die an sich gute Idee das Do-not-Track zum Default zu machen, diese Feature vermutlich "killt". Denn die Werbe-Industrie sagt, dass das ihr Ende sei und dass sie daher diese Einstellung ignorieren wird. Diese Einstellung verhindert das Tracking nicht, sondern sie kommuniziert lediglich, dass der Benutzer darum bittet, nicht getrackt zu werden. D.h. die Tracker müssten aktiv dafür programmiert werden, diese Einstellung zu honorieren, ansonsten wird dieser Wunsch eben einfach ignoriert.

 

Blocking Tools


Die wirkliche Option sind die Blocking Tools. Das sind Browser Plugins, die eine Liste von URLs haben, die Tracking durchführen möchten (Dies sind in aller Regel nicht die Websites die der Benutzer bewusst unsurft, sondern es sind Firmen, die auf Benutzer-Tracking spezialisiert sind und die in die Webseiten eingebunden werden, Details siehe oben. Einige Webseiten haben bis zu 100 verschiedene Firmen, deren Javascript-Code sie einbinden und die für sie das Tracking durchführen. Viele Beispiele für diese Firmen finden sich auf der Webiste der Networking Advertising Initiative die ich weiter oben verlinkt habe).

Bei Aktivierung eines Blockers für diese URLs wird der Rechner dann nicht mehr mit ihr kommunizieren - was unter Umständen auch die Funktionalität einschränkt, aber es findet von dieser URL aus auch sicher kein Tracking mehr statt. Ein Problem, das bei der Benutzbarkeitsstudie aufgezeigt wurde ist, dass die Benutzer unter Umständen einzelne URLs von der Sperre ausnehmen müssen, sonst klappen manchmal so Sachen wie Einladen anderer zu Social Networks oder zu Spielen in Social Networks nicht mehr, wenn diese Einladungen über gesperrte URLs abgewickelt werden.

Ein wichtiger Blocker ist Privacy Badger von Electronic Frontier Foundation EFF (für viele Browser verfügbar). Privacy Badger blockiert die Tracking-Zugriffe (und deren Cookies) und zusätzlich Werbung, die Tracking-Elemente enthält. Für wirkliches Blockieren der Werbung braucht man einen der vielen Adblock Varianten - siehe weiter unten.

Sehr interessant und empfehlensert ist Lightbeam for Firefox, früher unter dem Namen Collusion. Es ist ein Firefox Add-on, da sehr schön graphisch zeigt, wie die Sites, die man so besucht, miteinander vernetzt sind und auf wen bei einem Besuch der Websites alles verlinkt wurde. Da ist z.B. die Futurezone inmitten einer sehr großen wolke mit jede Menge Trackern, Social Networks und allem. Heise.de jedoch ist ziemlich allein, weil die sauber "2-Click für den Datenschutz" implementiert haben. Bei mir als hotmail-user ergibt sich eine kleine isolierte Gruppe rund um Microsoft-Websites, die nicht mit anderen zusammenarbeiten.

 

Nun zu Adblocking: Die Technik, bei dar gar keine Werbung anzuzeigen ist aus mehreren Gründen umstritten. Zum Einen ist natürlich korrekt, dass viele Medien-Unternehmen heute davon leben müssen, dass sie Werbung neben ihren Inhalten verkaufen. Ad-Blocker verhindern das. Daraus hat sich entwickelt, dass eine ganze Reihe von Web-Angeboten nur dann zur Verfügung stehen, wenn man seinen Ad-Blocker für diese Website abschaltet (was die meisten der Implementierungen anbieten).

Eine der Alternativen ist uBlock Origin (auf der verlinkten Seite bringt Google eine Übersicht über mehrere Angebote). Für erfahrene Benutzer gibt es noch uMatrix. Nur für erfahrene, weil dort auch in die Ausführung von Javascript eingegriffen wird und dann funktionieren einige Websites nicht mehr ganz, d.h. nicht ganz einfach zu nutzen).

Ich verwende jetzt diese AdBlock-Variante. Nach eigenen Aussagen steht dahinter kein Unternehmen, sondern ein kleines Team von Entwicklern, das sich durch Spenden finanziert. Sie werden in der Presse positiv besprochen.

Unabhängig davon sollte jeder, der sich nicht tracken lassen will, Third-Party Cookies verbieten. Dies geht in jedem Browser (unterschiedlich leicht, ist zum Teil in Advanced Settings verborgen) und ist eigentlich fast immer ohne Nebenwirkung. Es bringt aber nicht sehr viel, wie ich weiter oben bereits erklärt hatte.

Ich verwende zusätzlich noch einen hosts file der die IP-Adressen aller Werbefirmen und Tracker sperrt (hier mehr Infos dazu) - (Dieser Trick ist aber nichts für PC-Laien, man sollte wissen, was man da tut sonst kann es überraschende Nebenwirkungen geben - so muss man z.B. den DNS-Service anders konfigurieren).

 

Private Browsing / InPrivate Browsing

Moderne Browser bieten einen Modus für Private-Browsing. Der hat aber ganz andere Funktionen und das wird oft verwechselt. Wenn der Anwender in diesen Modus wechselt, so löscht der Browser am Ende der Private Browsing-Sitzung die History (Verlauf), etwaige Cookies, Einträge in den Cache, etc. D.h. diese Sitzung hinterlässt auf diesem PC keine Spuren. Dieser Schutz dient fast ausschließlich dem Schutz gegen Mitbenutzer des gleichen Rechners, die evtl. neugierig sein könnten ob der Partner evtl. Pornoseiten besucht. Dieser Modus macht den Benutzer NICHT im Internet anonym. Als Nebeneffekt verschwinden auch Tracking Cookies, die in dieser Sitzung angelegt wurden, aber auch etwaige Opt-Out Cookies. - Soweit die Theorie. Test haben leider ergeben, dass das nicht so ganz stimmt: Private-Browsing-Modus schützt nur unzureichend. Eigentliche alle Browser haben bei der Implementierung Schnitzer gemacht und keine der Implementierung arbeitet wirklich zuverlässig (d.h. hinterlässt gar keine Spuren auf dem PC, nur im Internet selbst).

Diese Tricks verhindern aber natürlich nicht, dass einzelne Websites die sie besuchen, wie z.B. Amazon, ein Profil über sie anlegt.

 

Tipps zur Datensparsamkeit

Wer seine Suchanfragen bei Google platziert (und nicht bei einer der empfehlenswerten Alternativen, z.B. quant aus Frankreich, ecosia aus Deutschland, die versprechen, Bäume zu pflanzen oder Startpage aus den Niederlanden, duckduckgo.com), der sollte z.B. seine Emails an anderer Stelle verarbeiten lassen. Hotmail-Nutzer hinterlassen bei Microsoft viele Informationen über sich selbst und wenn sie dan auch noch die Xbox und Bing verwenden, dann fließen noch mehr Informationen zusammen.Bessere Mailanbieter sind z.B. mailbox.org aus Deutschland oder protonmail aus der Schweiz.

 

Erzeugung einer falschen Identität

Mai 2012, Juni 2019:
Eine Autorin hat 2012 in der NY Times zusammengestellt, welche Möglichkeiten jemand hat, seine Spuren im Internet zu verschleiern: How to Muddy Your Tracks on the Internet. Sie erwähnt dabei einen wichtigen zusätzlichen Punkt: Nehmen Sie für jeden Dienst einen anderen Anbieter!

2019 greift Mozilla (die Entwickler von Firefox und Thunderbird) diese Idee auf und entwickeln Track This. Das ist eine Website, mit deren Hilfe Internet-Nutzer den Trackern eine falsche Identität vorgaukeln können. Man kann es verschiedenen Profilen wählen mit denen man getrackt werden möchte. 2 Probleme dabei: Wenn der Rechner so eingestellt ist wie meiner, mit viel Tracking-Schutz, siehe oben, dann geht das alles nicht. Außerdem muss man realisieren, dass dann bei den Trackern wirklich die falsche virtuelle Identität entsteht. Und die könnte bei Bewerbungen oder anderen zusammenhängen evt. mal relevant werden und müsste dann erklärt werden.

 

 

Weiterführende Informationen

Das Thema ist Teil der größeren Problematik Schutz der Privatsphäre, die an anderer Stelle ausführlich diskutiert wird. Ebenso das Spezialthema Data Mining. Weitere Information auch in der Wikipedia unter Anonymität im Internet.

Hier ist eine sehr interessante, umfangreiche Studie der Firma Xamit. Sie haben untersucht, welche Tracking-Technologien Website-Betreiber einsetzen und ob sie ihre Kunden darüber informieren (PDF, 1,5 MB). Die kurze Antwort: jede Menge Tracking und in der Regel heimlich, d.h. sehr oft lügen die Firmen dann in ihrer Vertraulichkeitserklärung - Stichwort, bei uns werden keine Cookies und keine JavaScript verwendet. Zumeist wird dabei Google Analytics eingesetzt, das sehr wohl beides einsetzt und die Daten in die USA exportiert.

 

 



Philipp Schaumann, https://sicherheitskultur.at/


zeigende Hand als Hinweis auf Verlinkung zur HauptseiteHome

Copyright-Hinweis:
Das Copyright des Materials auf diesen Webseiten liegt, falls kein anderer Autor genannt wird, bei Philipp Schaumann. Creative Commons License Icon
Diese Texte sind lizensiert unter der Create Commons Attribution-Noncommercial-Share Alike 2.0 Austria Lizenz. Natürlich gelten auch die Regeln des Fair Use und über Ausnahmen bzgl. der Lizenz kann jederzeit mit den Autoren gesprochen werden.