Home      Themenübersicht / Sitemap      Notizen      Webmaster      

 

 

 

Wir basteln uns einen gläsernen Menschen - De-Anonymisierungen

Autor: Philipp Schaumann - zuletzt aktualisiert Dez. 2016

In diesem Artikel geht es um die Techniken zur Informationsgewinnung über möglichst viele Menschen.
Verwandte Themen werden an anderen Stellen behandelt: Spuren im Internet, Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre, sowie Beispiele für den Verlust an Privatsphäre.
Ein weiteres verwandtes Thema ist Data Mining. Neu: Wie wir manipuliert werden. An anderer Stelle gibt es mehr zu den Tracking Techniken im Internet.

Eine sehr schöne Infographik mit 4 Szenarieren Wie wir überwacht werden bringt Der Standard aus Wien. Sie zeigen ein Profil aus Gesundheitsdaten, politischer Einstellung, Standortdaten und Videoüberwachung - alles real, keine Science Fiction.

Weiter unten eine aktuelle Story aus Herbst 2016: Ein populärer Browser-Plugin namens WOT warnt vor gefährlichen Website und die dabei gesammelten Tracking-Daten werden anonym weiterverkauft, nur sind die leider nicht anonym.

Ziel dieses Artikels ist es, die Techniken zu erklären, mit deren Hilfe der oft zitierte „gläserne Mensch“ erzeugt wird. Zuerst einmal die Frage wer diese (potentiellen ?) Datensammler sind, die sich dieser Techniken bedienen. Der erste große Block sind die Marketing Leute. Sie sind diejenigen, die derzeit am heftigsten an diesen Techniken arbeiten und sie auch bereits flächendeckend einsetzen.

 

Link-Konventionen:
Fette Links öffnen ein fremde Seite in einem neuen Fenster
Blau hinterlegte Links bleiben auf der sicherheitskultur.at

 

Wer ist an De-Anonymiserungen interessiert?

Erster Interessent an den Daten: Die großen Unternehmen und ihr Marketing

Für Marketingzwecke ist es sehr interessant, die Interessen der Personen zu kennen, die gerade auf einer bestimmten Website eingeloggt sind. Auf diese Weise kann dort Werbung platziert werden, diese Person auch anspricht. Werbetreibende interessieren sich jedoch heute auch immer mehr für das soziale Umfeld um z.B. Schlüsselpersonen zu identifizieren, deren positive Meinung über ihr Produkt andere beeinflussen könnte. An anderer Stelle erkläre ich, welche negativen Auswirkungen benutzer-bezogene Werbung hat.

Zweiter Interessent an den Daten: Rating von Kreditwürdigkeit und mehr: der Weg zur Rating-Gesellschaft

Der gläserne Mensch ist jedoch auch für andere Wirtschaftszweige interessant, z.B. die Datenhändler wie die Kreditschutzverbände. Der Skandal rund im die Schufa in 2012 zeigt, dass es dort konkrete Überlegungen gibt. Über mehr als nur Überlegungen außerhalb von Europa berichet im Juni 2012 die Futurezone: Big Data entscheidet über die Kreditwürdigkeit. Der Bericht sagt, dass bisher zwar Data Mining Techniken zur Abschätzung der Kreditwürdigkeit genutzt werden, jedoch (bisher) nicht basierend auf öffentlichen Daten wie denen in den Social Networks. Das ist aber außerhalb von Europa (da wo viele der Websites liegen, die wir benutzen) oft ziemlich anders.

In den USA verurteilte die FTC (fair trade comission) ebenfalls in 2012 die Firma Spokeo zu 800 000 $ Strafe, weil diese beim Verkauf ihrer Daten an Banken und Personalabteilungen diverse Gesetze übertreten hatte. Sie beziehen nämlich auch Daten aus sozialen Netzwerken in ihre Bewertungen ein. Das ist in den USA OK, solange die Daten nicht für die Nutzung von Kreditwürdigkeit genutzt werden. In dem Fall gelten relativ strengere Regeln, im Gegensatz zu der eher "wild west" Mentalität bezüglich Datenschutz im Allgemeinen.

Lori Andrews: I Know Who You Are and I Saw What You Did: Social Networks and the Death of Privacy
Das Buch beschreibt so ziemlich alle Beispiele die hier auf der Website zu finden sind, aber natürlich ausführlicher (und linear lesbar).

Vieles von dem was in diesem Artikel beschrieben wird mag zwar für den einen oder anderen Leser gruselig erscheinen, es ist aber durchaus legal, selbst in Europa. Legal ist das Sammeln von Daten z.B. immer dann, wenn ein Benutzer beim Akzeptieren der Geschäftsbedingungen dieser Nutzung seiner Daten zugestimmt hat. Und es ist legal, wenn die Daten öffentlich zugänglich sind (z.B. öffentliche Facebook-Profile, Twitter-Tweets, das öffentliche Telefonbuch und ähnliches).

Facebook hat ein Patent angemeldet das folgendermaßen klingt:

    "Wenn ein Individuum einen Kredit beantragt, prüft der Gläubiger die Kreditwürdigkeit derjenigen Mitglieder in sozialen Netzwerken, die mit dem Individuum vernetzt sind."

Andererseits hat 2016 Facebook mit Hinweis auf seine Geschäftsbedingungen die Nutzung von Facebook-Profilen zur Berechnung der Autoversicherungs-Prämie untersagt. Die englische Versicherung wollte aus dem Schreibstil der Postings auf die "Gewissenhaftigkeit" des jungen Fahrers schließen. Interessant: Apple hat auf Kapitel 3, Punkt 15 der Platformrichtlinien verwiesen: "es ist untersagt, von Facebook erhaltene Daten [zu verwenden], um Entscheidungen bezüglich einer Berechtigung, Eignung oder Auswahl zu treffen". Ich bin jedoch skeptisch, wie lange sich solche Ratings mit formalen Tricks verhindern lassen, der Trend liegt in der Luft.

Weiter hinten mehr zur Frage der Legalität von solchen Ratings in Europa.

Zur Frage "Was sind die Daten der Benutzer im Internet eigentlich wert?" versucht Bruce Schneier folgende Antwort:

    Google's 2013 third quarter profits were nearly $3 billion; that profit is the difference between how much our privacy is worth and the cost of the services we receive in exchange for it.

Einen Artikel zum Thema Kredit-Scoring bringt die ARGE-Daten in einem Beitrag, der die Rechtslage in D und Ö beschreibt. Das deutsche Gesetz besagt:

    . . . .genutzten Daten unter Zugrundelegung eines wissenschaftlich anerkannten mathematisch-statistischen Verfahrens nachweisbar für die Berechnung der Wahrscheinlichkeit des bestimmten Verhaltens erheblich sind,

Die Gefahr besteht, dass die Friends, die jemand in Facebook hat, wirklich nachweislich eine Wahrscheinlichkeitsaussage über die Rückzahlung erlauben, und dass es damit legal ist, diese Daten zu nutzen. Trotzdem haben wir es hier mit einer Diskriminierung auf Grund eines sozialen Umfelds zu tun.

Ein Artikel aus 2015 Wenn Algorithmen über die Bonität entscheiden beschreibt die Aktivitäten mehrerer Startups in den USA, deren Geschäftsmodell darauf beruht, dass der Kreditsuchende sein Leben sehr weit offen legt (z.B. über Freigabe seines LinkedIn Social Network Accounts) damit das Unternehmen seiner Kreditwürdigkeit berechnen kann. Kritisches Zitat aus dem Artikel:

    "Diese Data-Mining-Herangehensweise ist in den meisten Fällen nicht effektiv. Zufällige Charakteristika der Persönlichkeit sagen kaum etwas über die zukünftige Bonität aus." Fader bemängelt die Methodik. "Die Modelle, die zu diesen falsch positiven Ergebnissen führen, ermangeln statistischer Aussagekraft, um wahre von falschen Effekten zu unterscheiden."

 

 

China’s Social Credit System (SCS)

China ist übrigens auf dem Weg zur Rating-Gesellschaft schon ein ganzes Stück weiter. China’s Social Credit System (SCS) ist dabei, die Ratings von privaten Firmen zu übernehmen und omnipräsent machen. Schon heute hat jemand, der mit der Alibaba-App "Sesame Credit" kräftig einkauft, viele Vorteile im echten Leben, bis hin zu leichterer Visa-Erteilung für Reisen nach Singapur. Oder wer in Hangzhou ermäßigte Fahrkarten kauft, der wird abgewertet

Jennifer Helsby berichtet bereits Ende 2015: "So verweist sie auf das Social Credit System hin, das die chinesische Regierung derzeit für ihre Bürger einrichtet. Hierbei werden aus Daten wie Einkäufen, Zahlungsmoral und dem Verhalten in sozialen Netzwerken einen Scoring-Wert für jeden Bürger errechnet. Viele Teilnehmer sähen das System bisher positiv – so bekämen Menschen mit guten Score-Werten zum Beispiel besseren Service in Hotels geboten.

2016 wird das System konkreter: In die Bewertung fließen sehr viele Faktoren ein: Steuerdaten, Kreditverhalten, Zahlungsmoral bei Kreditkarten- und Infrastrukturanbietern, Gerichtskosten, Verhalten im Straßenverkehr, Einhaltung der Familienplanungsvorschriften, akademische Ehrlichkeit, freiwillige Tätigkeiten, Familientreue, Schwarzfahren und das Leumundszeugnis. Diese Beurteilung wirkt sich auf Versicherungsprämien, Zugang zu Luxushotels, Reisefreiheit, Stipendien und Schulzulassungen, Zugang zu Flugzeugen und Hochgeschwindigkeitszügen, Berücksichtigung für Regierungsjobs, Zugang zu Internetservices, Kreditraten und den Zugang zu sozialen Hilfestellungen. Bis 2020 will die Regierung das System flächendeckend einsetzen.

Kehrseite: Menschen mit niedrigen Werten auf der Staatsbürger-Skala haben Schwierigkeiten eine Arbeit oder eine Wohnung zu finden, Reisevisa können beschränkt werden. Helsby sieht in dem System ein "subtiles und hinterhältiges Mittel der sozialen Kontrolle". Sie sieht die Gefahr, dass die Menschen ihre politische Teilhabe gegen das Äquivalent eines Uber-Gutscheins eintauschen." Auch das Verhalten der "friends" in Social Networks geht ein, eine App soll die Werte der Anderen anzeigen. So wird soziale Kontrolle ausgeübt.

Die USA liegen auch nicht weit zurück

Die USA liegen nicht weit zurück wie dieser Artikel im Atlantic beschreibt: Scores of Scores: How Companies Are Reducing Consumers to Single Numbers. Auch die Polizei macht mit, sie rechnet einen "Threat Score" für jeden Bürger. Auch dort geht das Verhalten im Internet natürlich als wichtigen Faktor mit ein (postings, friends, ... ).

Fast alle der beliebten Internet Services haben Rating-Features: amazon für die Kommentare zu Büchern, Uber-Fahren und Airbnd Vermieter raten ihre Kunden, etc. Und hier ist ein Artikel über das Rating bei der Dating-Website Tinder.

In der NY Times hier die Rezensionen von 3 Büchern zum Thema Rating von Menschen. Die dort angedachte Idee, dass der normale Bürger solche Systeme austricksen kann, halte ich persönlich nicht wirklich für praktikabel. Die normalen Bürger schaffen es nicht mal, ihre Einkäufe vor den Datensammlern der Supermarktketten zu verstecken (nein, das Vertauschen der Karten mit Bekannten ist KEINE Lösung).

Hier noch ein Bericht aus New Scientist 2015 über Chinas Rating-Gesellschaft. Die Fernsehserie Black Mirror zeigt 2016 die Schrecken einer solchen Gesellschaft.

 

 

Von der Kreditwürdigkeit zum e-Scoring - zur "Rated Society"

Die Beurteilung der Kreditwürdigkeit ist in den meisten Ländern recht streng reguliert. Aber es entwickelt sich gerade ein neuer Geschäftszweig im Bereich Rating-Agenturen - die Vorhersage des Kaufverhaltens: e-Scoring.

Die NY Times berichtet in einem Artikel: Secret E-Scores Chart Consumers’ Buying Power. Die Firmen, z.B. eBureau mit ihrem Angebot eScore, analysieren Beruf, Gehalt, Wert des Eigenheims, bisheriges Konsumverhalten und viele weitere Parameter (siehe weiter unten) um mit einiger Wahrscheinlichkeit vorherzusagen, ob jemand ein potentieller profitabler Kunde werden wird, oder nicht. Die Telefonnummern der zukünftigen Profitbringer werden bei einem Anruf, z.B. auf Grund eines zugesandten Sonderangebots, automatisch erkannt und an spezielles Personal weitergeleitet. Diejenigen die als nicht-profitabel eingestuft wurden werden an ein indisches Call-Center weitergeleitet. eBureau behauptet, dass sie jeden Monat 20 Mio US-Bürger diesbezüglich beurteilen und deren Kontaktdaten an ihre Geschäftskunden weitergeben. Ein anderes Unternehmen, TruSignal, beurteilt 110 Mio US-Bürger pro Monat.

Mehr zu Kreditwürdigkeit und zu Diskriminierung durch Algorithmen auch an anderen Stellen.

eBureau arbeitet folgendermaßen: der Geschäftskunde übergibt ihnen die Kontaktdaten von möglichen Kunden, sog. Sales Leads. eBureau ergänzt diese Daten um bis zu mehrere Tausend weitere Profildatenund extrapoliert daraus bis zu 50 000 Variable für diese Person. Dieses Profil wird dann mit bereits bestehenden Kunden der Firma verglichen und daraus die Wahrscheinlichkeit eines profitablen Geschäfts abgeschätzt. Die potentiellen Kunden werden dabei ziemlich transparent. Es ist die Weiterentwicklung von Amazons "andere Kunden die dieses Buch gekauft haben kauften auch folgende Bücher" - aber mit viel mehr Hintergrundwissen, wie viel, das zeigt der Rest des Artikels.

Ein anderer Konkurrent, TargusInfo, berichtet über eine Kreditkartenfirma die ebenfalls bereits im Telefonsystem des Call-Centers beurteilen lässt, ob der Anrufer später mal viel Geld ausgeben wird und damit profitabel sein wird. So weit mag das ja noch relativ harmlos klingen, aber für einige Konsumenten kann dies bedeuten, dass ihnen viele Angebote gar nicht gemacht werden, z.B. weil sie von einer Telefonnummer angerufen haben, deren Besitzer schlecht geratet ist. Und dieser Trend zu einer "scored und rated society", wie die NY Times das nennt, kann so weit gehen dass auch bestimmte Weiterbildungsangebote nur noch denen zugestellt werden, die ein entsprechendes Rating haben.

Die engeren Vorschriften bei dem Rating der Kreditwürdigkeit dienen dazu, dass die Verbraucher die Möglichkeit haben, Fehler zu korrigieren (die natürlich wie in jedem System vorkommen) und sich nicht nur einfach zu wundern, warum sie keinen Handyvertrag bekommen. Doch bei diesen Rating-Unternehmen haben die Kunden keine Chance, je zu erfahren, warum sie auf bestimmte Weise behandelt werden, vermutlich werden sie nicht mal merken, wie gegen sie diskriminiert wird (da sie ja die alternativen Angebote gar nicht kennen).

Solch ein Scoring oder Ranking von Personen wird für die Internet-Prominenz durch den Dienst Klout angeboten: Microsoft steigt bei Ranking-Dienst Klout ein. Das betrifft aber nur Personen, die in Facebook, Twitter und einen Blogs eine sehr große Zahl von Followern haben, derzeit 2012 hat Obama das höchste Ranking mit 99 von 100. Klout ist für mich ein Jahrmarkt der Eitelkeit, das Konsumenten-Ranking ist eine ernstere Angelegenheit, die jeden von uns betreffen kann.

Mehr Beispiele für die Probleme von Behavioral Targeting auf meiner Seite zu 'Spuren im Internet'

Eine ganz andere Umsetzung des Themas Datenhandel und Data Mining - mit viel Ironie und als Spiel - versucht
Data Dealer.

An anderer Stelle berichte ich über ein Szenario 2020, das versucht, das Leben in einer kompletten Informations- und Datengesellschaft darzustellen.

Literarisch wird das Thema "Scoring (oder Rating) von Menschen" sehr gut in Zero und in The Circle dargestellt.

Ergebnis dieses e-Scorings ist, dass potentielle Kunden bereits in Klassen eingeteilt und unterschiedlich behandelt werden bevor sie überhaupt ihr Anliegen vordringen konnten. Webseiten passen sich automatisch an die vermuteten Finanzverhältnisse an: Auf Grund von Postleitzahl (bzw. Geolocation), Geschlecht, vermutetem Alter, vermutetem Beruf, Familiengröße, ethnischer Hintergrund wird dann heftig diskriminiert. So bekommen einige der Anrufer einen individuellen Rückruf, andere werden zur Warteschlange des Callcenters verbunden.

Bestimmte Angebote werden nur den Anrufern gemacht, die als potentielle "Big Spender" eingestuft werden. Noch unangenehmer ist es, wenn man als "Jemand mit Problemen" eingestuft wurde, z.B. weil man Webseiten besucht hat (oder in den Mails an Gmail-Adressen bestimmte Themen vorkamen), die sich mit Depression oder Übergewicht oder Bulimie beschäftigen. Ab dann wird die Person mit entsprechender Werbung überhäuft (und belästigt) werden, was bei entsprechender psychischer Labilität sehr belastend sein kann.

Eine Zeitung in Kalifornien berichtet Ende 2015, dass Jugendliche mittels Algorithmen auf ihre zukünftige Kriminalität untersucht werden und dann je nach Einstufung unterschiedlich betreut werden. Das Stichwort ist "predictive analytics". Solche Rating-Algorithmen haben eine Treffsicherheit von vieleicht 70%. D.h. 30% der Kinder werden falsch eingestuft und von vornherein als "kriminell" behandelt. Die Zeitung fühlt sich zu Recht an Minority Report erinnert.

Eine andere Zeitung berichtet Anfang 2016 dass die US-Regierung die Firmen in Silicon Valley gebeten hat, einen Algorithmus zu entwickeln, der Terroristen identifiziert. Vermutlich sollen die Firmen dann auch gleich die Daten verwenden, die wir bei ihnen zur sicheren Verwahrung abgegeben haben. Nachher gab es einen kleinen Rückzug, auch das Weiße Haus berichtet, dass das wohl keine gute Idee sei. Der Artikel bringt Zahlen dazu: Selbst wenn der Algorithmus 99,9% Treffsicherheit hätte, so gäbe es doch 60000 US-Bürger, die dann falsch kategorisiert würden und irgendwie eine Möglichkeit haben müssten sich zu wehren. Diese würde jede Justiz vollkommen überfordern. Dies zeigt aber die Naivität, mit der zum Teil an diese Themen herangegangen wird.

Bruce Schneier beschreibt zur gleichen Zeit dass das chinesische Rating-System nicht sehr unterschiedlichen von ähnlichen Systemen in den USA ist, die Risiken, die jegliches automatische Rating von Bürgern haben würde und schlägt Maßnahmen vor, wie dieses Problem reguliert werden könnte. Gute Vorschläge, aber ich bin skeptisch.

 

Dritter Interessent an den Daten: Polizei und Geheimdienste

Einen literarischen Zugang zu dem Thema bietet die Kurzgeschichte von Cory Doctorow „The Things that Make Me Weak and Strange Get Engineered Away“

Die letzte große Gruppe der Datennutzer sind die Strafverfolgungs- und Sicherheitsbehörden. Das Bild vom Big Brother von George Orwell bezieht sich eigentlich auf den Staat, der allgegenwärtig ist und alles sieht und weiß. Aber George Orwell hat sich wohl nicht vorstellen können, dass die eigentlichen Überwachungsmechanismen durch private Firmen betrieben werden. Staaten sind aber sehr stark an all diesen Daten interessiert. In den Jahren seit 9/11 haben speziell die USA versucht, große staatliche Datenbanken aufzubauen, mehr oder weniger halbherzig erschwert durch das Parlament. Jetzt gehen die staatlichen Behörden immer mehr dazu über, die Daten der privaten Datensammlungen zu nutzen, sehr oft durch Kauf oder einfach durch entsprechende Anforderungen.

Gute Beispiele für die Gier der Polizei- und Spionagebehörden für alle diese Daten finden sich unter den Stichworten PRISM, Tempora und SocMint

Die Kurzgeschichte von Cory Doctorow (siehe Kasten) zeigt, wohin eine extreme Nutzung von Überwachungstechniken führen kann. (Natürlich bin aber auch ich daran interessiert, dass Verbrecher im Internet gefunden und bestraft werden, und dafür müssen die Sicherheitsbehörden natürlich auch Zugang zu solchen Aktivitäten bekommen, zu klären ist dabei, in welchem Umfang und ob dafür wirklich eine flächendeckende Überwachung wie bei der Vorratsdatenspeicherung – notwendig ist, ich denke, nein.)

Dezember 2013 wird veröffentlicht, dass die NSA mit CO-TRAVELLER genau solche Netzwerke aus 5 Milliarden Handy Standort-Daten gewinnt.

Roman Maria Koidl:

Web Attack - der Staat als Stalker

Das Buch ist ein Warnruf. Der Autor stellt 5 Thesen auf und begründet diese auf ca. 100 Seiten recht schlüssig und sehr unterhaltsam.

These 1: Wir befinden uns auf dem Weg in die moderne Sklaverei

Er sagt: keine fremde Macht, sondern das virtuelle Ich das wir im Netz hinterlassen wird zu unserem Big Brother

These 2: Auf uns kommt Cyberkriminalität ungeahnter Dimension zu

Er sagt: Diese Datenberge sind nicht effektiv zu schützen, sie werden nicht nur ganz offiziell (mit unserer Zustimmung) gegen uns gebraucht, sondern auch von irgendjemanden für andere Zwecke missbraucht werden

These 3: Das Internet wird die nationale Rechtsstaatlichkeit beenden

Auch das beobachten wir bereits: Auch wenn die EU verzweifelt versucht, für die Daten von EU-Bürgern EU-Recht geltend zu machen, so zeigt die Praxis, dass dies scheitert.

These 4: Die totale Überwachung kommt

Er verweist auf den Trend zu immer mehr persönlichen Daten, z.B. durch persönliche Sensoren in Armbändern, Brillen, in der Wohnung, einfach überall. Stichwort: Internet der Dinge.

These 5: "Diktatur" wird privatisiert

Großkonzerne sind dabei, die Weltbevölkerung zu erfassen. Diktatur 2.0 bedeutet, mittels cleverer Algorithmen zu klassifizieren, Verhalten vorher zu sagen und unter Einsatz der Spieltheorie sogar zu steuern.

An anderer Stelle ein Zitat aus diesem Buch.

 

 

 

Background: Social Graphs versus Profile

Daten über Menschen im Internet fallen in 2 großen Klassen an: Profildaten und Social Graphs. Profildaten bezeichnen nicht nur die Daten die eine Person in einem Social Network über sich selbst eingegeben hat, sondern auch alle weiteren Informationen die über diese Person ergänzt werden können, z.B. das Surfverhalten im Internet, welche Websites besucht wurden, welche Produkt „liked“ wurden, welche Kommentare diese Person auf verschiedenen Websites zu welchen Themen eingegeben wurden, welche Bücher sie kauft, welche Musik sie hört und welche Filme sie sieht. Diese Daten fallen in der Regel nicht alle auf 1 Website an, sondern weit verteilt, deswegen sind die „Tracker“ sehr daran interessiert, die Daten von den vielen Websites zusammenzuführen und wie das z.B. mit Hilfe von Cookies geht, findet sich an anderer Stelle: Spuren im Internet.

6-degrees-of-separation oder das Kleine-Welt-Phänomen

Dies bezeichnet die Hypothese, nach der jeder Mensch auf der Welt mit jedem anderen über eine überraschend kurze Kette von Bekanntschaftsbeziehungen verbunden ist. Mehr dazu in der Wikipedia plus noch mehr hier.

Der zweite Datentyp ist komplexer, das ist der Social Graph. Dabei geht es um Vernetzungen zwischen Personen: wer kennt wen, wer telefoniert mit wem, welche Intensität und Qualität haben diese Beziehungen und Verknüpfungen. Diese Informationen fallen in ganz gebündelter und konkreter Form in den „Friend“-Listen der Social Networks an, aber auch jede Telefongesellschaft hat Social Graph Informationen und jeder Email-Anbieter, ebenso wie Twitter, Skype, etc. Schon 1967 wurde postuliert, dass über 6 Verknüpfungen jeder mit jedem verbunden ist (siehe Box links)

So ungefähr kann ein Social Graph dargestellt werden
Quelle: "Facebook friendships expose sexual orientation"
Klick für große Version

Die Informationen im Social Graph können sehr sensibel sein, denn wie wir noch sehen werden, sagen diese Verknüpfungen sehr viel über einen Menschen aus. Daher haben alle 3 Klassen von Datensammlern großes Interesse an diesen Informationen.

Social Graphs bestehen aus sog. Nodes (Knoten), die die Personen darstellen und sog. Edges (Kanten) die die Verbindungen abbilden. Die Edges können gerichtet sein (Person A ruft Person B an), unterschiedlich stark (es findet eine tägliche Kommunikation statt) und weitere Eigenschaften haben.

Wie bereits erwähnt liegen unterschiedliche Social Graphs über jeden von uns an ganz unterschiedlichen Orten vor: in den Social Networks, bei der Telefongesellschaft, beim Email-Hoster oder –Betreiber, bei den Followern auf Twitter, aber auch beim Einwohnermeldeamt (wer wohnt mit wem zusammen und sogar, wer ist Nachbar von wem). Weitere Social Graphs ergeben sich aus Location Informationen, z.B. wer war bei einem bestimmten Event (einem Rockkonzert oder einer politischen Demonstration), zu einer bestimmten Zeit in einem bestimmten Lokal, wer arbeitet für den gleichen Arbeitgeber, fährt mit anderen im gleichen Auto, Bus oder Zug. Aber auch Informationen wie welche Personen von der selben IP-Adresse aus ins Netz gehen geben interessante Daten für den Graphen.

Ein recht prominenter Graph, der für Forschungszwecke öffentlich zur Verfügung steht, ist der Enron Corpus. Das ist eine Datenbank von 600 000 Emails von 158 Enron-Angestellten (hauptsächlich Manager - bevor das Unternehmen in einem spektakulären betrügerischem Bankrott "in den Sand gesetzt" wurde). Die Emails wurden beschlagnahmt und für den Prozess aufbereitet, nun stehen sie für Netzwerkanalysen zur Verfügung.

Mit ähnlicher Software werden heute auch von den Ermittlungsbehörden Analysen über Emails und/oder Telefonanrufe durchgeführt, die die Strukturen von kriminellen Organisationen beleuchten sollen. Die Gefahr dabei ist, dass jemand nur auf Grund von statistischen Ergebnissen und Analogieschlüssel verurteilt werden könnte (das berühmte Beispiel vom Pizza-Lieferservice der im Zentrum der Anrufsbäume steht, das wird aber heute bereits bei den Analysen einkalkuliert).

Letztendlich sind aber alle diese mehr oder weniger unterschiedlichen Graphen ein Abbild der realen Beziehungen eines jeden Menschen. Das heißt, jeder einzelne solche Graph enthält Teilinformationen aus dem wirklichen Beziehungsgeflecht des Menschen. Mittels Integration weiterer Daten / unterschiedlicher Graphen können sich Data Mining Wissenschaftler mehr und mehr diesem realen Beziehungsgeflecht annähern.

Für solche Social Graph Daten gibt es viele Interessierte:

Quelle: NYT N.S.A. Gathers Data on Social Connections of U.S. Citizens: This slide from an N.S.A. PowerPoint presentation shows one of the ways the agency uses e-mail and phone data to analyze the relationships of foreign intelligence targets.

  1. Für Marketing und Werbung ist es hilfreich, wenn Communities mit ähnlichen Interessen identifiziert werden können und wer in der jeweiligen Community die Trends vorgibt
  2. Für Sicherheitsbehörden ergeben sich mögliche Hinweise auf Täterschaften (so kennen sich bei Morden in der Mehrzahl der Fälle Täter und Opfer vor der Tat), mögliche Mittäter oder Mitwissende. Gerade bei der sog. „organisierten Kriminalität“ deutet ja sogar der Name auf diese Verknüpfungen hin. Die Snowden-Papiere geben auch hier Hinweise, wie sehr die NSA an den sozialen Beziehungen aller Menschen interessiert ist, nicht nur die der Terroristen und der organisierten Kriminalität: N.S.A. Gathers Data on Social Connections of U.S. Citizens
  3. Für Kreditauskunfteien und Personalabteilungen ergeben sich aus dem sozialen Umfeld interessante Hinweise (das englische Sprichwort sagt: Birds of a Feather stick together, auf deutsch: Gleich und Gleich gesellt sich gern). Mehr dazu in den Studien weiter unten.
  4. Und ganz zuletzt erwähne ich noch die Sozialwissenschaftler, auf deren öffentlichen Informationen viele der Details in diesem Artikel beruhen, da sie die einzigen sind, die offen über ihre Forschungen und Aktivitäten berichten.
  5. Auch andere Kriminelle sind an diesen Informationen interessiert. So ist es für Angriff über Social Engineering extrem hilfreich, wenn der Angreifer das soziale Umfeld des Opfers kennt. Ein gutes Beispiel ist hier dokumentiert: HBGary gegen Anonymous

Meta Daten

Meta Daten, im Zusammenhang der Snowden-Veröffentlichungen, bedeutet fast immer: "wer kommuniziert mit wem". Diese sog. Meta Daten (oder Call Records) sind für die Behörden mindestens so interessant wie die Inhalte der Gespräche, denn daraus ergeben sich die Vernetzungen, von denen sich auch sehr gut auf die Inhalte schließen lässt.

Sept. 2014:
Wie "sprechend" bereits sog. Meta-Daten sind, wurde in einem Experiment in den USA getestet. Die Forscher haben untersucht, wie schwer oder leicht es ist, aus Telefonie-Metadaten ein Profil der Person zu erstellen. Die kurze Antwort ist: überraschend leicht und sgoar ohne die Möglichkeiten, die eine staatliche Behörde hat. Aus öffentlichen Quellen wurden 18% der angerufenen Nummern identifiziert, z.B. Ärzte, Behörden, Firmen, Kirchen, Restaurants, Bars. Anrufe bei einem Facharzt verraten oft, "wo es denn zwickt", Anrufe in einer Entzugsklinik oder bei den Anonymen Alkoholikern sind "sehr sprechend", ebenso Scheidungsanwälte, Abtreibungskliniken, etc.

 

 

 

Die Techniken: Die Ernte das Graphen

Der einfachste (und legalste) Weg um an diese Informationen zu kommen ist die Suche in öffentlich verfügbaren Informationen. Fast alle sozialen Netze drängen (oder zwingen) ihre Mitglieder, zumindest einige Informationen öffentlich zugänglich zu machen. Wenn gar keine Informationen über die Suchmaschinen (oder wenigstens eine Suche innerhalb des Netzwerks) zur Verfügung stehen so ist es schwierig, die Mitglieder des Netzes zu finden und sich mit ihnen zu verbinden. In den meisten Facebook-Profilen findet auch jemand der nicht Friend mit einer Person ist, Links entweder direkt auf eine Auswahl von Friends oder Links zu Beiträgen die andere auf der Seite dieser Person gepostet haben. Außerdem kennt Facebook sog. „Netze“, z.B. eine Universität und zwischen diesen Mitgliedern gibt es in der Regel weitgehende Einsichtmöglichkeiten in das Netz dieser Personen. Auch wenn ich hier hauptsächlich auf Facebook referenziere, so gelten diese Regeln für fast alle sozialen Netze, z.B. auch die Businessnetze wie Xing und LinkedIn.

Aber viel mehr Informationen bekommt der Datensammler wenn er ein paar falsche Profile anlegt. Dies ist zwar gegen die Nutzungsbestimmungen der meisten Netze, aber noch nicht illegal. Die meisten Netze führen einen Kleinkrieg gegen Mitglieder, die nicht ihre „richtigen“ Namen für das Profil verwenden, wobei die Definition des richtigen Namens sehr willkürlich ist und speziell anderen Kulturen (wie Indien oder China) überhaupt nicht gerecht wird. Viele Menschen, z.B. ich, sind nicht unter dem Namen bekannt, der im Pass steht. D.h. es ist kein großes Problem, sich mehrere Accounts zuzulegen, alles was man dafür braucht ist eine Email-Adresse pro Account. Attraktive Profilfotos (des anderen Geschlechts) erhöhen die Erfolgsquote, detaillierte Statistiken sind dazu verfügbar.

 

Crawler / Social Bots

Jetzt kommen sog. Crawler zum Einsatz, oder auch Social Bots. Social Bots sind Programme die sich in die Kontakte möglichst vieler Nutzern einschleichen und auf diese Weise an Informationen kommen, die nur für deren "friends" bestimmt sind. Das funktioniert ziemlich gut, weil ca. 20% der Nutzer auch Kontaktanfragen von Unbekannten annehmen. Diese Kontakte werden dann genutzt um bei den Friends dieser Erstkontakte weitere Kontaktanfragen zu starten. Das sieht dann so aus, als würde der Erstkontakt die Person kennen und dadurch wird eine Vertrauensstellung vorgegaukelt. Auf diese Weise lassen sich Netze sehr gut unterwandern.

Um ein Netz (ziemlich) vollständig abzudecken ist es nicht nötig, alle Teilnehmer als Friend zu haben, es reichen überraschend geringe Zahlen: Prying Data out of a Social Network (PDF). Um Zugang zu 50% aller Profile zu bekommen und 90% der Verbindungen zwischen den Mitgliedern muss die Zahl der falschen Profile 1% der Mitgliederzahl betragen (falls alle Mitglieder immer nur ihre Friends zugreifen lassen) oder nur 0,01% falls der Zugriff auch Friends-of-friends erlaubt ist. D.h. für reale Netze liegt die Zahl der notwendigen falschen Profile irgendwo dazwischen.

Weil vieles dafür spricht, dass an der Kleinen-Welt-Hypothese was dran ist und dass alle Menschen der Erde über 6 Edges miteinander verbunden sind, so ist es nicht sehr schwer, eine ziemlich gute Abdeckung der Verknüpfungen zu erreichen, speziell wenn auch noch andere Datenquellen, z.B. Adressbücher, siehe unten, genutzt werden.

Hier findet sich ein Web scraping tutorial für Entwickler.

2011: Socialbot Network finds it easy to harvest data from Facebook users

The researchers built an Socialbot Network (SbN) consisting of 102 Socialbots and a single botmaster, and ran the operation for eight weeks. During that time the SbN made 8,570 friend requests and recorded all of the profile information it was able to access from its newly found "friends". In all, the researchers' socialbots made Facebook friends with 3,055 people and grew its extended network to a total of 1,085,785 profiles.

The Socialbot Network: When Bots Socialize for Fame and Money

We operated such an SbN on Facebook — a 750 million user OSN (open social network) —for about 8 weeks. We collected data related to users' behavior in response to a large-scale infiltration where socialbots were used to connect to a large number of Facebook users. Our results show that (1) OSNs, such as Facebook, can be infiltrated with a success rate of up to 80%, (2) depending on users' privacy settings, a successful infiltration can result in privacy breaches where even more users' data are exposed when compared to a purely public access, and (3) in practice, OSN security defenses, such as the Facebook Immune System, are not effective enough in detecting or stopping a large-scale infiltration as it occurs.

 

(FQL, Facebook Query Language)

Diese Friend-Anfragen müssen übrigens nicht per Hand ausgeführt werden, Facebook (und andere Netze) bieten sog. API, d.h. Programmierzugänge über die alle Aktivitäten leicht zu programmieren sind (FQL, Facebook Query Language).

 

Fan-Pages

Natürlich müssen sich nicht alle Interessierten diesen Stress machen. Über die Zugriffsmöglichkeiten von Sicherheitsbehörden habe ich keine Informationen, aber jeder Firma steht es natürlich offen, sich Fan-Pages in Facebook anzulegen. Wer dann Fan dieser Firma wird hat damit seine Informationen, inkl. der Friend-Liste bereits freigegeben. Hier kommt vor allem die(FQL (Facebook Query Language) als Programmiersprache zum Einsatz.

 

Facebook-Apps

Noch ein guter Weg um an diese Daten zu kommen sind Facebook-Apps. Auch diese haben sehr weitreichende Zugriffsmöglichkeiten auf Profile und Netzwerke.

 

Smartphone Apps

Über Smartphone Apps kommt man an einen anderen Teil des Social Graphs eines Menschen, d.h. diese Daten ergänzen sich sehr schön. Fast alle Smartphone Apps holen sich (nachdem sie gefragt haben (oder auch ohne zu fragen) Zugriffsrechte auf Adress- und Telefonbuch. Die NY Times zählt z.B. Sommer 2012 folgende Smartphone Apps auf: Hipster, Locale, Uber, Yelp, Taxi Magic, Picplz, Scrabble, Waze, Gowalla, Hipster, Foodspotting, Twitter, Foursquare und Instagram.

Ganz konkret werden diese Kontakte dafür genutzt, die Email- oder Telefon-Kontakte einzuladen die gleiche App zu installieren. (das ganze ist ziemlich illegal, aber in diesem Fall ist der Benutzer der diese App installiert und ihr bewusst diese Rechte gibt derjenige, der gegen das Datenschutzgesetz verstoßen hat, falls er nicht vorher JEDEN einzelnen seiner Kontakte im Adressbuch gefragt hatte).

Den gleichen Trick nutzen übrigens auch fast alle sozialen Netze und dies führt dazu, dass auch diese einen deutlich erweiterten Social Graph haben, der auch viele Nicht-Mitglieder enthält. Hier findet sich mehr dazu, was soziale Netze Daten über Nichtmitglieder sammeln.

Legal oder illegal?

Und das Schönste für die Datensammler: alles was bis jetzt beschrieben wurde, ist immer noch legal (auch wenn es ein Verstoß gegen Nutzungsbestimmungen ist und von Facebook mit erheblichen Programmieraufwand mit Hilfe des "Facebook Immune Systems" (siehe rechts) verhindert werden soll, allerdings mit begrenztem Erfolg)

Facebook Immune System:

Schutzkonzept von Facebook, das auf Artificial Intelligence beruht und versucht auf der Basis von adversial learning Angriffe (wie Spam-, Malwareverteilung, Phishing, und auch „gestohlene“ Accounts und falsche Identitäten, aber auch Kettenbriefe) automatisiert zu erkennen und ebenso automatisiert Gegenmaßnahmen zu implementieren, die diesen Angriff so erschweren, dass er unprofitabel wird. Gegenmaßnahmen sind das Sperren von Eingaben (z.B. URLs zu Phishing Websites oder Malware), die Anforderung von zusätzlichen Authentisierungen oder das Sperren von Accounts.

 

Link Prediction („die kennen sich bestimmt“)

Jetzt wird es etwas komplizierter. Der ziemlich komplizierte Artikel One Plus One Makes Three (for Social Networks) erläutert und testet, wie sie aus den Kontakt- (oder Friend-)Listen von Mitgliedern deren Daten sie haben auch auf andere Personen schließen können. Grundlage ist die Annahme, dass wenn 2 Menschen (der Kontakte die Datensammler kennen) die überlappende Freunde haben, diese Freunde sich mit einer hohen Wahrscheinlichkeit auch kennen. (A kennt X und Y, B kennt ebenfalls X und Y, so kennen sich X und Y mit einiger Wahrscheinlichkeit auch).

Und je mehr Informationen ein Betreiber über das soziale Netz einer Person hat (Google kennt nicht nur die Friends in G+ sondern auch die Adresslisten und Email-Kontakte in gmail) so besser klappen diese Vorhersagen. Deswegen empfehlen einige Privacy-Schützer, verschiedene Dienste von verschiedenen Anbieter zu nutzen.

Wie gut die Vorhersage von Connections heute funktionieren kann zeigt diese Episode: Eine Frau in den USA bekommt von Facebook eine andere Frau als „friend“ vorgeschlagen, da sie wohl viel gemeinsam hätten. Das Gemeinsame, so stellte sich beim Betrachten der Hochzeitsfotos der anderen Frau heraus, war der Ehemann, der als Bigamist mit beiden Frauen verheiratet war.

 

Movement Prediction („der geht bestimmt als nächstes dortin“)

Wenn Ortsdaten systematisch gesammelt werden, so ist nach wenigen Tagen die Identität nich mehr anonym und nach einigen Wochen lassen sich Bewegungsmuster erkennen, die mit einer guten Wahrscheinlichkeit sogar vorhersagen lassen, wo der Überwachte einige Minuten später sein wird.

 

 

 

Die Ernte von Profildaten (und Daten die NICHT im Profil sind)

Manche Internetnutzer glauben, sie könnten dieses ganze System unterlaufen, indem sie z.B. nicht unter dem richtigen Namen registriert sind und nicht alle Informationen eingeben oder öffentlich freigeben, bzw. unrichtige Annahmen machen.

Legal oder illegal? (2)

Solche riesigen Sammlungen (wie links unter Datenaggregatoren beschrieben) und deren systematische Auswertung mit Statistikprogrammen sind in den USA (fast) immer legal, denn dort kennt das Gesetz das „Recht an den eigenen Daten nicht“. Beschränkungen gibt es in den USA nur in Teilbereichen, z.B. beim Kreditschutzrecht, wo der Betroffene ein Korrekturrecht hat (und deswegen die Firma Spokeo zu der oben erwähnten Strafe von 800 000$ verurteilt werden konnte).

Bestraft wurde Spokeo aber nur, weil sie diese sehr detaillierten Daten für Kreditvergabezwecke angeboten hatten. Dadurch sind sie unter das strenge Kreditschutzrecht gefallen. Daher gibt es immer noch diese detaillierten und durchaus intimen Daten, aber in der Werbung darf Kreditschutz nicht erwähnt werden. Spokeo schreibt jetzt auf ihrer Website, dass ihre Daten weder für Bewertung von Bewerbern oder Kreditwürdigkeit genutzt werden dürfen. Damit ist das jetzt legal.

In Europa sind die Gesetze strenger und eine derart große Datensammlung wäre hier schwieriger zu rechtfertigen. Hier kann der Betroffene über die Nutzung seiner Daten entscheiden und es gilt eine recht strenge Zweckbindung. Wenn eine Firma wie die OeBB Daten zum Zweck der Ausstellung einer Vorteilskarte erfragt und verarbeitet, so darf sie diese Daten nur dann für Marketingzwecke verwenden, wenn der Kunde dieser Verwendung ausdrücklich zugestimmt hat.

Solche Zustimmungen geben die Kunden aber in vielen Fällen durch die Zustimmung zu den Allgemeinen Geschäftsbedingungen (AGB) oder auf Websites durch das Anklicken von „Ich habe die Geschäftsbedingungen gelesen und akzeptiere sie“. Dort finden sich dann ziemlich oft Formulierungen wie „Daten werden zu Marketingzwecken an Partnerfirmen weitergegeben“. Wenn der Kunde diesen Abschnitt nicht aus dem Vertrag entfernt sind solche Sammlungen und Auswertungen auch in Europa legal.

(Anmerkungen: ich habe diesen Abschnitt aus dem Vertrag mit der OeBB herausgestrichen mit dem Ergebnis dass mir die OeBB einen neuen Vertrag zugeschickt hat, der diesen Passus nicht mehr enthielt. So gehört sich das! Ich habe solche Abschnitte auch schon aus Handyverträgen rausgestrichen, allerdings ohne dass dies eine Wirkung hatte. Beim Vertragsabschluss beim Kauf im Internet gibt es diese Möglichkeit leider nicht, da habe auch ich bestimmt schon vielen Datenweitergaben mit offenen Verwendungszwecken zugestimmt.

In Europa gilt: Wenn ein Kunde einer spezifischen Verarbeitung seiner Daten zustimmt, so ist diese Verarbeitung auch legal. D.h. wenn eine Firma Facebook-Fans hat und diese der Weitergabe ihrer Facebook-Profildaten für Marketing oder andere Zwecke zustimmen, so ist die Verwertung für Marketing Zwecke auch in Europa legal (das gilt natürlich genauso für alle anderen Netzwerke, Internetshops und alles weitere).

Beides ist nur sehr begrenzt wirksam, bzw. eigentlich ziemlich unwirksam. Wer z.B. seine Friend-Liste nicht öffentlich zugänglich macht, dessen Kontakte ergeben sich (zumindest teilweise) aus den Kontakten der Freunde, die nicht so vorsichtig sind.

Die Studie "Facebook friendships expose sexual orientation" weist dies nach. Wieder geht es nach dem Prinzip „Gleich und gleich gesellt sich gern“, oder „equal status contact“ in der Fachsprache. So zeigen Untersuchungen dass im Durchschnitt 65% der Kontakte von Männern ebenfalls Männer sind, bei Frauen sind sogar 70% der Friends andere Frauen. Dies ist bei Lesbian/Gay/Bi (LGB)-Personen nicht anders. Die sexuelle Orientierung konnten die Wissenschaftler aber trotzdem mit einer relativ hohen Genauigkeit feststellen weil ein Teil der LGB Community Mitglieder ihre Orientierung veröffentlicht und weil bei Mitgliedern der LGB Community 55% ihrer Friends ebenfalls der LGB Community angehören, bei den Heteros sind dies nur 4%. D.h. das Nicht-Eintragen der sexuellen Orientierung, bzw. falsche Angaben, bringen nicht viel, wenn Datensammler sich die Mühe der Auswertung machen.

Ein weiteres "schönes" Beispiel für das Gewinnen von Informationen die nicht explizit vorhanden waren ist die "Schwangerschaftsbestimmung" die die Supermarktkette Target in den USA auf Grund des Kaufverhaltens durchführt. Mehr dazu im Artikel zu Spuren im Internet. In dem dort verlinkten Artikel wird erklärt, wie die Steigerungsstufe von "Profil erstellen" dann "Verhalten verändern" ist. Target hat es geschafft, nicht nur zu erkennen, dass Frauen schwanger waren, sondern hat dann mittels gezielter Werbung daran gearbeitet ihr Verhalten gezielt zu beeinflussen.

 

Kategorisiert durch Facebook

Schon fast kurios ist die Beobachtung, die ein Werbetreibender auf Facebook gemacht hat. Er kann dort auch Themen wie „Kinderpornografie“, "Folter", „Nekrophilie“, „Sodomie“, „Anorexie“, „Kannibalismus“, „Inzest“, "Vergewaltigung", „Joint“ und „Pornografie“ als Zielgruppe angeben. Die Auflösung ist sehr einfach: Dies sind nicht Nutzer, die diese Themen mit Likes versehen haben, sondern Nutzer, die sich z.B. bei einer Selbsthilfegruppe registriert haben, "friend" von Hilfsorganisationen wie Amnesty International sind, etc. Aber auch das Liken eines satirischen Posts kann zu dieser Kategorisierung führen.

Warum führt Facebook diese Kategorien? Die Erklärung von Facebook ist, damit z.B. Hilfsorganisationen (NGOs) entsprechende Werbung an dieser Personen platzieren können. Der Artikel zeigt übrigens auch, wie ein Nutzer herausfinden kann, in welche Kategorien er/sie eingestuft wurde.

'Scrapers' Dig Deep for Data on Web
Das Wallstreet Journal berichtet 2010 wie die bekannte Medien-Rating-Agentur Nielsen (die bekannt wurde durch das Abschätzen von Zuschauerzahlen bei Fernsehsendungen) sich in dem Gesundheits-Blog PatientsLikeMe mehrere falsche Persönlichkeiten (als Dialogteilnehmer) anzulegen und dann nächtens alle Inhalte systematisch abzuziehen und zu verkaufen und zwar unter dem richtigen Namen im Rahmen von Profildaten. Auf dieser Website diskutieren Patienten über ihre Krankheiten, von Depression bis Multiple Sklerose. Nielsen hat, nachdem sie erwischt wurden, versprochen damit aufzuhören. Nielsen wurde übrigens nicht bestraft. Das war zwar sicher unethisch, aber in den USA nicht illegal. Entdeckt wurde das Ganze von den Administratoren von PatientsLikeMe da die Programme von Nielsen zu aggressiv waren und einen auffällig hohen Datenverkehr erzeugt hatten.

PatientsLikeMe verkauft übrigens weiterhin die Chat-Protokolle (wie in den Nutzungsbedingungen beschrieben) in anonymierter Form. Der Artikel verweist in diesem Zusammenhang auf die Firma PeekYou.com, die sich damit brüstet, dass sie Pseudonyme und Nicknames auflösen kann und dafür ein Patent beantragt hat, mehr dazu weiter unten.

 

"Gefällt-mir"-Button

Das Folgende klingt jetzt vielleicht harmloser, aber ist doch eigentlich recht brisant: Facebook, Google+ (und alle anderen Social Networks die entsprechende "Buttons" eingeführt haben tracken nicht nur, welche Artikel oder Produkte die Nutzer im Web auf ANDEREN Website "geliked" haben, sondern auch was sie gesehen haben ohne zu "liken". Das tut das offizielle Javascript des Like-Buttons, andere (entschärfte) Versionen die das nicht automatisch und sofort tun, sind zwar im Einsatz, aber entsprechen nicht den Nutzungsbedingungen. Allein Facebook hat angeblich rund 900 000 solche "Tracking-Like-Buttons" im Einsatz (2012).

Mehr zu Social Networks an anderer Stelle.

Das heißt diese Profile auf den Social Networking Websites enthalten nicht nur die sichtbaren Informationen, sondern im Hintergrund auch noch, welche anderen Webseiten und welche Artikel die Personen sich angesehen haben. Das ist ein extrem weitgehender Eingriff in die Privatsphäre: Auf fast allen Webseiten mit den entsprechenden Like-, Tweet-, etc.-Buttons wird ein differenziertes Interessenprofil der Nutzer angelegt (egal ob sie einen Facebook-, Twitter- oder Google+-Account haben oder nicht. Bei den eigenen Nutzern liegen die Daten dann unter dem realen Namen, bei den Nicht-Kunden eben anonym, aber das ist kein großes Hinderniss.

Und neben den Social Networks sammeln die großen Werbefirmen wie DoubleClick (jetzt im Besitz von Google) oder Alexa (im Besitz von Amazon) seit fast einem Jahrzehnt die Webseiten die wir besucht haben und sammeln mittels Tracking Cookies alles über unsere Interessen.

Das Problem Big Five

2014 zeigt eine Studie über die Auswertung der Likes, dass die blose Auswertung der Tweets oder Face-book-Postings oder Facebook-Likes einer Person eine Persönlichkeitsanalyse gemacht werden kann, die treffsicherer ist als die der Familienangehörigen. Dafür wird zumeist Big Five verwendet, ein Persönlichkeitskonzept, bei dem für jede Person (i.d.Regel durch Fragebogen) das Ausmaß von folgenden Faktoren bestimmt wird: Neurotizismus, Extraversion, Offenheit für Erfahrungen, Gewissenhaftigkeit und Verträglichkeit. Die Kategorisierung erfolgt an Hand dieser 5 Skalen (=Dimensionen). Es konnte z.B. gezeigt werden, dass die „Treffer-Rate“ von Familienmitgliedern schlechter ist als die simple Auswertung der Likes.

Aber es geht noch viel bizarrer: Der wired Artikel status update language used to predict Facebook users' age, gender, personality beschreibt, dass sich (angeblich) bereits aus der Wortwahl, aber auch der Satzlänge und der Wortlänge eine recht gute Einordnung in die Big Five Kategorien erstellen lässt. Ob sich auf diese Weise wirklich die Persönlichkeit beschreiben lässt, das ist nicht so wichtig, die Methode wird leider trotzdem eingesetzt und erlaubt z.B. eine automatisierte Persönlichkeitsanalyse von Bewerbern deren Social Network Auftritte bekannt sind.

Solche Big Five Analysen spielen dann (angeblich) auch bei den US-Wahlen 2016 eine große Rolle, neben dem anderen Problem der Fake News.

 

 

 

Datenaggregatoren klassifizieren jeden von uns

Forrester Research berichtet in einer Studie, dass allein der Markt für den Ankauf von Daten über (noch) Nicht-Kunden in den USA 2 Millard. US$ pro Jahr beträgt; zusätzlich geben die Firmen Milliarden für Creditratings, Market Research und Analyse ihrer Kundendaten aus.

Die NY Times berichtet über den US-Datensammler Acxiom, der Daten über 500 Mio Menschen gesammelt hat und zwar im Durchschnitt 1500 „Datenpunkte“ (Futurezone: Acxiom: Handel mit 500 Mio. Konsumentendaten). (Ähnliche Datenmengen haben die Konkurrenten LexisNexis, Epsilon, Equifax, BlueKai, Harte-Hanks, Merkle, Intelius, Meredith Corp. oder ChoicePoint – und das Ganze wird auch dadurch nicht besser, dass diese Sammlungen oft viele Fehler enthalten: Bei 67% der Acxiom- und bei 73% der ChoicePoint-Daten gab es Fehler in den Grundinformationen (Name, Adresse Telefon, Sozialversicherungsnummer). Epsilon kam 2011 in die Presse weil es sich einige Millionen Email-Adressen hatte abnehmen lassen, Acxiom hatte nennenswerte Datenverluste in 2003).

Viele dieser Datenpunkte stammen aus öffentlich zugänglichen Quellen und das sind in den USA nicht nur die selbstveröffentlichten Profildaten auf Facebook und LinkedIn, sondern das sind auch die Daten der Behörden, die dort auf Grund des „Freedom of Information Act“ durch die Behörden veröffentlicht werden müssen.

Acxiom brüstet sich damit, eine 360 Grad Ansicht einer Person bieten zu können und daran zu arbeiten, immer genauer das Verhalten eines Konsumenten voraussagen zu können (wie dies Target im obigen Beispiel auch gelungen ist). Der NY Times Artikel bringt konkrete Beispiele aus Präsentationen der Firma Acxiom wie ein Konsument von dem der Computer überzeugt ist, dass er an einer bestimmten Sache interessiert sein könnte, zum Kaufabschluss geführt wird. Auch Sonderangebote können dabei eine Rolle spielen – aber nur wenn die Analyse ergeben hat, dass dieser Mensch sich von so etwas rumkriegen lässt – eine von 70 Persönlichkeitsklassen in die Acxiom die Konsumenten einteilt.

Die Informationen können sehr tiefgehend sein, z.B. „Companies can buy data to pinpoint households that are concerned, say, about allergies, diabetes or “senior needs.” Also for sale is information on sizes of home loans and household incomes.” Oder: “Christian families,” “Dieting/Weight Loss,” “Gaming-Casino,” “Money Seekers” and “Smoking/Tobacco.” Und: “an individual’s race, ethnicity and country of origin.“

Aus der LA Times über die Firma Spokeo:

    Unlike other people search sites, Spokeo merges “real life” information (address, email address, marital status, etc.) with social network data (Facebook profiles, Twitter feeds, etc.) providing you with a profile that is among the most comprehensive profiles available on the Web.

Legal oder illegal? (3)

Bei diesen Daten die die US-Aggregatoren da sammeln (siehe linke Seite) würde es in Europa bei diesen “sensiblen” Daten auch bei einer Zustimmung des Betroffenen sehr eng werden, ich vermute, da reicht das Wegklicken einer AGB nicht aus. Denn nach dem österreichischen Datenschutzgesetz fallen darunter „rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse und philosophische Überzeugung, Gesundheit und Sexualleben.“

Die Grundsuche ist bei Spokeo für jeden kostenlos, für maximal 5$ im Monat gibt es weitergehende Infos, z.B. Adresse und ein Link zur Wohnung in Google Maps, Telefon, Alter, Geschlecht, ethnische Herkunft, Beziehungsstatus, "Life Style", Religion, Parteizugehörigkeit, Familienmitglieder, Ausbildung, "Credit Estimate", "Wealth Level", mortgage value, estimated income, investments, Typ der Wohnung, Ausstattung des Hauses (Pool oder nicht), aber auch informationen wie "self-driven", "donates to causes", "collects sport memorabilia".

Der Artikel The Code We Can’t Control beschreibt noch unangenehmere Kategorien, wie sie von solchen Datenaggregatoren verwendet werden um uns zu klassifizieren und zu bewerten, z.B. “probably bipolar”, “daughter killed in car crash”, “rape victim”, “STD sufferers” (Geschlechtskrankheit). Alle diese Informationen sind mit einer gewissen Wahrscheinlichkeit aus den Klicks, den Website-Besuchen und den Likes (den eigenen und denen der "Friends" zu entnehmen).

Nach den Berichten sind viele der Informationen falsch. Wenn diese Klassifizierungen nur für Werbung verwendet werden, so kann es extrem nerven, aber es wird zum echten Problem, wenn auf Grund dieser falschen Daten falsche Konsequenzen gezogen werden, z.B. bei einer Bewerbung oder bei einem Kreditantrag. Es ist ja gar nicht der Anspruch von Big Data, wahrheitsgemäße Aussagen über einzelne Personen zu machen, sondern für die Werbung reicht es, wenn eine Klassifizierung auf z.B. 60% zutrifft, das ist immer noch besser als Postwurfsendungen an alle Bürger. Im Einzelfall nervt es, wenn in den USA Personen die "Afro American" eingestuft werden, immer wieder Werbung bekommt, die sich auf die Kriminalität beziehen.

Aber natürlich werden diese Profile auch für persönliche Bewertungen genutzt. Dann wird es schlimm, wenn mir ein Job verweigert wird, weil mich der Algorithmus falsch eingestuft hat. Der Autor von The Code We Can’t Control berichtet von seiner eigenen Arbeit bei Google, dass es kaum möglich ist, die Klassifizierungen nachzuvollziehen. Zitat:

    If you ask an engineer, “Why did your program classify Person X as a potential terrorist?” the answer could be as simple as “X had used ‘sarin’ in an email,” or it could be as complicated and nonexplanatory as, “The sum total of signals tilted X out of the ‘non-terrorist’ bucket into the ‘terrorist’ bucket, but no one signal was decisive.” It’s the latter case that is becoming more common, as machine learning and the “training” of data create classification algorithms that do not behave in wholly predictable manners.

Ich versuche es anders zu erklären: Irgendwann wurde festgestellt, dass Menschen die als bipolar diagnostiziert wurden bestimmte Websites besuchen, "Likes" bei bestimmten Artikeln machen, bei ihren Tweets oder Facebook-Postings bestimmte Wortkombinationen verwenden, zu bestimmten Tageszeiten aktiv sind, etc. Diese Menschen fallen (mathematisch-statistisch) in ein sog. Cluster, eine räumliche Gruppierung in dem hoch-dimensionalen Raum. Der Trick des Algorithmus besteht darin, anderen Personen die durch ihre Klicks oder Likes in der Nähe dieses Clusters angeordnet werden, die gleiche Diagnose zuzweisen. Im Einzelfall ist daher nicht nachzuvollziehen, warum jemand (mathematisch) in die Nähe der Borderline-Patienten gerutscht ist.

    (Ein interessanter Nebenaspekt ist die Frage, wer eigentlich die Verantwortung für solche Entscheidungen trifft, wenn der Programmierer gar nicht mehr verstehen kann, was der Algorithmus im Detail tut, solche Fragen der Ethik von künstlichen Intelligenzen behandele ich auf meiner anderen Website)

Auf Spokeo (und den anderen Datenhändlern) werden auch Fotos aus dem Netz zusammengesucht, alles was öffentlich zugänglich ist (d.h. auch die, bei denen die Benutzer beim Posten nicht auf die Privacy Settings geachtet haben. Dazu kommen Kommentare, Postings, Produktbewertungen auf amazon, Filmwebsites oder eBay.

Die Informationen kommen von über 80 öffentlichen Quellen, Facebook, Flickr und Twitter sind nur einige davon. Mehr als 1 Mio Suchanfragen werden jeden Tag bearbeitet. Potentielle Arbeitgeber bekommen auf diese Weise ein sehr intimes Bild des Kandidaten (aber die Nutzung für diese Zwecke ist auf der Spokeo Website ausdrücklich verboten (auch wenn Spokeo Enterprise Abos anbietet, die mehrere 1000 Anfragen pro Monat erlauben).

An anderer Stelle gibt es mehr zu Datenverlusten bei Datenaggregatoren.

Der Artikel Escaping the ‘Scrapers’ listet auf, welche Firmen dazu zählen und wie jemand seine Daten dort korrigieren oder entfernen lassen kann.

 

 

 

Quelle: HBR, Vision Statement: Forget Viral Marketing—Make the Product Itself Viral:
The graphics above illustrates the explosive effect on adoption among 2 million Facebook users when viral features, such as user-generated personalized invitations, were added to a software app for sharing and discussing film-industry information.
Der HBR-Artikel bietet die große Version der Graphik

Virales Marketing als Gral der Werbe-Industrie

Eines der großen Ziele des modernen Marketing ist "viral marketing". Dabei geht es darum, dass das Produkt (oder der Service) sich wie ein Virus selbst verbreitet, und das möglichst unaufhaltsam. Ein Beispiel wäre z.B. wenn eine Produkt sei begeistert, dass jeder Kunde sofort allen seinen Freunden empfielt, dieses Produkt auch zu kaufen. Bei einem Produkt wie Skype, oder den Messaging Apps die langsam das alte SMS ablösen, geht es gar nicht anders. Sie können nur genutzt werden, wenn mein soziales Umfeld sie auch nutzt. Ob es sich um ein netz-basiertes Produkt handelt oder nicht, die Verbreitung geschieht auf jeden Fall entlang der Netze des Social Graphs, daher das große Interesse.

2 Forscher haben in einem Experiment untersucht, wie sich eine App am effektivsten verbreiten lässt, wer sind die Beeinflusser und wer sind die Beeinflussten. Die Ergebnisse sind am besten zusammengefasst in Who Wields the Most Influence on Facebook?. Der Einfluss ist abhängig vom

  • Alter (ältere sind einflussreicher)
  • Beziehungsstatus (verheiratet und single am einflussreichsten und verheiratete sind am wenigsten empfänglich)
  • Geschlecht (Frauen sind weniger empfänglich für Empfehlungen als Männer, aber Männer sind im Durchschnitt einflussreicher und empfänglich für weibliche Empfehlungen)

Weitere Ergebnisse: Entweder jemand beeinflusst, oder er lässt sich beeinflussen, beides gemeinsam ist eher selten. Und die einflussreichsten sind untereinander vernetzt:

    Some people are significantly more influential than others and they tend to be clustered in networks with other highly influential people, giving them the potential to be “super-spreaders” of influence; less susceptible — or more stubborn — people also tend to cluster together

Die Futurezone berichtet auch über diese Forschungen (und bringen einige zusätzliche Graphiken, die zeigen, wie die Beziehungscluster analysiert und dargestellt werden können). Der Artikel verweist dabei auch auf Geschichtliches:

    Die beiden Forscher popularisierten zwar den Begriff, doch der Grundgedanke ist alles andere als neu und geht auf den Altösterreicher Jacob Moreno zurück. Er stellte Netzwerke in den 1930er-Jahren grafisch in so genannten Soziogrammen dar. Der geborene Wiener und 1933 in die USA ausgewanderte Soziologe Paul Felix Lazarsfeld schrieb mit "The People`s Choice" (1944) eine der frühen, bahnbrechenden Studien über den Einfluss des sozialen Umfelds auf das Wählerverhalten. Mittlerweile interessieren sich Forscher verschiedener Disziplinen dafür, wie Netzwerke funktionieren: Physiker, Soziologen, Biologen, Psychologen, Mediziner, Ökonomen und Computerexperten.

2008 gab es Berichte von einer Konferenz in den USA, in der Ted McConnell, Manager of interactive marketing and innovation at Procter & Gamble auftrat.

    "Facebook's ability to aim at particular demographic groups is impressive", Mr. McConnell told the club. As an experiment, he and a colleague set up an ad that would target all Facebook members who were 22- to 27-year old women, who worked for P.& G., were left-leaning and living in Cincinnati, and who liked sex and Cocoa Puffs. Facebook provided one person who perfectly fit the profile. Speaking not as an advertiser but as a prospective recipient of such highly personalized messaging, Mr. McConnell said, "I'm not so sure I want to be targeted like that."

Mir zeigt dies, wie perfekt die Profilierung auf Grund der Inhalte in den Profilen bereits heute möglich ist. Jede Regierung die Angst vor ihren Bürgern hat (welche tut das nicht? - Hier gibt es mehr Beispiele zu den heutigen Überwachungsmethoden und Überwachungsgelüsten) wird sehr an solchen Profilen interessiert sein.

 

Gegenbewegungen Sommer 2012:

Wenn die Datensammler über jeden Bürger ca. 150 Profil-Aspekte (wie z.B. Einkommensgruppe, Bildungsstand, Qualität der Wohngegend, eigene finanzielle Bonität, finanzielle Bonität des Umfeldes, politische Interessen, politisches Engagement, Religion, kirchliche Aktivitäten, zahlt für karititave Organisationen, umweltbewusst, umweltfanantisch, benutzt Social Networks, ist auf Twitter aktiv, etc.) sammelt, so fragen sich einige Leute, warum kann ich dann nicht ein Programm beauftragen, für mich ein bestimmtes Profil, z.B. eines Raketenbauers, einer Mathematikers, eines Quantenphysikers zu "ersurfen"? So ein Programm ist entwickelt worden: Bogus Identity dashboard. Angeboten wird dies von breadcrumbssolutions.com

Ob das die große Lösung ist kann ich derzeit nicht beurteilen. Falls sich so etwas durchsetzen würde, so würde gleichzeitig eine heftige Gegenbewegung der Datensammler entstehen, so wie derzeit (2012) heftig gegen die No-not-Track-Feature in den Browsern gekämpft wird. Erstens wird so etwas bestimmt verboten werden (wie auch immer das durchzusetzen wäre, siehe die Bemühungen um das Erzwingen von Realnamen bei Google+ und Facebook). Anderseits können natürlich die Analyse-Programme versuchen, den Unterschied zwischen wirklichem Surfen und Robot-Surfen zu erkennen.

 

 

 

Firma PeekYou.com hat ein Patent darauf angemeldet, wie Pseudonyme und Nicknames aufgelöst werden können.
Quelle: Artikel 'Scrapers' Dig Deep for Data on Web

Die De-Anonymisierung von anonymen Daten

Hier der Link zu dem PDF meines Vortrags zum Thema Probleme bei der Anonymiserung von Daten, in dem die hier dargestellten Probleme illustriert werden.

Für alle, die glauben, dass die Angabe eines falschen Namens im Profil ihre Privatsphäre irgendwie schützen könnte habe ich eine unangenehme Nachricht: “We don’t want the name. The name is noise.”

Dies erklärt ein Techniker von Google In einem Artikel der NY Times "Rethinking Privacy in an Era of Big Data" ---- als Antwort auf die Frage, warum Google kein Interese an persönlichen Namen hat (Diese Meinung hat sich bei Google allerdings geändert, als Google Plus eingeführt wurde und dann noch mal in 2016, als Google Account-Profile direkt mit den Profilen aus Aktivitäten auf nicht-Gooogle Seiten verknüpft wurden).

 

2006: AOL

2006 wurde zum ersten Mal öffentlich demonstriert, dass mittels Data Mining eine große Datenbank mit vielen Detailinformationen über reale Menschen aufgebaut werden kann, auch wenn die Ursprungsdaten anonym sind.

AOL hatte, um Wissenschaftlern zu helfen, auf einer speziellen Website 20 Millionen Suchanfragen von 657 000 Kunden zur Verfügung gestellt, und zwar in anonymer Form. Die Anfragen sind nach Kunden geordnet, aber IP-Adresse und Name des Kunden wurden durch Nummern ersetzt (das nennt man Pseudonymisierung). Diese Daten sind mittlerweile ausgewertet worden und sie bieten einen guten Überblick, was einzelne Personen so alles gesucht haben.

Die erste der Personen ist mittlerweile auch bereits identifiziert und von der Presse angesprochen worden. AOL hat zwar die Website gesperrt, die Liste kursiert jetzt im Internet und es gibt eine Website, wo jedermann in den Daten stöbern kann.

AOL search data release reveals a great deal:

    The problem is that searches aren't anonymous, even if the screen names were withheld to protect the innocent. The New York Times proved this when it tracked down user 4417749, one Thelma Arnold of Lilburn, Ga., from her searches. . . . . . . . Take user 5450953. He apparently has a taste for kiddie porn, based on his searches for "lolita nudes," "underground kiddy porn pictures," "russianpreteennudes," and, most disturbingly, "see girls and animals having sex." Who is he? Let's narrow it down. He appears to own a 2004 Corvette ("need oil drain plug gasket for my 2004 corvette") and lives near Baltimore ("see telephone number of old wheel world in Baltimore"). He's also planning a trip to Vegas ("see the weather in las vegas" and "see showtime tours in las vegas"). That might be enough information for people who know him — "Hey, doesn't Steve own a 'Vette, and didn't he just come back from Vegas?"

Diese Netzknoten (=Personen) wurden identifiziert weil Suchanfragen grundsätzlich lokal und persönlich sind, wir stellen Fragen, die uns interessieren und betreffen. Jeder, der Suchanfragen abschickt stellt übrigens seinem Internet Service Provider (ISP) solche Daten zur Verfügung.

Hier eine Auswertung der AOL Daten.

An anderer Stelle mehr zu den Aktivitäten, bereits beim Internetanbieter den gesamten Datenverkehr abzufangen.

British Telecom als großer Internet Service Provider (ISP) in England war übrigens 2008 kurz davor, solche Daten zu Geld zu machen. Erst auf Grund deutlicher Proteste wurde dies wieder aufgegeben. Verhindern können wir dass unser ISP diese Daten sieht, indem wir die Suchmaschine über HTTPS aufrufen, was heute bei vielen möglich ist, aber selten genutzt wird. Auf jeden Fall hat aber der Betreiber der Suchmaschine, z.B. Google oder Microsoft, diese Daten und kann sie auch mit den anderen Daten, z.B. aus einem Social Network oder dem Email-Verkehr, zusammenführen.

 

Die Netflix-Daten wurden de-anonymisiert, indem der gleiche Film sowohl in den Netflix-Daten wie in der öffentlichen IMDB gesucht wurde, und zwar im Abstand von max. 2 Wochen. Wenn eine Person mehrmals Filme ausgeliehen und dann kommentiert hatte, so gab das die Identität preis

 

2007: Netflix

Der nächste Versuch der Pseudonymisierung von großen Datenmengen war 2007: Anlass war ein Wettbewerb, den der Videoverleiher Netflix ausgeschrieben hatte um seinen Empfehlungsalgorithmus zu verbessern. Der DVD-Verleiher stellte mehr als 50.000 Teilnehmern zwei Datensätze zur Verfügung. Der erste enthielt 100 Millionen Film-Bewertungen, zusammen mit dem Zeitpunkt der Bewertung, einer eindeutigen ID-Nummer für den Kunden und Informationen über den Film. Auf der Basis dieser Daten von 480.000 Kunden sollten die Wettbewerbsteilnehmer einen Empfehlungsalgorithmus erstellen, der 10% besser als Netflix eigener vorhersagen würde, wie diese Kunden andere Filme bewerten würden.

Die Daten waren derart schlecht anonymisiert, dass bereits nach wenigen Wochen zwei Wissenschaftler der University of Texas diverse Netflix-Kunden identifizierten. Sie verglichen dafür deren “anonyme” Reviews in dem Datenset von Netflix mit solchen, die in der Internet Movie Database veröffentlicht wurden. Dadurch ließen sich Aufschlüsse u.a. über die sexuelle Orientierung und politische Einstellung (pdf) der Betroffenen gewinnen.

Diese Netzknoten (=Personen) wurden identifiziert, weil den Knoten eine gemeinsame Eigenschaft („hat den Film xxx gesehen und zwar ungefähr am yyyyy“) mehrfach zugeordnet werden konnte. Der Rest ist Arbeit für die Computer.

Einige vermuteten an dieser Stelle, dass solche Datensammlungen nicht mehr zur Verfügung gestellt würden: AOL, Netflix and the end of open access to research data:

    First the AOL search logs last year, and now the Netflix database. With these two incidents, it is highly unlikely that any company will ever again share data with researchers.

Der Grund liegt darin, dass letztendlich immer ein realer Social Graph existiert und jede Datenveröffentlichung einen Ausschnitt aus dem größeren realen Graphen ist und darum mit anderen Daten zusammenpasst, egal ob mit realem Namen versehen oder nicht. Das bedeutet für jeden von uns, dass die Verwendung von Pseudonymen (Nicknames) im Netz nur sehr begrenzte Privatsphäre bietet, wie ich an anderer Stelle zeige. Dort verlinke ich auch auf einen Artikel in der Zeitschrift c't, für den die Redakteure in einem Experiment die verschiedenen privaten und beruflichen Identitäten eines Freiwilligen und die seiner Familie in einem großen Profil zusammengefasst hatten; als er das Ergebnis sah hat er die Veröffentlichung des Artikels verboten: Datenschutz-Fallrückzieher.

 

Wie anonymisiere ich richtig?

Ein sehr guter, aber recht technischer Text ist ein Bericht der Art.29 (Datenschutz) Arbeitsgruppe der EU zu korrekter Anonymisierung. Sie betonen, dass Anonymisierung ungleich Pseudonymisierung ist und dass beides eine Kunst ist, bei der es keine einfachen Rezepte gibt ("Namen" ersetzen durch ....), sondern dass immer der volle Datensatz und sogar das Umfeld betrachtet werden müssen, aus dem ein Angreifer (bzw. der berechtigte Empfänger der Daten) evtl. die Informationen ziehen kann, die zur De-Anonymisierung führen.

Wie schwierig es ist, anonym zu sein, zeigt 2014 auf spielerische Weise die Website I Know Where Your Cat Live. Der Autor zeigt, wie der Kernbestandteil aus dem sich das moderne Internet zusammen setzt (Katzenfotos) auf den Besitzer zurückverfolgt werden können.

2013: New York City Taxi and Limousine Commission

In 2014 veröffentlicht ein Masters Student der Northwestern University eine Studie, die er auf Grund der anonymisierten Records der New Yorker Taxifahrten machen konnte. Die Daten enthalten einen Hash der Taxinummer, Koordinaten von Anfangs- und Endpunkt, Datum, Uhrzeit und Preis der Fahrt: Riding with the Stars: Passenger Privacy in the NYC Taxicab Dataset.

Der Titel bezieht sich darauf, dass er für einige Prominente die jeweilige Fahrt eruieren konnte, da aus anderen Quellen (der Boulevarpresse) genügend Zusatzinformationen zur Verfügung standen. Außerdem konnte er für ein Striplokal an Hand der Taxifahrten eine Reihe der Kunden in Facebook wiederfinden. Der Kern des Artikels ist jedoch dass er die Mathematik angibt, mit der solche Datensätze behandelt werden müssen, damit sie nicht so einfach de-anonymisiert werden können.

 

Quelle: Personal Genome Project (PGP) - Die Darstellung zeigt die Überlappung zwischen den anonymiserten persönlichen Daten in der DNA-Datenbank und dem Wählerverzeichnis und das reicht aus für die Erkennung. Postleitzahl (ZIP), Geburtsdaten und Geschlecht sind "quasi-identifier". Diese finden sich in den Medizindaten und im Wählerverzeichnis. Der Überlapp identifiziert die Personen

2013: DNA Studie

Mit DNA hat diese Studie nur am Rande zu tun: die Wissenschaftlerin Latanya Sweeney hat im Rahmen eines DNA-Projekts aufgezeigt, dass die Erfassung von Geburtsdatum, Postleitzahl und Geschlecht zwischen 84 und 97% aller Teilnehmer identifiziert. Geburtsdatum, Postleitzahl und Geschlecht sind spezifisch genug für eine ziemlich gute Identifizierung. Das Beispiel zeigt, dass es gar nicht einfach ist, wirklich anonyme Daten herzustellen. In diesem Fall wäre vermutlich die Reduktion der Geburtsdatums auf das Geburtsjahr die Lösung gewesen. Hier der Link zum Artikel: Harvard Professor Re-Identifies Anonymous Volunteers In DNA Study.

 

2016: Die Daten der Browser-Erweiterung WOT ("Web of Trust")

NDR-Reporter decken einen Datenskandal in Deutschland auf. Das vielfach beworbene Browser-Plugin WOT ("Web of Trust") soll vor gefährlichen Websites warnen, aber dafür muss es die Surf-Daten an die zentrale weitermelden. Und die merkt, dass sie auf einem Goldschatz sitzen, nämlich dem Surf-Verhalten der Nutzer. Diese Daten verkauft WOT dann weiter, natürlich in anonymisierter Form, alles andere wäre ja illegal.

Das Problem ist, dass auch die Techniker oder Statistiker von WOT auf die gleichen Probleme reingefallen sind, wie alle obigen Beispiele: Die Daten sind alles andere als anonym.

Aus den Artikeln: "So seien die Daten sehr einfach konkreten Personen zuzuordnen gewesen und hätten intimste Details [2] aus deren Leben verraten. Rekonstruiert haben sie etwa Details zu laufenden polizeilichen Ermittlungen oder zu sado-masochistischen Vorlieben eines Richters, aber auch die internen Umsatzzahlen eines Medienunternehmens und Internetsuchen zu Krankheiten, Prostituierten und Drogen. Zu einem Manager aus Hamburg habe man einen Link zu einem von ihm genutzen Cloud-Speicher gefunden, über den Kontoauszüge, Lohnabrechnungen, eine Kopie des Personalausweises und mehr einsehbar waren." Aber auch die Politik ist betroffen: Intime Details von Spitzenpolitikern nachvollziehbar.

Hier beschreibt ein Reporter, wie es ihm ergangen ist, nachdem eine Kollegin ihn auf seinen Datensatz aufmerksam gemacht hat: Plötzlich nackt im Netz. Den Namen hat die Kollegin übrigens aus den pseudonymen Daten leicht gefunden, denn Twitter speichert den Benutzernamen im Link, d.h. ein einziger Zugriff zu Twitter und die Anonymität ist weg. Das gleiche gilt für Xing. Die anderen Dienste verstecken den Klartextnamen etwas besser, aber auch das ist für einen cleveren Menschen kein Problem.

Der Falter berichtet von einem Richter, der im Netz zuerst nach einer Robe gesucht hat und dann nach Sadomaso-Pornos. Oder ein Polizist, der einen vertraulichen Akt bei Google Translate übersetzen lässt. Auch die Politikerin die nach speziellen Medikamenten sucht ist evtl. erpressbar. Hier die Details von der ARD.

Bei dieser Geschichte kommt speziell die Story zu den Fehlern von AOL in Erinnerung: URLs, Links und Suchanfragen sind NIE anonym, dafür steht zu viel Klartext in den Links selbst drin.

 

Ganz nebenbei findet sich in einem Artikel der NY Times zum (2015) neuen Amazon Machine Learning Service (eine Konkurrenz zu ähnlichen Angeboten von Google und Microsoft) folgender Satz:

    Using conventional means, the company said, the team gained 92 percent accuracy in 45 days. Using the new Amazon Machine Learning product, one engineer reached the same accuracy in 20 minutes.

Lead Generation

(Aktualisierung Dez. 2012)
Die De-Anonymisierung ist mittlerweile zu einem echten Markt geworden, dort tummeln sich Firmen wie VisiStat, Relead und FullContact. Der Service den diese Firmen anbieten ist folgender: Surfer besuchen die Website eines Unternehmens und schauen sich dort Produkte an. Wenn dieses Unternehmen Kunde eines dieser Lead Generators ist, so nutzen diese dann ihre großen Datenarchive und ordnen diesen anonymen Besuchern Namen und vor allem Kontaktdaten zu. Dies gelingt durh die hier bereits beschriebenen Techniken, z.B. Korrelation mit Informationen auf Social Networks u.ä. Programme wie Ghostery zeigen den Besuchern an, ob eine dieser Firmen an ihrer Anonymität knuspert.

 

An anderer Stelle berichte ich über Dienste, die für jede Handynummer den weltweiten Aufenthaltsort zurückmelden. Eines der Unternehmen prahlt mit 10 000 Kunden in 180 Ländern, die diesen Dienst nutzen.

Spezialthema Ortsdaten / Location

In Zukunft werden noch viel mehr Datenpunkte über uns zur Verfügung stehen werden. Ein Grund ist, dass der Trend überall zu drahtlosen Verfahren geht, z.B. beim Bezahlen mittels NFC, bei der Benutzung von öffentlichen Verkehrsmitteln, beim Zutritt zu Gebäuden oder Events, etc. Selbst wenn so ein drahtloses Gerät keine Daten aussendet so identifiziert es sich zumindest mit einer Geräte-ID (in Verbindung mit dem Ort, an dem die ID versendet wurde) und mehr braucht es nicht zum Tracken von Personen. Viele Beispiele zur Problematik von Ortsdaten an anderer Stelle.

Systematisch gesammelte Ortsdaten (wie sie im Rahmen der Vorratsdatenspeicherung über alle die Bürger gesammelt werden, die mit einem Handy durch die Welt laufen) können niemals anonym sein, das zeigt ein kurzes Denkexperiment:

Mehr zu De-Anomymisierung auch in meinem Artikel zu Data Mining.

    Nehmen wir die Handy-Ortsdaten (die ja bereits aufgezeichnet und gesammelt werden) oder auch drahtlose Netzkarten für Busse oder Bahnen, bzw. die automatische Auswertung von Nummernschildern bei den Autofahrern (sofern sie nicht bereits ein Fahrzeug besitzt, das seine eigene GSM-(Handy)-Anbindung hat). Die Auswertung der Daten über einige Wochen wird für fast alle Bürger ergeben, dass sie einen sehr großen Teil ihrer Zeit an genau 2 Orten verbringen, die Nächte zu Hause und die Tage an der Arbeitsstätte. Eine Überlagerung dieser Ortsdaten mit Daten aus anderen Quellen (wie dem Einwohnerregister) ergibt sehr schnell eindeutige Zuordnungen: Wie viele Menschen im gleichen Haus arbeiten an der gleichen Arbeitsstätte.

Zur mangelnden Anonymität jeglicher Bewegungsdaten hier ein BBC-Bericht aus 2013: Mobile location data 'present anonymity risk'. Hier die Studie dazu: Unique in the Crowd: The privacy bounds of human mobility: "We study fifteen months of human mobility data for one and a half million individuals and find that human mobility traces are highly unique. In fact, in a dataset where the location of an individual is specified hourly, and with a spatial resolution equal to that given by the carrier's antennas, four spatio-temporal points are enough to uniquely identify 95% of the individuals."

 

Jan. 2015: De-Anonymisierung von Taxi-Fahrten
In der Presse gibt es nun Berichte über Studien, die der Fahrtdienst Uber bereits in 2012 gemacht hat: Uber analysiert One-Night-Stands seiner Nutzer. Das Beispiel zeigt, was in Ortsdaten so alles drin steckt. Letztendlich weiß aber eine App die kontinuierlich den Standort des Nutzes erfasst noch viel mehr über die jeweiligen Smartphone-Besitzer und deren kleine Geheimnisse.

 

April 2015: Geotagging durch "Total Variation Minimization"
Hier geht es um die De-Anonymisierung von Postings auf Twitter oder Facebook. Der Trick basiert auf der Erkenntnis, dass die Mehrzahl der Friends oder Follower in einem sozialen Netz aus der näheren Umgebung stammen. Und wenn von einem Menschen der Standort bekannt ist, so können die Aufenthaltsorte der anderen bestimmt werden, indem das Programm den Ort sucht, bei dem die Summe der (gewichteten) Abstände zwischen allen Kontakten ein Minimum ist - einfach, aber es klappt. Hier die Studie Geotagging One Hundred Million Twitter Accounts with Total Variation Minimization.

 

 

 

Und die Zukunft? Viel mehr Daten und Gesichtserkennung flächendeckend

Ein riesiger Schritt zum gläsernen Menschen steht uns in Kürze bevor: Gesichtserkennung oder Face Recognition, in Verbindung mit Überwachungskameras, Datenbrillen oder entsprechenden Smartphone-Apps.

In diesem Artikel ging es um die Techniken zur Informationsgewinnung über möglichst viele Menschen. Verwandte Themen werden an anderen Stellen behandelt: Spuren im Internet, Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre und Verlust an Privatsphäre. Ein weiteres verwandtes Thema ist Data Mining. Neu: Wie wir manipuliert werden.

Ab 2008 gab es Face recognition in Picasa, 2009 in face.com’s friend-finder app, ab 2011 implementierte Facebook Face recognition. Sicherheitsbehörden haben derzeit bereits Zugriff auf Geräte die Personen auf einige Entfernung (wieder-)erkennen können. Facebook hat eine riesige Sammlung von Fotos, die sich für Gesichtserkennung eignen (überraschend viele Facebook-Nutzer haben aber Fotos, die sich NICHT eignen, z.B. weil sie nur Teile des Gesichts zeigen oder Sonnenblumen und ähnliches).

Trotzdem werden wir alle irgendwann Apps (im Smartphone oder gleich in einer entsprechenden Datenbrille) bekommen mit deren Hilfe ich durch die Straßen gehen kann und über den Köpfen der Passanten werden die Details angezeigt, die in öffentlichen Datenbanken (wie z.B. Facebook) über sie zu finden sind. Behörden werden auch Zugriff zu Informationen haben, die nicht-öffentlich sind.

Mehr zu Gesichtserkennung in einem anderen Beitrag.

 



Philipp Schaumann, http://sicherheitskultur.at/

Home

Copyright-Hinweis:
Das Copyright des Materials auf diesen Webseiten liegt, falls kein anderer Autor genannt wird, bei Philipp Schaumann. Creative Commons License
Diese Texte sind lizensiert unter der Create Commons Attribution-Noncommercial-Share Alike 2.0 Austria Lizenz. Natürlich gelten auch die Regeln des Fair Use und über Ausnahmen bzgl. der Lizenz kann jederzeit mit den Autoren gesprochen werden.