In diesem Artikel geht es um die Techniken zur Informationsgewinnung über möglichst viele Menschen.

Eine sehr schöne Infographik mit 4 Szenarieren Wie wir überwacht werden bringt Der Standard aus Wien. Sie zeigen ein Profil aus Gesundheitsdaten, politischer Einstellung, Standortdaten und VideoÜberwachung - alles real, kein Science Fiction.

Rating-Gesellschaft: Der gläserne Mensch - überall bewertet, kategorisiert und bei Bedarf auch de-anonymisiert

Autor: Philipp Schaumann - letzte Ergänzungen Okt. 2024

Vertrauensaufbau in der Internetgesellschaft

In der Internetgesellschaft sind bei den Kontakten zwischen eigentlich anonymen Menschen die tausende Jahre alte Verfahren zum Vertrauensaufbau entweder über direktes Kennenlernen oder über Reputation in einem gemeinsamen Umfeld nicht mehr möglich. Wenn Kredite, Käufe und Verkäufe, Vermietungen, Restaurants, Kurzzeitjobs ("Gigs") und ähnliches nur über das Internet vermittelt werden, so wird eine andere Möglichkeit benötigt, "Vertrauen" herzustellen. Dies geschieht dadurch, indem Menschen sich nach einer erfolgten Interaktionen mit einem "Rating" beurteilen, oft sogar gegenseitig. Diese Beurteilungen werden dann an die "Accounts" der Personen verknüpft und stellen die Basis für die Beurteilung durch andere her. Dies ist die Basis für Vertrauen auf eBay, Uber, AirBnB, die Rezensionen auf Amazon, bei den Restaurant-Plattformen und vielen anderen.

Neben diesen plattform-spezifischen Beurteilungen gibt es mittlerweile eine ganze Industrie, die versucht, plattform-übergreifende Bewertungen für jeden von uns zu erstellen - und die sind schon ziemlich weit. Solche generellen Ratings sind speziell für Erstkontakte hilfreich, z.B. wenn jemand als Neukunde bei einer Bank einen Kredit beantragt.

In diesem Artikel versuche ich zu beschreiben, auf welche Weise wir dadurch "transparent" werden. Denn jede dieser Beurteilungen ist ja (mehr oder weniger) öffentlich und macht uns auf eine gewisse Weise transparent. Dafür müssen wir untersuchen, wer die Datensammler und wer die Datenverwerter sind.

2022: Apple und Google wollen das Tracking ändern

Schon seit einiger Zeit gibt es Bemühungen von Apple und Google, das allgegenwärtige Sammeln von Daten während wir im Web surfen, gründlich zu ändern - nicht etwa abzuschaffen, sondern nur zu ändern.

Firmen, die von Werbung leben, z.B. (fast) alle Medien-Unternehmen und die Social Networks, sind beunruhigt. Google sagt, dass Werbung natürlich wichtig sei, aber das Tracking sollte nicht so tief in die sensiblen Daten der Menschen gehen.

Apple hat das Datensammeln von Apps auf den iPhones eingegrenzt.

Ergebnis beider Initiativen ist, dass die Macht dieser beiden Firmen im Vergleich zu allen anderen, deutlich gestiegen ist. Wir werden nicht weniger getrackt, sondern anders. Hier ein Artikel der NYT: You're Still Being Tracked on the Internet, Just in a Different Way.

Wer ist an gläsernen Menschen interessiert?

Erster Interessent an den Daten: Die Marketing-Abteilungen großer Unternehmen und die Wirtschaft

Der erste große Block von Rating-Interessenten sind die Marketing Leute. Sie sind diejenigen, die derzeit am heftigsten an diesen Techniken arbeiten und sie auch bereits flächendeckend einsetzen. Für Marketingzwecke ist es sehr interessant, die Interessen der Personen zu kennen, die gerade eine bestimmte Website besuchen.

Wenn der (eigentlich anonyme) Besucher eingestuft und bewertet ist, so kann dort Werbung platziert werden, diese Person (hoffentlich) auch anspricht. Werbetreibende interessieren sich jedoch heute auch immer mehr für das soziale Umfeld um z.B. Schlüsselpersonen zu identifizieren, deren positive Meinung über ein Produkt andere Menschen beeinflussen könnte (z.B. sog. Influencer). Ziel ist es, diese Nutzer möglichst korrekt und möglist feinkörnig zu klassifizieren. Facebook und die anderen Social Networks sind dabei heute erschreckend detailliert, Beispiele sind z.B. Klassifizierungen wie "selbstmordgefährdet", "wertlos", "unsicher", "besiegt", "ängstlich", "dumm" oder "nutzlos". Viel mehr zu den Klassifizierungen der Menschen in Social Media an anderer Stelle.

Ziel ist in diesem Fällen möglichst treffgenaue benutzerbezogene Werbung. An anderer Stelle erkläre ich, welche negativen Auswirkungen benutzer-bezogene Werbung haben kann. Letztendliches Ziel ist eine Modifikation unseres Verhaltens.

Das Rating von Kreditwürdigkeit und mehr: der Weg zur Rating-Gesellschaft

Der gläserne Mensch ist jedoch auch für andere Wirtschaftszweige interessant, z.B. für Datenhändler wie die Kreditschutzverbände, auch in der Justiz, der Polizei, aber auch für die Personalabteilungen die mit Bewerbungen überschwämmt werden und auch für die Arbeitsämter.

2024: Aktualisierung zum AMS Algorithmus

Entscheidet die KI über Jobs? Höchstgericht lässt AMS-Algorithmus erneut prüfen:
"Die Datenschutzbehörde stoppte das Projekt im August 2020 wegen fehlender rechtlicher Grundlage. Das Verfahren war nun bereits bei Bundesverwaltungsgericht (BVwG) und Verwaltungsgerichtshof (VwGH).
"In einem neuen Verfahren muss nun vor allem erörtert werden, ob die Entscheidung über die Einstufung der Jobsuchenden "maßgeblich von den automatisiert errechneten Arbeitsmarktchancen bestimmt wird". Wäre das der Fall, müsste es eine explizite gesetzliche Grundlage für das Programm geben, andernfalls wäre es unzulässig." Hier der Link zur Website Stoppt den AMS-Algorithmus.

2020: Ähnlicher Algorithmus beim polnischen Arbeitsamt jetzt verboten

Bereits Mai 2014 hatte das polnische Ministerium für Arbeit und Soziales einen Algorithmus vorgestellt, Förderungen und Maßnahmen zum Arbeitswiedereinstieg effektiver verteilen soll. Dagegen wurde geklagt. Die Logik ist sehr ähnlich: 3 Gruppen, nur die mittlere Gruppe mit mittleren Wiedereinstiegschancen wird gefördert. Wie bei vielen solchen "Entscheidungshilfen" hat theoretisch der Mensch das letzten Wort: in Polen haben die Sachbearbeiter allerdings nur 0,58% der Fälle anders beurteilt. Hier die Details zum polnischen Algorithmus.

Anfang Juni 2018 hat das polnische Verfassungsgericht einen Teil der Bestimmungen aufgehoben. Das Gericht gab der polnischen Regierung 12 Monate Zeit, um das Gesetz grundrechtskonform zu gestalten. Da das nicht zur Zufriedenheit des Verfassungsgerichts passiert ist, wurde der Algorithmus schlussendlich eingestellt.

Österreichisches Arbeitsamt (AMS)

In Österreich wurde beschlossen, dass zur Optimierung der Mittel für die Unterstützung der Arbeitslosen ein Algorithmus eingesetzt werden wird. Die Idee dahinter ist auf den ersten Blick recht einleuchtend: Wenn Resourcen knapp sind, so sollen sie dort eingesetzt werden, wo der Ertrag mit hoher Wahrscheinlichkeit am höchsten ist - das ist so erst mal einleuchtend. An Hand des in diesem Fall recht dokumentierten Algorithmus kann man zeigen, welche Auswirkungen dies ziemlich sicher haben wird. (Der Algorithmus wird hier leicht verständlich beschrieben und hier ein Link zum Eingeben der eigenen Daten. Hier der Algorithmus im Detail und wie man sich wehren kann).

Update Feb. 2020 - jetzt wird bekannt: Die vorigen Links geben nicht wirkliche Vielfalt der Algorithmen wieder, es gibt 96 Varianten, das Beispiel ist für das kurzfristige Modell. Es gibt wohl Varianten für lang- oder kurzfristige Prognosen, für unterschiedliche Branchen, Dauer der Arbeitslosigkeit und Arbeitsmarktsituationen. In jeder der 96 Varianten haben die Variablen wie Alter, Bildung, Beruf, Geschlecht, etc. andere Gewichtungen. NGO Epicenter Work und eine Gruppe von Wissenschaftern von der TU Wien und der Akademie der Wissenschaften hat ein Beispiel analysiert und ist von der Nicht-Diskriminierung noch nicht überzeugt, sie äußern starke Bedenken - der Algorithmus sollte aber ab Juli 2020 in Betrieb gehen.

So viel ist klar: Die Arbeitslosen werden künftig durch die Algorithmen in drei Gruppen A, B, C, eingeteilt und zwar für Menschen mit hohen, mittleren und niedrigen Chancen am Arbeitsmarkt. Wer mit 66-prozentiger Wahrscheinlichkeit innerhalb von sieben Monaten wieder einen Job haben wird, soll ab 2020 als Person mit hoher Arbeitsmarktchance gelten, Gruppe A. Wer weniger als 25 Prozent Chance hat innerhalb von zwei Jahren einen Job zu bekommen, gilt dann als Kunde mit niedrigen Chancen und kommt in Gruppen B oder bei ganz schlecht, in C. Förderungen, z.B. Schulungen, gibt es (hauptsächlich) für Gruppe B.

Das klingt erstmal nicht ganz unlogisch, hat aber diskrimierende Auswirkungen da nicht die wirkliche Person berücksichtigt wird, sondern es werden bestimmte Parameter beurteilt die sich aus den Daten des Arbeitssuchenden ergeben. Es werden dann auf Grund dessen, wie die Arbeitssuche für ähnliche Personen in der Vergangenheit abgelaufen ist, grobe Klassen gebildet werden (dies ist nun mal die Technik wie ein AI-System so etwas tut). Die Vergangenheit wird in die Zukunft projeziert, und es wird nicht der einzelne Mensch beurteilt, sondern es werden i.d.Regel die Daten genutzt, die am einfachsten zu erheben sind.

Klassifiziert wird nach Wohnbezirk, Ausbildung, Beruf, Geschlecht, etc. Frauen generell, ältere Menschen, gesundheitlich Beeinträchtigte und Frauen mit Kindern werden vom Computerprogramm automatisch schlechter eingestuft, da die Wahrscheinlichkeit, dass jemand aus dieser Personengruppe schnell einen Job findet (rein statistisch) wirklich geringer ist.

Die Basis-Annahme ist ein junger, gesunder Mann mit österreichischer StaatsBürgerschaft, der im Dienstleistungsbereich arbeiten will und nur über einen Pflichtschulabschluss verfügt. So gibt es für Geschlecht = weiblich eine Reduzierung. Weitere Reduzierungen gibt es für "älter als 50", für jemand mit "Betreuungsverpflichtungen" (berechnet aus der Tatsache dass jemand mal in Karenz war oder als Frau ein Kind hat) und für "weder Lehre abgeschlossen noch Matura/Abitur".

Ergebnis der Logik ist, dass diejenigen, die eh sehr schlechte Chancen haben auf, Grund dieser Klassifizierungen ohne die Berücksichtigung ihres konkreten Einzelfalls beurteilt werden.

AI soll entscheiden, welche Fälle durch die Kripo bearbeitet werden

2019 ein interessanter Fall: die Polizei in Großbritannien will durch einen Algorithmus entscheiden lassen, welche der ihnen gemeldeten Gewaltdelikte für ein Finden der Täter weiterbearbeitet werden sollen und welche fallen gelassen werden. Basis für den Algorithmus sind die Details der Tat und der Umstände. Es sollen dann nur noch die Fälle bearbeitet werden, in denen eine vernünftige Hoffnung auf Aufklärung besteht. Klingt genau so logisch wie der Algorithmus des Arbeitsamts links.

Hier das Problem: die Chance der Aufklärung ist z.B. abhängig von der Verfügbarkeit von Überwachungsvideos, Zeugenaussagen, etc. D.h. es wird Gebiete geben, die bisher eine geringe Aufklärungsrate hatten und in denen wird der Algorithmus dann grundsätzlich ein fallen lassen vorschlagen.

Jetzt kommt aber eine Gegenmaßnahme, die m.E. sehr sinnvoll ist: der Algorithmus wird in einigen Fällen "lügen". D.h. der Algorithmus behauptet dann, es gäbe eine gute Chance auf Erfolg, obwohl die Werte nicht dafür sprechen. Ziel ist, dass die Polizisten immer mal wieder "eigentlich aussichtlose" Fälle bearbeiten und falls doch eine Aufklärung möglich ist, wird der Algorithmus angepasst werden müssen.

So ein Gegencheck täte auch dem Arbeitsamtsalgorithmus gut: Obwohl die Prognose zu schlecht ist, bekäme in einigen Fällen der Betroffene doch eine Schulung und dann würde man sehen, ob die pessimistische Erst-Prognose richtig war.

Nach EU-Recht hat eine Betroffene das Recht, das Ergebnis des Algorithmus in Frage zu stellen. Dafür muss sie aber erstmal erkennen, dass das AI-System diskriminiert hat. Es steht zu befürchten, dass sich Beraterinnen und Berater die den Einspruch bearbeiten sich auf die Ergebnisse verlassen, die von der Software vorgeschlagen werden, alles andere würde eine erhebliche Mehrarbeit erfordern. Siehe auch das Beispiel aus Polen zeigt (siehe Kasten rechts oben).

Eine sehr ausführliche Studie Algorithmic Profiling of Job Seekers in Austria: How Austerity Politics Are Made Effective bewertet die Nutzung des Algorithmus beim AMS sowohl aus mathematisch/algorithmischer Sicht wie auch die Integration im Berufsalltag der Beraterinnen. Bei der Integration ist folgendes zu bedenken: Ursprünglich wurde der Algorithmus als 'first opinion' klassifiziert, nach Kritik als 'Second Opinion', was 'overruled' werden kann, was aber begründet werden muss (d.h. Mehrarbeit und geringere Effektivität der Bearbeiterin. Es ist fraglich, ob diese Mehrarbeit leistbar ist, weil das Ziel des Algorithmus die Erhöhung der Effizienz der Beratung ist. Zu viele Hochstufungen reduziert die "Performance" der Beraterin und der AMS-Stelle.

Nun die Kritik aus mathematisch/algorithmischer Sicht:

Grundsätzliche Probleme der 'Stabilisierung' von Benachteiligungen durch Rückkopplungseffekte (wer in die Gruppe 'schlecht vermittelbar' eingestuft wird bekommt weniger Hilfen und bleibt daher in dieser Gruppe)
Die Variable 'Frau' wird generell (und meist als Nachteil) angewendet, ohne Rücksicht auf den spezifischen Arbeitsmarkt, das gleiche gilt für 'Migrationshintergrund' (dabei werden alle Herkunftsländer gleich behandelt)
Nur 3 Altersgruppen, Probleme an den Grenzen
Noch weniger transparent als diese Variablen sind die spezifischen Gewichtungen im Algorithmus die darüber entscheiden, wie schwer jeder Faktor in die Entscheidung eingreift
Unterschiedliche Auswertungen je nach engen lokalen Anforderungen, bezogen nur auf Wohnort, nicht Wunscharbeitsort. D.h. Regionen die von 1 Branche oder Arbeitsgeber dominiert sind führen zu ganz anderen Ergebnissen
Branchen werden in nur 2 sehr grobe Klassen eingeteilt: Service oder Produktion.
Mögliche Diskriminierungen von Gruppen wird erklärt als ". . . the system captures the 'harsh reality' of the labor market by making realistic predictions for job seekers belonging to disadvantaged groups"
Viele wichtige Parameter wie Eigeninitiative, Social Skills, Berufserfahrung, Sprachkenntnisse in Fremdsprachen, etc. gehen in die Berechnungen nicht ein

2023: Eine weitere Analyse zu Ethnic Profiling durch Algorithmen

Wieder gibt uns eine investigative Recherche von Lighthouse Reports einen Einblick in den staatlichen Einsatz von Künstlicher Intelligenz (KI) - quasi eine Fortsetzung der Analyse eines algorithmischen Verfahren zur Vorhersage von Sozialhilfebetrug. Dieses Mal geht es um ein System zur automatisierten Profilbildung von Migrant:innen in den Niederlanden.

Seit 2015 werden dabei bei Visaanträgen Daten über die Antragssteller:innen ausgewertet, darunter auch die Nationalität, Alter oder Gender. Wird im Profil ein hoher „Risikoscore“ berechnet, bedeutet das für die Betroffenen längere Wartezeiten, Ausforschungen durch die Behörden oder gar eine Ablehnung ihres Asylantrags.

Gerade wenn ausländische Familienangehörige von Niederländer:innen kurz zu Besuch kommen wollen, können so unnötige Verzögerungen entstehen. Die Recherche deckte dabei nicht nur das bisher geheime System als solches auf, sondern auch, dass das niederländische Außenministerium hier durchaus die Gefahr von Diskriminierungen sieht.

Versuche, den Einsatz des Systems zu stoppen, blieben aber bislang erfolglos. Nicht zuletzt aufgrund dieser Risiken fordern zivilgesellschaftliche Organisationen, dass der Einsatz von KI im Migrationsbereich in der KI-Verordnung separat reguliert und teilweise verboten werden sollte.

Einige Hintergrundlinks: Der Report von Lighthouse und die EDRi-Organisation zur Problematik 'people on the move'. Sie fordern für den AI-Act einen besseren Schutz vor algorithmischer Willkür ("preventing AI harms").

Ergänzung im Juni 2023: Algorithm intended to reduce poverty might disqualify people in need. Es geht um den Algorithmus Takaful der durch die World Bank gesponsert wurde und für die Verteilung von Hilfsgeldern in Flüchtlingslagern genutzt werden soll. Auf der Basis von 57 sozio-ökonomischen Paramtern soll die Bedürftigkeit berechnet werden. Human Rights Watch wirft Takaful vor, dass diese Parameter die Hilfsbedürftigkeit nicht korrekt einschätzen und Einseitigkeiten (bias) enthält - ich bin nicht überrascht.

Ergänzung im Januar 2024:
Lighthouse Reports hat die nächste Untersuchung veröffentlicht und Algorithmen analysiert, die die französische Sozialhilfebehörde CNAF verwendet hat und verwendet, um Betrug vorherzusagen. Jedes Jahr wird fast die Hälfte der französischen Bevölkerung durch dieses System geprüft. In Zusammenarbeit mit anderen zivilgesellschaftlichen Organisationen verschafften sie sich Zugang zu dem Quellcode des Systems und konnten es eigenständig testen. Ergebnis: Wie in ähnlichen Betrugserkennungssystemen führen auch hier Eigenschaften wie körperliche Beeinträchtigung, Alter oder Kinder direkt zu einem höheren Risikoscore.

Hier jetzt noch einige andere kritische Bewertungen: Der AMS-Algorithmus ist ein "Paradebeispiel für Diskriminierung", Die Herrschaft der Bürokratie und Wo Algorithmen bereits versagt haben.

In meinen Newslettern bringe ich weitere Beispiele für Diskriminierung durch Algorithmen.

Die in diesem Abschnitt erwähnte Problematik, dass die lernenden Algorithmus einfach nur die Vergangenheit in die Zukunft projezieren ist auch bei Amazon zum Problem bei der Bewerberauswahl geworden. Dort wurde ein Algorithmus mit Hilfe der bisherigen Entscheidungen bei der Auswahl der Bewerber trainiert, dann stellte ich heraus dass bei gleicher Qualifikation von Männern und Frauen, die Frauen keine Chance auf ein Einstellungsgespräch haben. Amazon setzt den Algorithmus nun nicht mehr ein. Selbstlernende Algorithmen verhalten sich genau so, wie sie aus den Lerndaten lernen.

Der Algorithmus müsste mit seiner Effizienz erst mal seine eigenen Kosten von 1,8 Mio für die Erstellung und 61.000 pro Jahr für Wartung wieder reinholen. Davon könnte man einige Berater mehr oder Weiterbildungen bezahlen.

"Automating Inequality"

Das Buch "Automating Inequality - How High-Tech Tools Profile, Police, and Punish the Poor" von Virginia Eubanks beschäftigt sich ganz gezielt mit dem Einsatz von algorithmischen Systemen im Sozialbereich der USA und findet dabei viele ähnliche Probleme. Die Zusammenfassung ihrer Aussagen findet sich in koompakter Form auch in ihrem sehenswerten Vortrag "Automating Inequality - How High-Tech Tools Profile, Police, and Punish the Poor".

Einige Punkte:

Auch wenn die Entwickler der Systeme voll von besten Absichten waren, so sind die Ergebnisse oft trotzdem diskriminierend (d.h. zum Nachteil bestimmter Gruppen).
Gründe dafür liegen teilweise bereits in der Verfügbarkeit von Datensätzen: über bestimmte Bevölkerungsgruppen liegen bei den Sozial-Behörden einfach viel mehr Datensätze vor als bei der Mittelschicht, diese Daten werden dann oft zum Nachteil der Betroffenen verwendet (z.B. bei der Entscheidung zu 'vernachlässigten Kindern'. Dies trifft speziell dann zu, wenn das Ziel eine Reduktion der Ausgaben im Sozialbereich ist.
In den USA wurde bei Einführung dieser Systeme der persönliche Kontakt mit den Betroffenen durch den Zwang zu einer Nutzung von Online-Antragssystemen genutzt. Fehlerhafte Eingaben wurden oft als "fehlende Kooperation mit Behörden" bewertet.
Tools sind nicht neutral. Jedes Tool hat grundsätzlich bestimmte inherente Zwecke und die sind politisch bestimmt. Z.B. ist Effizienz (d.h. Kosteneinsparung) typischerweise wichtiger als Fairness und Gerechtigkeit.

Kreditschutzverbände

Im ersten Teil dieses Abschnitts wird der Algorithmus der Schufa in Deutschland beleuchtet (der zweite Teil kämmert sich um die Pläne der Kreditschützer in aller Welt, weitere Datenquellen zu erschließen, vor allem Social Networks).

Der Bewertungsalgorithmus der Schufa wurde als Betriebsgeheimnis eingestuft und wird daher nicht veröffentlicht. Der Spiegel und der Bayrische Rundfunk haben daher eine Studie zum "Reverse Engineering" in Auftrag gegeben. Mehr als 2000 Verbraucher und Verbraucherinnen haben eine kostenlose Auskunft der Schufa beantragt und in einem Fragebogen gegenüber den Forschern ihre finanziellen Verhältnisse offen gelegt. Daraus konnten verblüffende Erkenntnisse zu den Algorithmen gewonnen werden - hier die Details im Spiegel.

Die Schufa erklärt, dass sie Bewertungen über 67 Mio Menschen abgeben kann. Ohne eine positive Bewertung gibt es keinen Handyvertrag, oft keine Mietwohnung, keinen Bankenkredit, kein Zahlen auf Rechnung im Onlineshop. D.h. negative Auskünfte wirken sich im "richtigen Leben" zum Teil sehr negativ aus.

Erste Erkenntnis: die Schufa weiß oft verblüffend wenig über einzelne Bürger (oft nur die Kerndaten: Geburtsdatum, Geschlecht und Zahl der bisherigen Adressen), gibt aber trotzdem bereitwillig Auskünfte. Diese Auskünfte können auch dann negativ sein, wenn keinerlei negative Informationen vorliegen, z.B. kein Zahlungsverzug. Die Schufa bescheinigt bei diesen Fällen jedem Achten ein "erhöhtes" oder gar "hohes" Risiko (Gründe können z.B. mehrere Bankkonten oder Kreditkarten sein, oder "zu viele" Umzüge). Negative Auskünfte entstehen auch dann, wenn die Schufa gar keinen Eintrag findet, z.B. wenn auf Grund eines nicht erfassten Umzugs die Schufa jemanden "nicht kennt".

Grundsätzlich gilt: Männer werden bei gleichen Umständen negativer bewertet als Frauen und jüngere Menschen negativer als ältere. Dies ist vermutlich die gleiche Problematik wie bei allen diesen lernenden Algorithmen: der Einzelne wird in eine Schublade gestopft und so beurteilt, wie andere Menschen in der gleichen Schublade sich in der Vergangenheit verhalten haben.

Richtig negativ wird es, wenn ein Partnerunternehmen (Telefongesellschaft, Bank oder Händler) einen Zahlungsverzug gemeldet hat. Diese Information wird auch nach erfolgter Zahlung noch lange aufgehoben und bewertet. Wie ein Rating/Score ausfällt hängt nicht nur vom Betroffenen ab. Es gibt verschiedene Scores pro Branche und 3 unterschiedlich alte Score-Varianten, mit zum Teil sehr unterschiedlichen Ergebnissen für die gleiche Person. Welcher Branchen-Score und welche der 3 Score-Generationen angefordert wird hängt vom anfragenden Unternehmen ab. Der Betroffene ist recht hilflos. Der einzige Rat den der Spiegel geben kann ist, seinen Score von der Schufa (kostenlos) anzufordern und dann die Daten korrigieren zu lassen.

Die scheinbare Lösung der schwachen Datenlage beim Verbraucher-Rating: Social Networks

Der Skandal rund im die Schufa in 2012 zeigt, dass es dort konkrete Uberlegungen gibt andere als die bisher verwendeten Datenelemente für das Rating heranzuziehen, z.B. Eintragungen in Social Networks.

über mehr als nur überlegungen zur Einbindung von Social Network-Daten außerhalb von Europa berichet im Juni 2012 die Futurezone: Big Data entscheidet über die Kreditwürdigkeit. Der Bericht sagt, dass bisher zwar Data Mining Techniken zur Abschätzung der Kreditwürdigkeit genutzt werden, jedoch (bisher) nicht basierend auf öffentlichen Daten wie denen in den Social Networks. Das ist aber außerhalb von Europa (da wo viele der Websites liegen, die wir benutzen) oft ziemlich anders.

In den USA verurteilte die FTC (fair trade comission) ebenfalls in 2012 die Firma Spokeo zu 800 000 US$ Strafe, weil diese beim Verkauf ihrer Daten an Banken und Personalabteilungen diverse Gesetze übertreten hatte. Sie beziehen nämlich auch Daten aus sozialen Netzwerken in ihre Bewertungen ein. Das ist in den USA OK, solange die Daten nicht für die Nutzung von Kreditwürdigkeit genutzt werden. In dem Fall gelten relativ strengere Regeln, im Gegensatz zu der eher "wild west" Mentalität bezüglich Datenschutz im Allgemeinen.

I Know Who You Are and I Saw What You Did">

Lori Andrews: I Know Who You Are and I Saw What You Did: Social Networks and the Death of Privacy
Das Buch beschreibt so ziemlich alle Beispiele die hier auf der Website zu finden sind, aber natürlich ausführlicher.

Vieles von dem was in diesem Artikel beschrieben wird mag zwar für den einen oder anderen Leser gruselig erscheinen, es ist aber durchaus legal, selbst in Europa. Legal ist das Sammeln von Daten z.B. immer dann, wenn ein Benutzer beim Akzeptieren der Geschäftsbedingungen dieser Nutzung seiner Daten zugestimmt hat. Und es ist legal, wenn die Daten öffentlich zugänglich sind (z.B. öffentliche Facebook-Profile, Twitter-Tweets, das öffentliche Telefonbuch und ähnliches). Und wer bei einem US-Unternehmen kauft, für den gelten (mit einigen Einschränkungen) US-Regeln.

Facebook hat ein Patent angemeldet das folgendermaßen klingt:

"Wenn ein Individuum einen Kredit beantragt, prüft der Gläubiger die Kreditwürdigkeit derjenigen Mitglieder in sozialen Netzwerken, die mit dem Individuum vernetzt sind."

Die große Problematik besteht darin, dass die Analyse der Kontakte in Social Networks Facebook vermutlich wirklich eine Wahrscheinlichkeitsaussage über eine Ratenrückzahlung erlaubt, und dass es damit legal werden kann, diese Daten zu nutzen. Trotzdem haben wir es hier mit einer Diskriminierung auf Grund eines sozialen Umfelds zu tun die hoffentlich in Europa noch lange nicht legal wird. Weiter hinten mehr zur Frage der Legalität von solchen Ratings in Europa.

Aber es geht noch viel wilder: In China vergibt der Konzern Ping An Kredite und Lebensversicherungen auf der Basis von Gesichtsscans der Kunden. Dadurch sollen zum Einen bestimmte biologische Variablen wie das Alter und den Body-Mass-Index abgeschätzt werden, zum anderen soll bei der Beantwortung von Fragen, z.B. zu Vorerkrankungen, aus sog. Mikroexpressionen (d.h. kleinste, unbewusste Gesichtsveränderungen wie etwa angehobene Augenbrauen oder aufgerissene Augen) im Gesicht darauf geschlossen werden, ob der potentielle Kunde lügt. Solche Emotions- und Gesichtserkennung kommt bereits in Bewerbungsgesprächen zum Einsatz, jetzt also auch bei Kreditvergabe und Lebensversicherung.

Die wissenschaftliche Grundlage für solche automatischen Analysen ist sehr schwach, es kommt zu einer großen Zahl von Fehleinschätzungen. Wenn der Algorithmus aber immer auf der "vorsichtigen Seite" bleibt, so führt dies bestimmt zu weniger Kreditausfällen, aber auch zur automatisierten Diskriminierung auf Grund von automatisierten Algorithmen.

Die engeren Vorschriften bei dem Rating der Kreditwürdigkeit die wir zum Glück in Europa haben dienen dazu, dass Verbraucher die Möglichkeit haben, Fehler in den Ratings zu korrigieren (die natürlich wie in jedem System vorkommen, speziell wenn das Rating durch automatische Algorithmen durchgeführt wird) und sich nicht nur einfach zu wundern, dass sie keinen Handyvertrag bekommen. Doch bei den US-Rating-Unternehmen haben die Kunden oft keine Chance, je zu erfahren, warum sie auf bestimmte Weise behandelt werden, vermutlich werden sie nicht mal merken, wie gegen sie diskriminiert wird (da sie ja die alternativen Angebote gar nicht kennen).

Verkäufer- und Konsumenten-Ranking macht z.B. eBay. Dort werden die Nutzer (die ja oft auch Privatleute sind) in Ratingklassen eingeteilt. Ein positives Rating ist speziell für Verkäufer überlebenswichtig. Aber auch auf Amazon haben Nutzer einen Ratingwert, der z.B. bestimmt, wie mit Kommentaren und Bewertungen dieser Benutzer umgegangen wird.

Der Wert unserer Daten

Zur Frage "Was sind die Daten der Benutzer im Internet eigentlich wert?" versucht Bruce Schneier folgende Antwort:

Google's 2013 third quarter profits were nearly $3 billion; that profit is the difference between how much our privacy is worth and the cost of the services we receive in exchange for it.

Von der Kreditwürdigkeit zum e-Scoring und zur "Rated Society"

Die Beurteilung der Kreditwürdigkeit ist in den meisten Ländern recht streng reguliert. Aber das Beurteilen von Menschen, das Rating, wird in der Internet-Ökonomie immer wichtiger. Und es entwickelt sich gerade ein neuer Geschäftszweig im Bereich Rating-Agenturen - die Vorhersage des Kaufverhaltens: e-Scoring.

Die NY Times berichtete in einem Artikel 2012: Secret E-Scores Chart Consumers' Buying Power. Die Firmen, z.B. eBureau mit ihrem Angebot eScore, analysieren Beruf, Gehalt, Wert des Eigenheims, bisheriges Konsumverhalten und viele weitere Parameter (siehe weiter unten) um mit einiger Wahrscheinlichkeit vorherzusagen, ob jemand ein potentieller profitabler Kunde werden wird, oder nicht. Die Telefonnummern der zukünftigen Profitbringer werden bei einem Anruf, z.B. auf Grund eines zugesandten Sonderangebots, automatisch erkannt und an spezielles Personal weitergeleitet. Diejenigen die als nicht-profitabel eingestuft wurden werden an ein indisches Call-Center weitergeleitet. eBureau behauptet, dass sie jeden Monat 20 Mio US-Bürger diesbezüglich beurteilen und deren Kontaktdaten an ihre Geschäftskunden weitergeben. Ein anderes Unternehmen, TruSignal, beurteilt 110 Mio US-Bürger pro Monat.

Mehr zu Kreditwürdigkeit und Social Networking und zu Diskriminierung durch Algorithmen auch an anderen Stellen.

eBureau arbeitet folgendermaßen: der Geschäftskunde übergibt ihnen die Kontaktdaten von möglichen Kunden, sog. Sales Leads. eBureau ergänzt diese Daten um bis zu mehrere Tausend weitere Profildatenund extrapoliert daraus bis zu 50 000 Variable für diese Person. Dieses Profil wird dann mit bereits bestehenden Kunden der Firma verglichen und daraus die Wahrscheinlichkeit eines profitablen Geschäfts abgeschätzt. Die potentiellen Kunden werden dabei ziemlich transparent. Es ist die Weiterentwicklung von Amazons "andere Kunden die dieses Buch gekauft haben kauften auch folgende Bücher" - aber mit viel mehr Hintergrundwissen, wie viel, das zeigt der Rest des Artikels.

Ein anderer Konkurrent, TargusInfo, berichtet über eine Kreditkartenfirma die ebenfalls bereits im Telefonsystem des Call-Centers beurteilen lässt, ob der Anrufer später mal viel Geld ausgeben wird und damit profitabel sein wird. So weit mag das ja noch relativ harmlos klingen, aber für einige Konsumenten kann dies bedeuten, dass ihnen viele Angebote gar nicht gemacht werden, z.B. weil sie von einer Telefonnummer angerufen haben, deren Besitzer schlecht geratet ist. Und dieser Trend zu einer "scored und rated society", wie die NY Times das nennt, kann so weit gehen dass auch bestimmte Weiterbildungsangebote nur noch denen zugestellt werden, die ein entsprechendes Rating haben.

Mehr Beispiele für die Probleme von Behavioral Targeting auf meiner Seite zu 'Spuren im Internet'

Eine ganz andere Umsetzung des Themas Datenhandel und Data Mining - mit viel Ironie und als Spiel - versucht
Data Dealer.

An anderer Stelle berichte ich über ein Szenario 2020, das versucht, das Leben in einer kompletten Informations- und Datengesellschaft darzustellen.

Literarisch wird das Thema "Scoring (oder Rating) von Menschen" sehr gut in Zero und in The Circle dargestellt.

Aber auch auf vielen anderen Plattformen werden die Benutzer, egal ob sie dort bereits Kunde sind und dort bekannt sind oder zum (anscheinend) anonym dort auftreten. Zumeist versuchen solche Plattformen ihre bestehenden oder potentiellen Kunden in Klassen einzuteilen und unterschiedlich zu behandeln. Webseiten, zumindest außerhalb Europas, passen sich automatisch an die vermuteten Finanzverhältnisse an: Auf Grund von Postleitzahl (bzw. Geolocation), Geschlecht, vermutetem Alter, vermutetem Beruf, Familiengröße, ethnischem Hintergrund wird dann heftig diskriminiert. So bekommen besser eingestufte Anrufer einen Rückruf, andere werden zur Warteschlange des Callcenters verbunden. Dies ist bei uns in Europa nur zum Teil erlaubt, aber die IT-Unternehmen die solche Lösungen anbieten, sind auch in Europa unterwegs.

Bestimmte Angebote werden dann nur den Anrufern gemacht, die als potentielle "Big Spender" eingestuft werden (zum Beispiel über solche Klassifizierungen dass sie Apple-Geräte nutzen statt Android oder Windows). Noch unangenehmer kann es sein, wenn man als "Jemand mit Problemen" eingestuft wurde, z.B. weil man Webseiten besucht hat (oder in den Mails an Gmail-Adressen bestimmte Themen vorkamen), die sich mit Depression oder übergewicht oder Bulimie beschäftigen. Ab dann wird die Person mit entsprechender Werbung überhäuft (und belästigt) werden, was bei möglicher psychischer Labilität sehr belastend sein kann.

Eine Zeitung in Kalifornien berichtete Ende 2015, dass Jugendliche mittels Algorithmen auf ihre zukünftige Kriminalität untersucht werden und dann je nach Einstufung unterschiedlich betreut werden. Das Stichwort ist "predictive analytics". Solche Rating-Algorithmen haben eine Treffsicherheit von vieleicht 70%. D.h. 30% der Kinder werden falsch eingestuft und von vornherein als "kriminell" behandelt. Die Zeitung fühlt sich zu Recht an Minority Report erinnert.

Eine andere Zeitung berichtet Anfang 2016 dass die US-Regierung die Firmen in Silicon Valley gebeten hat, einen Algorithmus zu entwickeln, der Terroristen identifiziert. Vermutlich sollen die Firmen dann auch gleich die Daten verwenden, die wir bei ihnen zur sicheren Verwahrung abgegeben haben. Nachher gab es einen kleinen Rückzug, auch das Weiße Haus berichtet, dass das wohl keine gute Idee sei. Der Artikel bringt Zahlen dazu: Selbst wenn der Algorithmus 99,9% Treffsicherheit hätte, so gäbe es doch 60000 US-Bürger, die dann falsch kategorisiert würden (false positives) und irgendwie eine Möglichkeit haben müssten, sich zu wehren. Diese würde jede Justiz vollkommen überfordern. Dies zeigt aber die Naivität, mit der zum Teil an diese Themen herangegangen wird. An anderer Stelle mehr zum Thema false-positives.

Bruce Schneier beschreibt zur gleichen Zeit dass das chinesische Rating-System nicht sehr unterschiedlichen von ähnlichen Systemen in den USA ist, die Risiken, die jegliches automatische Rating von Bürgern haben würde und schlägt Maßnahmen vor, wie dieses Problem reguliert werden könnte. Gute Vorschläge, aber ich bleibe skeptisch.

Die Neuerfindung der Diktatur

Kai Strittmatter: "Die Neuerfindung der Diktatur" kam Anfang 2020 auf den Markt und beschreibt nicht nur das Social Credit System ausführlich, sondern erklärt auch wie dieses System ein wichtiger Faktor in der gesamten Beherrschung und "Umerziehung" der Bürger bildet

China's Social Credit System (SCS)

Aktualisiert Nov. 2022.

In diesem Abschnitt wird jetzt beschrieben, wie das Rating durch private Unternehmen und das Rating durch den Staat "symbiotisch" zusammenfließen können. Die chinesische Regierung hatte 2014 beschlossen, dass sie die neuen Möglichkeiten die die IT-Technologien bieten für ein landesweites System der sozialen Kontrolle einsetzen werden. Das System heißt Social Credit System (SCS) und soll sowohl ein zentrales Kreditwürdigkeitsrating für Firmen und Privatleute bieten ('financial creditworthiness') wie auch die Grundlagen für ein 'Social Rating' legen, d.h. eine Beurteilung von Firmen und Menschen nach dem 'sozialen' Verhalten ('social creditworthiness'). Bis 2020 wollte die Regierung das System flächendeckend einsetzen. November 2022 wurde nun der Entwurf zu einem Gesetz über die Implementierung der beiden Rating-Systeme zur Kommentierung vorgelegt.

Wie der Artikel China just announced a new social credit law. Here's what it means darstellt ist das Ganze noch ziemlich 'work-in-progress' und manches ist komplexer als manchmal dargestellt. Die Ziele werden definiert als Regulierung der landesweiten Kreditvergaben, so wie wir das 'im Westen' von kommerziellen Anbietern wie Schufa oder KSV kennen, die Schaffung eines Systems in dem alle lokalen Behörden ihre Daten (z.B. die Urteile gegen Personen und Firmen) zentral verfügbar machen müssen und als letzten Punkt die derzeit noch sehr vage definierte 'Förderung der Moral', wieder für Firmen und Personen.

Die auch (im folgenden) aufgezählten und von Journalisten beobachteten Maßnahmen gegen 'unsoziales Verhalten' kommen in diesem Entwurf nicht explizit vor - was aber nicht heißt, dass sie nicht korrekt sein können. Denn seit der Einführung des Systems in 2014 haben viele regionale Einheiten (Städte und Provinzen) ihre eigenen Vorstellungen von 'sozialem Verhalten' implementiert und manches davon wird wohl sogar von der Zentralregierung als überschießend gesehen. Andere Kommentatoren sehen in dem Entwurf aber letztendlich eine Bestätigung der Kriterien und der Strafen der lokalen Behörden.

Der neue Entwurf betont, dass alle Restriktionen auf der Basis von gerichtlichen Verurteilungen passieren müssen, d.h. Beispiele für 'soziale Bestrafungen' für 'Füße auf dem Sitz in der Bahn' oder 'bei Rot über die Straße' sieht das Gesetz nicht vor. Der Katalog National Basic List of Penalty Measures for Untrustworthiness aus 2021 hat sich Schwergewicht deutlich auf finanziellen Aspekten wie z.B. Gründung von Firmen. Diese zentrale Liste kann regional erweitert werden, aber immer nur auf gesetzlicher Grundlage, nicht durch Verwaltungsakt oder durch Entscheidung eines Bürgers oder Beamten. Beispiel aus dem verlinken Dokument: " . . . Departments (units) must not set up punishments outside of laws, regulations, or policy documents of the Party Central Committee or State Council, or increase the legally prescribed standard for punishment . . ."

Eine andere Form des Internets in China

An anderer Stelle fasse ich einen Artikel zusammen, der darstellt, wie anders das Internet sich in China im Vergleich zum "Westen" entwickelt hat. Die Rolle individueller Websites von Firmen und Behörden werden weitgehend durch sog. Superapps wie WeChat übernommen.

Wobei zu bedenken ist, dass die chinesischen Gesetze sehr wohl Sachen wie 'anti-soziales Verhalten' verbieten und bestrafen und damit Dinge wie 'Kritik an Behörden oder gar dem Staat' und ähnliches meinen (z.B. regierungskritische Postings in Social Networks). Und die Regierung hat nicht nur Zugriff auf alle Daten die sie anfordert, sie betreibt Zensurabteilungen, die systematisch nach kritischen Postings suchen. Ein Beispiel davon sahen wir in 2022: Kritik an staatlichen Maßnahmen wurde durch eine Sperrung in WeChat bestraft, was wegen der zentralen Rolle die diese App im chinesischen Leben darstellt für die Betroffenen ein ziemliches Desaster darstellt (siehe Kasten links).

Wie Atlantic in 2018 berichtet fließen aber auch viele "Erkenntnisse" der Regierung in die Ratings der Internetfirmen ein. Dazu gehören so Auffälligkeiten wie Verkehrsübertetungen und Streit mit den Nachbarn. Und umgekehrt fließen alle Verhaltensdaten der WeChat App auch zur Regierung. (In China gibt es nur wenige Menschen mit Smartphone, die nicht WeChat nutzen da damit alle digitalen Funktionen in einer App abgedeckt sind. Und auf diese Daten hat die Regierung freien Zugriff).

Zusätzlich arbeitet China, wie der Artikel Der Überwachungsstaat als Wirtschaftsmotor 2018 zeigt, sehr intensiv an Gesichtserkennungstechnologien. Im Februar 2018 werden Brillen demonstriert, mit deren Hilfe Polizisten an den Bahnhöfen einen automatischen Abgleich mit Fahndungslisten herstellen können, um zum Beispiel Personen zu erkennen, die aus irgendeinem Grund Reiseverbot haben. Ziel der flächendeckenden Gesichtserkennung ist, dass auch der physische Aufenthaltsort in das Rating einfließen kann, und zwar auch dann wenn der Bürger sein Handy zu Hause gelassen hat um nicht trackbar zu sein.

Rating-Gesellschaften in der Literatur

Die Fernsehserie Black Mirror zeigt 2016 die Schrecken einer solchen Gesellschaft. Literarisch wird dies in The Circle dargestellt.

Die Ergebnisse: Menschen mit niedrigen Werten auf der Staatsbürger-Skala haben Schwierigkeiten, eine Arbeit oder eine Wohnung zu finden, Reisevisa können beschränkt werden. Kritiker sehen in dem System ein "subtiles und hinterhältiges Mittel der sozialen Kontrolle". Sie sehen die Gefahr, dass die Menschen ihre politische Teilhabe gegen das Äquivalent eines Uber-Gutscheins eintauschen."

Das geht angeblich bis ins Dating: Auch auf (einigen) Dating-Plattformen wird das Rating angezeigt. Und auch das Verhalten der "friends" in Social Networks geht ein, eine App soll die Werte der Anderen anzeigen. So wird soziale Kontrolle ausgeübt. Hier ein weiterer Artikel aus 2017: Die AAA-Bürger. Unterstützt werden alle diese Überwachungsaktivitäten durch jede Menge chineischer Technologiefirmen, die an Überwachungstechnologien aller Art arbeiten, gern auch auf der Basis von Artificial Intelligence, wie auf einer einschlägigen Messe 2018 demonstriert wurde. Diese Überwachungstechnologien sind auch in anderen Teilen der Welt mittlerweile bei Diktatoren aller Art recht beliebt, China exportiert die Hardware und die Software gern z.B. nach Afrika oder Südamerika. Außerdem wird 2020 berichtet, dass die chinesische Regierung sich auch für unsere Daten interessiert: How China surveils the world - und dafür muss man nicht mal Nutzer von TikTok sein.

Das c't Magazin bringt 2020 einen sehr guten Überblick über die laufende Zusammenführung der verschiedenen Social-Scoring-Systeme aus der Privatwirtschaft und bei der Regierung. Trotz aller dadurch ausgeübten Kontrolle und Überwachung scheint die Zustimmung in der Bevölkerung überaschend hoch zu sein.

Dies dient nicht nur der "Erziehung" der Bevölkerung in den Zentren des Landes, im autonomen Gebiet Xinjiang wendet Peking diese MassenÜberwachung an, um die dort ansässigen muslimischen Uiguren unter Kontrolle zu halten.

2019: Hier ein recht gründlicher Artikel über den umfassenden Einsatz von Technik für Zensur und Unterdrückung von "Unruhe" in der Bevölkerung: Vom Tiananmen-Massaker zur Netzzensur und digitalen MassenÜberwachung in China.

2019: ein übersichtsartikel in der NY Times: A Surveillance Net Blankets China's Cities, Giving Police Vast Powers. Geschildert wird einerseits dass die Überwachung immner gründlicher wird, nicht nur durch die Smartphones und die Apps deren Daten der Regierung zur Verfügung stehen. Auch Kameras mit Gesichtserkennung werden in immer mehr Wohnblöcken eingebaut und zur Kontrolle der Bewegung aller Menschen genutzt. Außerdem wird geschildert, dass die Daten sehr oft nur sehr schlecht geschützt sind und ständige Datenleaks passieren.

2019: Die Regierung bekommt zwar von den beiden großen Bezahlungsanbietern WeChat Pay von Tencent und Alipay (heute Ant Finanicial) von Alibaba sowieso Zugriff auf alle Daten die sie anfordern, aber jetzt erwägt die Regierung eine eigene digitale Währung damit wirklich alle Zahlungsdaten direkt über die Regierungsserver laufen. Ein weiterer Grund ist wohl, dass sie einer möglichen Facebook-Weltwährung Libra zuvorkommen möchten. Die Pläne laufen seit 2014, 2016 wurden sie bereits konkreter. Die beiden digitalen Zahlungsdienste wickeln bereits jetzt einen sehr großen Teil aller Zahlungen ab, vermutlich auch, weil das staatliche chinesische Zahlungssystem nicht sehr bequem ist.

Die Autoren des (bereits oben verlinkten) 2018 Artikels China's Dystopian Tech Could Be Contagious sind in 3-facher Hinsicht beunruhigt: Erstens hat das durchaus "Zähne", d.h. es wirkt sich kräftig aus. Zweitens verändert ein solches Rating aller Menschen eine Gesellschaft drastisch. Aber am meisten beunruhigt ist das Magazin, dass sie nichts finden, was so "chinesisch" wäre, dass es im Westen nicht auch einsetzbar wäre. Hier muss man einschränken, dass dies natürlich aus US-Sicht geschrieben wurde - derzeit verhindert die europäische Datenschutzverordnung (noch) so ein firmen-übergreifendes und umfassendes Rating. Aber mit expliziter Zustimmung der Nutzer ist auch bei uns sehr viel möglich, siehe das Klassifizieren der Nutzer in Social Networks. Zum Stand in den USA siehe nächster Abschnitt.

Buchumschlag von Josh Chin and Liza Lin: Surveillance State

Josh Chin and Liza Lin: Surveillance State: Inside China's Quest to Launch a New Era of Social Control

Die beiden Journalisten haben recherchiert, wie das Überwachungssystem funktioniert, aber auch, wie die Regierung es geschafft hat, dass die Mehrheit der Bevölkerung des System mehr oder weniger gut akzeptiert.

Die Regierung 'verkauft' die Überwachung als Weg zu mehr Sicherheit und Bequemlichkeit.

Die chinesische Regierung definiert 'Datenschutz' anders als in Europa als der Schutz der Daten von Bürgern und den staatlichen Behörden gegenüber der Industrie. D.h. während das europäische Datenschutzgesetz auch dem Staat (gewisse) Grenzen setzt definiert China den Staat als in einem Boot mit den Bürgern, ohne dass es da Grenzen braucht.

2019 wird über eine weitere Implementierungsoption berichtet: Chinesische App verrät, ob jemand in der Nähe Schulden hat. Wenn jemand der überschuldet ist, gerade dabei ist, etwas neues zu kaufen, so werden die Bürger um ihn herum darauf aufmerksam gemacht und können ihn melden. Das läuft jetzt erst mal nur als Pilot in einer Provinz.

Ebenfalls 2019 wird an einem kleinen Beispiel das Ausmaß der Überwachung demonstriert. Ein Datenleck bei einem Anbieter von Überwachungssoftware für Internetcafés legt 364 Mio. Datensätze offen und zeigt, das da (auf Wunsch der Regierung) alles über die Nutzer gesammelt wird: Nach chinesischem Recht müssen Internetcafés die Identitäten sowie "relevantes" Online-Verhalten der Nutzer aufzeichnen und auf Aufforderung an die Behörden weitergeben. Darunter finden sich Chat-Protokolle, GPS-Daten, Dateiübertragungen, private Botschaften und Personalausweisnummern.

Mehr Informationen zum Social Credit Score finden sich auf Wikipedia, auf deutsch und auf englisch.

Die USA liegen beim allgemeinen Rating von Menschen nicht weit zurück

Die USA liegen bei der Einstufung ihrer Bürger nicht weit zurück wie dieser Artikel im Atlantic beschreibt: Scores of Scores: How Companies Are Reducing Consumers to Single Numbers. Auch die Polizei macht mit, sie rechnet einen "Threat Score" für jeden Bürger. Auch dort geht das Verhalten im Internet natürlich als wichtigen Faktor mit ein (postings, friends, ... ).

Fast alle der beliebten Internet Services haben Rating-Features: amazon für die Kommentare zu Büchern, Uber-Fahrer und Airbnb Vermieter raten ihre Kunden, etc. Und hier ist ein Artikel über das Rating bei der Dating-Website Tinder.

In der NY Times hier die Rezensionen von 3 Büchern zum Thema Rating von Menschen. Die dort angedachte Idee, dass der normale Bürger solche Systeme austricksen kann, halte ich persönlich nicht wirklich für praktikabel. Die normalen Bürger schaffen es nicht mal, ihre Einkäufe vor den Datensammlern der Supermarktketten zu verstecken (nein, das Vertauschen der Karten mit denen von Bekannten ist KEINE Lösung).

Roman Maria Koidl:

Web Attack - der Staat als Stalker

Das Buch ist ein Warnruf. Der Autor stellt 5 Thesen auf und begründet diese auf ca. 100 Seiten recht schlüssig und unterhaltsam.

These 1: Wir befinden uns auf dem Weg in die moderne Sklaverei

Er sagt: keine fremde Macht, sondern das virtuelle Ich das wir im Netz hinterlassen wird zu unserem Big Brother

These 2: Auf uns kommt Cyberkriminalität ungeahnter Dimension zu

Er sagt: Diese Datenberge sind nicht effektiv einzuschätzen, sie werden nicht nur ganz offiziell (oft mit unserer [impliziten] Zustimmung) gegen uns genutzt, sondern auch von irgendjemandem für andere Zwecke missbraucht

These 3: Das Internet wird die nationale Rechtsstaatlichkeit beenden

Auch das beobachten wir bereits: Auch wenn die EU verzweifelt versucht, für die Daten von EU-Bürgern EU-Recht geltend zu machen, so zeigt die Praxis, dass dies scheitert.

These 4: Die totale Überwachung kommt

Er verweist auf den Trend zu immer mehr persönlicheren Daten, z.B. durch persönliche Sensoren in Armbändern, Brillen, in der Wohnung, einfach überall. Stichwort: Internet der Dinge.

These 5: "Diktatur" wird privatisiert

Großkonzerne (IT-Oligarchen) sind dabei, die Weltbevölkerung zu erfassen. Diktatur 2.0 bedeutet, mittels cleverer Algorithmen zu klassifizieren, Verhalten vorherzusagen und unter Einsatz von Spieltheorie sogar zu steuern.

An anderer Stelle ein Zitat aus diesem Buch und mehr Details auch auf koidl.com.

Dritter Interessent an den Daten: Polizei und Geheimdienste

Einen literarischen Zugang zu dem Thema bietet die Kurzgeschichte von Cory Doctorow "The Things that Make Me Weak and Strange Get Engineered Away"

Die letzte große Gruppe der Datennutzer sind die Strafverfolgungs- und Sicherheitsbehörden. Das Bild vom Big Brother von George Orwell bezieht sich eigentlich auf den Staat, der allgegenwärtig ist und alles sieht und weiß. Aber George Orwell hat sich wohl nicht vorstellen können, dass die eigentlichen Überwachungsmechanismen durch private Firmen betrieben werden. Staaten sind aber sehr stark an all diesen Daten interessiert. In den Jahren seit 9/11 haben speziell die USA versucht, große staatliche Datenbanken aufzubauen, mehr oder weniger halbherzig erschwert durch das Parlament. Jetzt gehen die staatlichen Behörden immer mehr dazu über, die Daten der privaten Datensammlungen zu nutzen, sehr oft durch Kauf oder einfach durch entsprechende Anforderungen.

Gute Beispiele für die Gier der Polizei- und Spionagebehörden für alle diese Daten finden sich unter den Stichworten PRISM, Tempora und SocMint

Die Kurzgeschichte von Cory Doctorow (siehe Kasten) zeigt, wohin eine extreme Nutzung von Überwachungstechniken führen kann. (natürlich bin aber auch ich daran interessiert, dass Verbrecher im Internet gefunden und bestraft werden, und dafür müssen die Sicherheitsbehörden natürlich auch Zugang zu solchen Aktivitäten bekommen - zu klären ist dabei, in welchem Umfang und ob dafür wirklich eine flächendeckende Überwachung wie bei der Vorratsdatenspeicherung notwendig ist - ich denke, nein.)

Dezember 2013 wird veröffentlicht, dass die NSA mit CO-TRAVELLER genau solche Netzwerke aus 5 Milliarden Handy Standort-Daten gewinnt.

Background: Social Graphs versus Profile

Daten über Menschen im Internet fallen in 2 großen Klassen an: Profildaten und Social Graphs. Profildaten bezeichnen nicht nur die Daten die eine Person in einem Social Network über sich selbst eingegeben hat, sondern auch alle weiteren Informationen die über diese Person ergänzt werden können, z.B. das Surfverhalten im Internet, welche Websites besucht wurden, welche Produkt "liked" wurden, welche Kommentare diese Person auf verschiedenen Websites zu welchen Themen eingegeben wurden, welche Bücher sie kauft, welche Musik sie hört und welche Filme sie sieht. Diese Daten fallen in der Regel nicht alle auf 1 Website an, sondern weit verteilt, deswegen sind die "Tracker" sehr daran interessiert, die Daten von den vielen Websites zusammenzuführen und wie das z.B. mit Hilfe von Cookies geht, findet sich an anderer Stelle: Spuren im Internet.

6-degrees-of-separation oder das Kleine-Welt-Phänomen

Dies bezeichnet die Hypothese, nach der jeder Mensch auf der Welt mit jedem anderen über eine überraschend kurze Kette von Bekanntschaftsbeziehungen verbunden ist. Mehr dazu in der Wikipedia plus noch mehr hier.

Der zweite Datentyp ist komplexer, das ist der Social Graph. Dabei geht es um Vernetzungen zwischen Personen: wer kennt wen, wer telefoniert mit wem, welche Intensität und Qualität haben diese Beziehungen und Verknüpfungen. Diese Informationen fallen in ganz gebündelter und konkreter Form in den 'Friend'-Listen der Social Networks an, aber auch jede Telefongesellschaft hat Social Graph Informationen und jeder Email-Anbieter, ebenso wie Twitter, Skype, etc. Schon 1967 wurde postuliert, dass über 6 Verknüpfungen jeder mit jedem verbunden ist (siehe Box links)

So ungefähr kann ein Social Graph dargestellt werden
Quelle: "Facebook friendships expose sexual orientation"
Klick für große Version

Die Informationen im Social Graph können sehr sensibel sein, denn wie wir noch sehen werden, sagen diese Verknüpfungen sehr viel über einen Menschen aus. Daher haben alle Datensammler großes Interesse an diesen Informationen.

Social Graphs bestehen aus sog. Nodes (Knoten), die die Personen darstellen und sog. Edges (Kanten) die die Verbindungen abbilden. Die Edges können gerichtet sein (Person A ruft Person B an), unterschiedlich stark (es findet eine tägliche Kommunikation statt) und weitere Eigenschaften haben.

Wie bereits erwähnt liegen unterschiedliche Social Graphs über jeden von uns an ganz unterschiedlichen Orten vor: in den Social Networks, bei der Telefongesellschaft, beim Email-Hoster oder Betreiber, bei den Followern auf Twitter, aber auch beim Einwohnermeldeamt ('wer wohnt mit wem zusammen' und sogar, 'wer ist Nachbar von wem'). Weitere Social Graphs ergeben sich aus Location Informationen, z.B. wer war bei einem bestimmten Event (einem Rockkonzert oder einer politischen Demonstration), zu einer bestimmten Zeit in einem bestimmten Lokal, wer arbeitet für den gleichen Arbeitgeber, fährt mit anderen im gleichen Auto, Bus oder Zug. Aber auch Informationen wie welche Personen von der selben IP-Adresse aus ins Netz gehen geben interessante Daten für den Graphen.

Ein recht prominenter Graph, der für Forschungszwecke öffentlich zur Verfügung steht, ist der Enron Corpus. Das ist eine Datenbank von 600 000 Emails von 158 Enron-Angestellten (hauptsächlich Manager - bevor das Unternehmen in einem spektakulären betrügerischem Bankrott "in den Sand gesetzt" wurde). Die Emails wurden beschlagnahmt und für den Prozess aufbereitet, nun stehen sie für Netzwerkanalysen zur Verfügung.

Mit ähnlicher Software werden heute auch von Ermittlungsbehörden Emails und/oder Telefonanrufe analysiert, die die Strukturen von kriminellen Organisationen beleuchten sollen. Die Gefahr dabei ist, dass jemand nur auf Grund von statistischen Ergebnissen und Analogieschlüssen (vor-)verurteilt werden könnte (das berühmte Beispiel vom Pizza-Lieferservice der im Zentrum der Anrufsbäume steht, das wird aber heute bereits bei den Analysen einkalkuliert).

Letztendlich sind aber alle diese mehr oder weniger unterschiedlichen Graphen ein Abbild der realen Beziehungen eines jeden Menschen. Das heißt, jeder einzelne solche Graph enthält Teilinformationen aus dem wirklichen Beziehungsgeflecht des Menschen. Mittels Integration weiterer Daten / unterschiedlicher Graphen können sich Data Mining Wissenschaftler mehr und mehr diesem realen Beziehungsgeflecht annähern.

Für solche Social Graph Daten gibt es viele Interessenten:

Quelle: NYT N.S.A. Gathers Data on Social Connections of U.S. Citizens: This slide from an N.S.A. PowerPoint presentation shows one of the ways the agency uses e-mail and phone data to analyze the relationships of foreign intelligence targets.

für Marketing und Werbung ist es hilfreich, wenn Communities mit ähnlichen Interessen identifiziert werden können und wer in der jeweiligen Community die Trends vorgibt
für Sicherheitsbehörden ergeben sich mögliche Hinweise auf Täterschaften (so kennen sich bei Morden in der Mehrzahl der Fälle Täter und Opfer vor der Tat), mögliche Mittäter oder Mitwissende. Gerade bei der sog. 'organisierten Kriminalität' deutet ja sogar der Name auf diese Verknüpfungen hin. Die Snowden-Papiere geben auch hier Hinweise, wie sehr die NSA an den sozialen Beziehungen aller Menschen interessiert ist, nicht nur die der Terroristen und der organisierten Kriminalität: N.S.A. Gathers Data on Social Connections of U.S. Citizens
für Kreditauskunfteien und Personalabteilungen ergeben sich aus dem sozialen Umfeld interessante Hinweise (das englische Sprichwort sagt: Birds of a Feather stick together, auf deutsch: Gleich und Gleich gesellt sich gern). Mehr dazu in den Studien weiter unten.
Und ganz zuletzt erwähne ich noch die Sozialwissenschaftler, auf deren öffentlichen Informationen viele der Details in diesem Artikel beruhen, da sie die einzigen sind, die offen über ihre Forschungen und Aktivitäten berichten.
Auch Kriminelle sind an diesen Informationen interessiert. So ist es für Angriff über Social Engineering extrem hilfreich, wenn der Angreifer das soziale Umfeld des Opfers kennt. Ein gutes Beispiel ist hier dokumentiert: HBGary gegen Anonymous

Meta Daten

Meta Daten, im Zusammenhang der Snowden-Veröffentlichungen, bedeutet fast immer: "wer kommuniziert mit wem". Diese sog. Meta Daten (oder Call Records) sind für die Behörden mindestens so interessant wie die Inhalte der Gespräche, denn daraus ergeben sich die Vernetzungen, von denen sich auch sehr gut auf die Inhalte schließen lässt.

Sept. 2014:
Wie "sprechend" bereits sog. Meta-Daten sind, wurde in einem Experiment in den USA getestet. Die Forscher haben untersucht, wie schwer oder leicht es ist, aus Telefonie-Metadaten ein Profil der Person zu erstellen. Die kurze Antwort ist: überraschend leicht und sogar ohne die Möglichkeiten, die eine staatliche Behörde hat. Aus öffentlichen Quellen wurden 18% der angerufenen Nummern identifiziert, z.B. Ärzte, Behörden, Firmen, Kirchen, Restaurants, Bars. Anrufe bei einem Facharzt verraten oft, "wo es denn zwickt", Anrufe in einer Entzugsklinik oder bei den Anonymen Alkoholikern sind "sehr sprechend", ebenso Scheidungsanwälte, Abtreibungskliniken, etc.

Die Techniken: Die Ernte das Graphen

Der einfachste (und legalste) Weg um an diese Informationen zu kommen ist die Suche in öffentlich verfügbaren Informationen. Fast alle sozialen Netze drängen (oder zwingen) ihre Mitglieder, zumindest einige Informationen öffentlich zugänglich zu machen. Wenn gar keine Informationen über die Suchmaschinen (oder wenigstens eine Suche innerhalb des Netzwerks) zur Verfügung stehen so ist es schwierig, die Mitglieder des Netzes zu finden und sich mit ihnen zu verbinden. In den meisten Facebook-Profilen findet auch jemand der nicht Friend mit einer Person ist, Links entweder direkt auf eine Auswahl von Friends oder Links zu Beiträgen die andere auf der Seite dieser Person gepostet haben. Außerdem kennt Facebook sog. 'Netze', z.B. eine Universität und zwischen diesen Mitgliedern gibt es in der Regel weitgehende Einsichtmöglichkeiten in das Netz dieser Personen. Auch wenn ich hier hauptsächlich auf Facebook referenziere, so gelten diese Regeln für fast alle sozialen Netze, z.B. auch die Businessnetze wie Xing und LinkedIn.

Aber viel mehr Informationen bekommt der Datensammler wenn er ein paar falsche Profile anlegt. Dies ist zwar gegen die Nutzungsbestimmungen der meisten Netze, aber nicht illegal. Die meisten Netze führen einen Kleinkrieg gegen Mitglieder, die nicht ihre 'richtigen' Namen für das Profil verwenden, wobei die Definition des richtigen Namens sehr willkürlich ist und speziell anderen Kulturen (wie Indien oder China) überhaupt nicht gerecht wird. Viele Menschen, z.B. ich, sind nicht unter dem Namen bekannt, der im Pass steht. Es ist kein großes Problem, sich mehrere Accounts zuzulegen, alles was man dafür braucht ist eine Email-Adresse pro Account. Attraktive Profilfotos (des anderen Geschlechts) erhöhen die Erfolgsquote, detaillierte Statistiken sind dazu verfügbar.

Crawler / Social Bots

Jetzt kommen sog. Crawler zum Einsatz, oder auch Social Bots. Social Bots sind Programme die sich in die Kontakte möglichst vieler Nutzern einschleichen und auf diese Weise an Informationen kommen, die nur für deren "friends" bestimmt sind. Das funktioniert ziemlich gut, weil ca. 20% der Nutzer auch Kontaktanfragen von Unbekannten annehmen. Diese Kontakte werden dann genutzt um bei den Friends dieser Erstkontakte weitere Kontaktanfragen zu starten. Das sieht dann so aus, als würde der Erstkontakt die Person kennen und dadurch wird eine Vertrauensstellung vorgegaukelt. Auf diese Weise lassen sich Netze sehr gut unterwandern.

Um ein Netz (ziemlich) vollständig abzudecken ist es nicht nötig, alle Teilnehmer als Friend zu haben, es reichen überraschend geringe Abdeckungsraten: Prying Data out of a Social Network (PDF). Um Zugang zu 50% aller Profile zu bekommen und zu 90% der Verbindungen zwischen den Mitgliedern muss die Zahl der falschen Profile 1% der Mitgliederzahl betragen (falls alle Mitglieder immer nur ihre Friends zugreifen lassen) oder nur 0,01% falls der Zugriff auch Friends-of-friends erlaubt ist. D.h. für reale Netze liegt die Zahl der notwendigen falschen Profile irgendwo dazwischen.

Weil vieles dafür spricht, dass an der Kleinen-Welt-Hypothese was dran ist und dass alle Menschen der Erde über 6 Edges miteinander verbunden sind, so ist es nicht sehr schwer, eine ziemlich gute Abdeckung der Verknüpfungen zu erreichen, speziell wenn auch noch andere Datenquellen, z.B. Adressbücher, siehe unten, genutzt werden.

Hier findet sich ein Web scraping tutorial für Entwickler.

2011: Socialbot Network finds it easy to harvest data from Facebook users

The researchers built an Socialbot Network (SbN) consisting of 102 Socialbots and a single botmaster, and ran the operation for eight weeks. During that time the SbN made 8,570 friend requests and recorded all of the profile information it was able to access from its newly found "friends". In all, the researchers' socialbots made Facebook friends with 3,055 people and grew its extended network to a total of 1,085,785 profiles.

The Socialbot Network: When Bots Socialize for Fame and Money

We operated such an SbN on Facebook'sÂ a 750 million user OSN (open social network)Âfor about 8 weeks. We collected data related to users' behavior in response to a large-scale infiltration where socialbots were used to connect to a large number of Facebook users. Our results show that (1) OSNs, such as Facebook, can be infiltrated with a success rate of up to 80%, (2) depending on users' privacy settings, a successful infiltration can result in privacy breaches where even more users' data are exposed when compared to a purely public access, and (3) in practice, OSN security defenses, such as the Facebook Immune System, are not effective enough in detecting or stopping a large-scale infiltration as it occurs.

Smartphone Apps

Über Smartphone Apps kommt man an einen anderen Teil des Social Graphs eines Menschen, d.h. diese Daten ergänzen sich sehr schön. Fast alle Smartphone Apps holen sich (nachdem sie gefragt haben (oder auch ohne zu fragen) Zugriffsrechte auf Adress- und Telefonbuch. Die NY Times zählt z.B. Sommer 2012 folgende Smartphone Apps auf: Whatsapp, Tiktok, Hipster, Locale, Uber, Yelp, Taxi Magic, Picplz, Scrabble, Waze, Gowalla, Hipster, Foodspotting, Twitter, Foursquare und Instagram.

Ganz konkret werden diese Kontakte dafür genutzt, die Email- oder Telefon-Kontakte einzuladen die gleiche App zu installieren. (das Ganze ist ziemlich illegal, aber in diesem Fall ist der Benutzer der diese App installiert und ihr bewusst diese Rechte gibt derjenige, der gegen das Datenschutzgesetz verstoßen hat, falls er nicht vorher JEDEN einzelnen seiner Kontakte im Adressbuch gefragt hatte).

Den gleichen Trick nutzen übrigens auch fast alle sozialen Netze und dies führt dazu, dass auch diese einen deutlich erweiterten Social Graph haben, der auch viele Nicht-Mitglieder enthält. Hier findet sich mehr dazu, was soziale Netze Daten über Nichtmitglieder sammeln.

Legal oder illegal?

Und das Schönste für die Datensammler: alles was bis jetzt beschrieben wurde, ist immer noch (weitestgehend) legal (auch wenn es ein Verstoß gegen Nutzungsbestimmungen ist und von Facebook mit erheblichen Programmieraufwand mit Hilfe des "Facebook Immune Systems" (siehe rechts) verhindert werden soll, allerdings mit begrenztem Erfolg)

Facebook Immune System

Schutzkonzept von Facebook, das auf Artificial Intelligence beruht und versucht auf der Basis von adversial learning Angriffe (wie Spam-, Malwareverteilung, Phishing, und auch 'gestohlene' Accounts und falsche Identitäten, aber auch Kettenbriefe) automatisiert zu erkennen und ebenso automatisiert Gegenmaßnahmen zu implementieren, die diesen Angriff so erschweren, dass er unprofitabel wird. Gegenmaßnahmen sind das Sperren von Eingaben (z.B. URLs zu Phishing Websites oder Malware), die Anforderung von zusätzlichen Authentisierungen oder das Sperren von Accounts.

Link Prediction ('die kennen sich bestimmt')

Jetzt wird es etwas komplizierter. Der ziemlich komplizierte Artikel One Plus One Makes Three (for Social Networks) erläutert und testet, wie sie aus den Kontakt- (oder Friend-)Listen von Mitgliedern deren Daten sie haben auch auf andere Personen schließen können. Grundlage ist die Annahme, dass wenn 2 Menschen (der Kontakte die Datensammler kennen) die überlappende Freunde haben, diese Freunde sich mit einer hohen Wahrscheinlichkeit auch kennen. (A kennt X und Y, B kennt ebenfalls X und Y, so kennen sich X und Y mit einiger Wahrscheinlichkeit auch).

Und je mehr Informationen ein Betreiber über das soziale Netz einer Person hat (Google kennt nicht nur die Friends in G+ sondern auch die Adresslisten und Email-Kontakte in gmail) so besser klappen diese Vorhersagen. Deswegen empfehlen einige Privacy-Schätzer, verschiedene Dienste von verschiedenen Anbieter zu nutzen.

Wie gut die Vorhersage von Connections heute funktionieren kann zeigt diese Episode: Eine Frau in den USA bekommt von Facebook eine andere Frau als 'friend' vorgeschlagen, da sie wohl viel gemeinsam hätten. Das Gemeinsame, so stellte sich beim Betrachten der Hochzeitsfotos der anderen Frau heraus, war der Ehemann, der als Bigamist mit beiden Frauen verheiratet war.

Movement Prediction ('der geht bestimmt als nächstes dort hin')

Wenn Ortsdaten systematisch gesammelt werden, so ist nach wenigen Tagen die Identität nich mehr anonym und nach einigen Wochen lassen sich Bewegungsmuster erkennen, die mit einer guten Wahrscheinlichkeit sogar vorhersagen lassen, wo der überwachte einige Minuten später sein wird.

Die Ernte von Profildaten (und Daten die NICHT im Profil sind)

Manche Internetnutzer glauben, sie könnten dieses ganze System unterlaufen, indem sie z.B. nicht unter dem richtigen Namen registriert sind und nicht alle Informationen eingeben oder öffentlich freigeben, bzw. unrichtige Annahmen machen.

Legal oder illegal? (2)

Solche riesigen Sammlungen (wie links unter Datenaggregatoren beschrieben) und deren systematische Auswertung mit Statistikprogrammen sind in den USA (fast) immer legal, denn dort kennt das Gesetz das 'Recht an den eigenen Daten nicht'. Beschränkungen gibt es in den USA nur in Teilbereichen, z.B. beim Kreditschutzrecht, wo der Betroffene ein Korrekturrecht hat (und deswegen die Firma Spokeo zu der oben erwähnten Strafe von 800 000$ verurteilt werden konnte).

Bestraft wurde Spokeo aber nur, weil sie diese sehr detaillierten Daten für Kreditvergabezwecke angeboten hatten. Dadurch sind sie unter das strenge Kreditschutzrecht gefallen. Daher gibt es immer noch diese detaillierten und durchaus intimen Daten, aber in der Werbung darf Kreditschutz nicht erwähnt werden. Spokeo schreibt jetzt auf ihrer Website, dass ihre Daten weder für Bewertung von Bewerbern oder Kreditwärdigkeit genutzt werden därfen. Damit ist das jetzt legal.

In Europa sind die Gesetze strenger und eine derart große Datensammlung wäre hier schwieriger zu rechtfertigen. Hier kann der Betroffene über die Nutzung seiner Daten entscheiden und es gilt eine recht strenge Zweckbindung. Wenn eine Firma wie die OeBB Daten zum Zweck der Ausstellung einer Vorteilskarte erfragt und verarbeitet, so darf sie diese Daten nur dann für Marketingzwecke verwenden, wenn der Kunde dieser Verwendung ausdrücklich zugestimmt hat.

Solche Zustimmungen geben die Kunden aber in vielen Fällen durch die Zustimmung zu den Allgemeinen Geschäftsbedingungen (AGB) oder auf Websites durch das Anklicken von "Ich habe die Geschäftsbedingungen gelesen und akzeptiere sie". Dort finden sich dann ziemlich oft Formulierungen wie 'Daten werden zu Marketingzwecken an Partnerfirmen weitergegeben'. Wenn der Kunde diesen Abschnitt nicht aus dem Vertrag entfernt sind solche Sammlungen und Auswertungen auch in Europa legal.

(Anmerkungen: ich habe so einen Abschnitt aus dem Vertrag mit der OeBB herausgestrichen, mit dem Ergebnis, dass mir die OeBB einen neuen Vertrag zugeschickt hat, der diesen Passus nicht mehr enthielt. So gehört sich das! Ich habe solche Abschnitte auch schon aus Handyverträgen rausgestrichen, allerdings ohne dass dies eine Wirkung gehabt hatte. Beim Vertragsabschluss beim Kauf im Internet gibt es diese Möglichkeit leider nicht, da habe auch ich bestimmt schon vielen Datenweitergaben mit offenen Verwendungszwecken zugestimmt.

In Europa gilt: Wenn ein Kunde einer spezifischen Verarbeitung seiner Daten zustimmt, so ist diese Verarbeitung auch legal. D.h. wenn eine Firma Facebook-Fans hat und diese der Weitergabe ihrer Facebook-Profildaten für Marketing oder andere Zwecke zustimmen, so ist die Verwertung für Marketing Zwecke auch in Europa legal (das gilt natürlich genauso für alle anderen Netzwerke, Internetshops und alles weitere).

Beides ist nur sehr begrenzt wirksam, bzw. eigentlich ziemlich unwirksam. Wer z.B. seine Friend-Liste nicht öffentlich zugänglich macht, dessen Kontakte ergeben sich (zumindest teilweise) aus den Kontakten der Freunde, die nicht so vorsichtig sind.

Die Studie "Facebook friendships expose sexual orientation" weist dies nach. Wieder geht es nach dem Prinzip 'Gleich und gleich gesellt sich gern', oder 'equal status contact' in der Fachsprache. So zeigen Untersuchungen dass im Durchschnitt 65% der Kontakte von Männern ebenfalls Männer sind, bei Frauen sind sogar 70% der Friends andere Frauen. Dies ist bei Lesbian/Gay/Bi/Transgender (LGBT)-Personen nicht anders. Die sexuelle Orientierung konnten die Wissenschaftler aber trotzdem mit einer relativ hohen Genauigkeit feststellen weil ein Teil der LGBT Community Mitglieder ihre Orientierung veröffentlicht und weil bei Mitgliedern der LGB Community 55% ihrer Friends ebenfalls der LGBT Community angehören, bei den Heteros sind dies nur 4%. D.h. das Nicht-Eintragen der sexuellen Orientierung, bzw. falsche Angaben, bringen nicht viel, wenn Datensammler sich die Mähe der Auswertung machen.

Ein weiteres "schönes" Beispiel für das Gewinnen von Informationen die nicht explizit vorhanden waren ist die "Schwangerschaftsbestimmung" die die Supermarktkette Target in den USA auf Grund des Kaufverhaltens durchführt. Mehr dazu im Artikel zu Spuren im Internet. In dem dort verlinkten Artikel wird erklärt, wie die Steigerungsstufe von "Profil erstellen" dann "Verhalten verändern" ist. Target hat es geschafft, nicht nur zu erkennen, dass Frauen schwanger waren, sondern hat dann mittels gezielter Werbung daran gearbeitet ihr Verhalten gezielt zu beeinflussen.

Kategorisiert durch Facebook

Schon fast kurios ist die Beobachtung, die ein Werbetreibender auf Facebook gemacht hat. Er kann dort auch Themen wie 'Kinderpornografieä', 'Folter', 'Nekrophilie', 'Sodomie', 'Anorexie', 'Kannibalismu', 'Inzest', 'Vergewaltigung', 'Joint' und 'Pornografie' als Zielgruppe angeben. Die Auflösung ist sehr einfach: Dies sind nicht Nutzer, die diese Themen mit Likes versehen haben, sondern Nutzer, die sich z.B. bei einer Selbsthilfegruppe registriert haben, "friend" von Hilfsorganisationen wie Amnesty International sind, etc. Aber auch das Liken eines satirischen Posts kann zu dieser Kategorisierung führen.

Warum führt Facebook diese Kategorien? Die Erklärung von Facebook ist, damit z.B. Hilfsorganisationen (NGOs) entsprechende Werbung an dieser Personen platzieren können. Der Artikel zeigt übrigens auch, wie ein Nutzer herausfinden kann, in welche Kategorien er/sie eingestuft wurde.

Die Wahrheit aber ist, dass durch die Klassifizierungen unsere persönlichen Stärken und Schwächen gezielt angesprochen und ausgenutzt werden können, und dies führt zu mehr Kaufabschlüssen. Mehr Details zu den Klassifizierungen und der automatisierten Persönlichkeitsanalyse an anderer Stelle.

'Scrapers' Dig Deep for Data on Web
Das Wallstreet Journal berichtet 2010 wie die bekannte Medien-Rating-Agentur Nielsen (die bekannt wurde durch das Abschätzen von Zuschauerzahlen bei Fernsehsendungen) sich in dem Gesundheits-Blog PatientsLikeMe mehrere falsche Persönlichkeiten (als Dialogteilnehmer) anzulegen und dann nächtens alle Inhalte systematisch abzuziehen und zu verkaufen und zwar mit dem richtigen Namen der Mitglieder. Auf dieser Website diskutieren Patienten über ihre Krankheiten, von Depression bis Multiple Sklerose. Nielsen hat, nachdem sie erwischt wurden, versprochen damit aufzuhören. Nielsen wurde übrigens nicht bestraft. Das war zwar sicher unethisch, aber in den USA nicht illegal. Entdeckt wurde das Ganze von den Administratoren von PatientsLikeMe da die Programme von Nielsen zu aggressiv waren und einen auffällig hohen Datenverkehr erzeugt hatten.

PatientsLikeMe verkauft übrigens weiterhin die Chat-Protokolle (wie in den Nutzungsbedingungen beschrieben) in anonymierter Form. Der Artikel verweist in diesem Zusammenhang auf die Firma PeekYou.com, die sich damit brüstet, dass sie Pseudonyme und Nicknames auflösen kann und dafür ein Patent beantragt hat, mehr dazu weiter unten.

"Gefällt-mir"-Button

Das Folgende klingt jetzt vielleicht harmloser, aber ist doch eigentlich recht brisant: Facebook (und alle anderen Social Networks die entsprechende "Buttons" eingeführt haben tracken nicht nur, welche Artikel oder Produkte die Nutzer im Web auf ANDEREN Website "geliked" haben, sondern auch was sie gesehen haben ohne zu "liken". Das tut das offizielle Javascript des Like-Buttons, andere (entschärfte) Versionen die das nicht automatisch und sofort tun, sind zwar im Einsatz, aber entsprechen nicht den Nutzungsbedingungen. Allein Facebook hat angeblich rund 900 000 solche "Tracking-Like-Buttons" im Einsatz (2012).

Das heißt, die Profile in den Social Networking Websites enthalten nicht nur die sichtbaren Informationen, sondern im Hintergrund auch noch, welche anderen Webseiten und welche Artikel die Personen sich angesehen haben. Das ist ein extrem weitgehender Eingriff in die Privatsphäre: Auf fast allen Webseiten mit den entsprechenden Like-, Tweet-, etc.-Buttons wird ein differenziertes Interessenprofil der Nutzer angelegt (egal ob sie einen Facebook-, Twitter-Account haben oder nicht. Bei den eigenen Nutzern liegen die Daten dann unter dem realen Namen, bei den Nicht-Kunden eben anonym, aber das ist kein großes Hinderniss.

Mehr zu Social Networks an anderer Stelle.

Und neben den Social Networks sammeln die großen Werbefirmen wie DoubleClick (im Besitz von Google) oder Alexa (im Besitz von Amazon) seit fast einem Jahrzehnt die Webseiten die wir besucht haben und sammeln mittels Tracking Cookies alles über unsere Interessen.

Die Dimensionen des Big Five (auch Fünf-Faktoren-Modell, FFM): Extraversion, Verträglichkeit, Neurotizismus, Gewissenhaftigkeit, Offenheit - Quelle: Wikipedia

Big Five automatisierte Persönlichkeitsanalyse + Gefühlsanalyse (Sentiment Detection)

Bereits 2014 zeigt eine Studie über die Auswertung der Likes, dass die blose Auswertung der Tweets oder Facebook-Postings oder Facebook-Likes einer Person eine Persönlichkeitsanalyse gemacht werden kann, die bessere Aussagen macht als die von Familienangehörigen. Dafür wird zumeist Big Five verwendet, ein Persönlichkeitskonzept, bei dem für jede Person (i.d.Regel durch Fragebogen) das Ausmaß von folgenden Faktoren bestimmt wird: Neurotizismus, Extraversion, Offenheit für Erfahrungen, Gewissenhaftigkeit und Verträglichkeit. Die Kategorisierung erfolgt an Hand dieser 5 Skalen (=Dimensionen). Es konnte z.B. gezeigt werden, dass die 'Treffer-Rate' von Familienmitgliedern schlechter ist als die simple Auswertung der Likes.

Die Klassifizierungen aller Menschen im Internet

An anderer Stelle schreibe ich mehr darüber, in welche gruseligen Persönlichkeitsklassen wir auf den Plattformen zum Teil eingeteilt werden.

Aber es geht noch viel bizarrer: Der wired Artikel aus 2013 status update language used to predict Facebook users' age, gender, personality beschreibt, dass sich (angeblich) bereits aus der Wortwahl, aber auch der Satzlänge und der Wortlänge eine recht gute Einordnung in die Big Five Kategorien erstellen lässt. Ob sich auf diese Weise wirklich die Persönlichkeit beschreiben lässt, das ist nicht so wichtig, die Methode wird leider trotzdem eingesetzt und erlaubt z.B. eine automatisierte Persönlichkeitsanalyse von Bewerbern deren Social Network Auftritte bekannt sind.

2018 haben die Betreiber aller Datensammlungen Zugang zu künstlicher Intelligenz (Artificial Intelligence). Entweder, weil sie wie Google, Facebook, Microsoft, Amazon diese selbst entwickeln, oder aber Dienste wie IBM Personality Insights auf der Basis ihres Watson Systems nutzen.

Aber es gibt noch mehr Angebote für solche Auswertungen: Amazon schreibt 2018: Shopper Sentiment: Analyzing in-store customer experience. Da schlägt Amazon z.B. vor, die Reaktionen einzelner Kunden auf ein Werbeplakat gezielt auszuwerten. Der Artikel beschreibt, wie das implementiert werden kann.

Mit Hilfe von Alexa kann Amazon das aber noch viel besser. Auch 2018: Alexa Wants to Know How You're Feeling Today. Sie bewerten nach 'happiness, joy, anger, sorrow, sadness, fear, disgust, boredom, [or] stress' und können dann gezielte Angebote machen.

Wer kann an solchen eher groben Persönlichkeits- oder Gefühlsanalysen interessiert sein? Da gibt es viele Interessenten: So sind Versicherungen sehr wohl daran interessiert, ob ihre Klienten als "gewissenhaft" eingestuft werden. "Loyalität" ist für Handybetreiber von Interesse damit sie abschätzen können, mit welcher Wahrscheinlichkeit der Kunde den Wechsel zu einem anderen Anbieter wirklich wahr macht. Und wer als "ängstlich" eingestuft wurde dem kann man mit etwas Angstmache bestimmt viele Sicherheitsfeatures verkaufen.

Solche Big Five Analysen spielten dann auch bei den US-Wahlen 2016 eine große Rolle (Menschen die z.B. sehr wenig "offen" sind, sind gute Kandidaten für rechtslastige Aussagen, wer als "ängstlich" eingestuft wird, dem kann man Angst machen), neben den anderen Problem durch die Fake News.

Datenaggregatoren und alle anderen Datensammler klassifizieren jeden von uns

Forrester Research berichtet in einer Studie, dass allein der Markt für den Ankauf von Daten über (noch) Nicht-Kunden in den USA 2 Millard. US$ pro Jahr beträgt; zusätzlich geben die Firmen Milliarden für Creditratings, Market Research und Analyse ihrer Kundendaten aus.

Die NY Times berichtet 2012 über den US-Datensammler Acxiom, der Daten über 500 Mio Menschen gesammelt hat und zwar im Durchschnitt 1500'Datenpunkte' (Futurezone: Acxiom: Handel mit 500 Mio. Konsumentendaten). (Ähnliche Datenmengen haben die Konkurrenten LexisNexis, Epsilon, Equifax, BlueKai, Harte-Hanks, Merkle, Intelius, Meredith Corp. oder ChoicePoint - und das Ganze wird auch dadurch nicht besser, dass diese Sammlungen oft viele Fehler enthalten: Bei 67% der Acxiom- und bei 73% der ChoicePoint-Daten gab es Fehler in den Grundinformationen (Name, Adresse Telefon, Sozialversicherungsnummer). Epsilon kam 2011 in die Presse weil es sich einige Millionen Email-Adressen hatte abnehmen lassen, Acxiom hatte nennenswerte Datenverluste in 2003).

Viele dieser Datenpunkte stammen aus öffentlich zugänglichen Quellen und das sind in den USA nicht nur die selbstveröffentlichten Profildaten auf Facebook und LinkedIn, sondern das sind auch die Daten der Behörden, die dort auf Grund des 'Freedom of Information Act' (FOI) durch die Behörden veröffentlicht werden müssen.

Acxiom brüstet sich damit, eine 360 Grad Ansicht jeder Person bieten zu können und daran zu arbeiten, immer genauer das Verhalten eines Konsumenten voraussagen zu können (wie dies Target im obigen Beispiel auch gelungen ist). Der NY Times Artikel bringt konkrete Beispiele aus Präsentationen der Firma Acxiom wie ein Konsument von dem der Computer überzeugt ist, dass er an einer bestimmten Sache interessiert sein könnte, zum Kaufabschluss geführt wird. Auch Sonderangebote können dabei eine Rolle spielen - aber nur wenn die Analyse ergeben hat, dass dieser Mensch sich von so etwas rumkriegen lässt - eine von 70 Persönlichkeitsklassen in die Acxiom die Konsumenten einteilt.

Die Informationen können sehr tiefgehend sein, z.B. "Companies can buy data to pinpoint households that are concerned, say, about allergies, diabetes or 'senior needs'. Also for sale is information on sizes of home loans and household incomes. Oder: 'Christian families','Dieting/Weight Loss', 'Gaming-Casino','Money Seeker' und 'Smoking/Tobacco'. Und: "an individual's race, ethnicity and country of origin." Hier ein Artikel aus 2023 über 65 000 teilweise recht intimen Kategorien die die Werbeindustrie zum selektieren der Zielgruppen nutzen kann.

Aus der LA Times 2010 über die Firma Spokeo:

Unlike other people search sites, Spokeo merges 'real life'information (address, email address, marital status, etc.) with social network data (Facebook profiles, Twitter feeds, etc.) providing you with a profile that is among the most comprehensive profiles available on the Web.

Legal oder illegal? (3)

Bei diesen Daten die die US-Aggregatoren da sammeln (siehe linke Seite) würde es in Europa bei sog. 'sensiblen' Daten auch bei einer Zustimmung des Betroffenen sehr eng werden - ich vermute, da reicht das Wegklicken einer AGB nicht aus. Denn nach EU Datenschutzrecht unterliegen "rassische und ethnische Herkunft, politische Meinung, Gewerkschaftszugehörigkeit, religiöse und philosophische überzeugung, Gesundheit und Sexualleben" einem besonderen Schutz. Die Weitergabe aller anderen Datenarten kann der Nutzer durch das Ignorieren (Wegklicken) der Allgemeinen Geschäftsbedingungen oder ähnliches auch nach EU-Recht erlauben.

Die Grundsuche ist bei Spokeo für jeden kostenlos, für maximal 5$ im Monat gibt es weitergehende Infos, z.B. Adresse und ein Link zur Wohnung in Google Maps, Telefon, Alter, Geschlecht, ethnische Herkunft, Beziehungsstatus, "Life Style", Religion, Parteizugehörigkeit, Familienmitglieder, Ausbildung, "Credit Estimate", "Wealth Level", mortgage value, estimated income, investments, Typ der Wohnung, Ausstattung des Hauses (Pool oder nicht), aber auch informationen wie "self-driven", "donates to causes", "collects sport memorabilia".

Der Artikel The Code We Can't Control beschreibt noch unangenehmere Kategorien, wie sie von solchen Datenaggregatoren verwendet werden um uns zu klassifizieren und zu bewerten, z.B. 'probably bipolar', 'daughter killed in car crash', 'rape victim', 'STD sufferer' (Geschlechtskrankheit). Alle diese Informationen sind mit einer gewissen Wahrscheinlichkeit aus den Klicks, den Website-Besuchen und den Likes (den eigenen und denen der "Friends" zu entnehmen).

Nach den Berichten sind viele der Informationen falsch. Wenn diese Klassifizierungen 'nur' für Werbung verwendet werden, so kann es extrem nerven, aber es wird zum echten Problem, wenn auf Grund dieser falschen Daten falsche Konsequenzen gezogen werden, z.B. bei einer Bewerbung oder bei einem Kreditantrag. Es ist ja gar nicht der Anspruch von Big Data, wahrheitsgemäße Aussagen über einzelne Personen zu machen, sondern für die Werbung reicht es, wenn eine Klassifizierung auf z.B. 60% zutrifft, das ist immer noch besser als Postwurfsendungen an alle Bürger. Im Einzelfall nervt es, wenn in den USA Personen die "Afro American" eingestuft werden, immer wieder Werbung bekommt, die sich auf Kriminalität beziehen.

Aber natürlich werden diese Profile auch für persönliche Bewertungen genutzt. Dann wird es schlimm, wenn mir ein Job verweigert wird, weil mich der Algorithmus falsch eingestuft hat. Der Autor von The Code We Can't Control berichtet von seiner eigenen Arbeit bei Google, dass es kaum möglich ist, die Klassifizierungen nachzuvollziehen. Zitat:

If you ask an engineer, 'Why did your program classify Person X as a potential terrorist?' the answer could be as simple as "X had used 'sarin' in an email", or it could be as complicated and nonexplanatory as, "The sum total of signals tilted X out of the 'non-terrorist' bucket into the 'terrorist' bucket, but no one signal was decisive". It's the latter case that is becoming more common, as machine learning and the 'training' of data create classification algorithms that do not behave in wholly predictable manners.

Ich versuche es anders zu erklären: Irgendwann wurde festgestellt, dass Menschen die als bipolar diagnostiziert wurden bestimmte Websites besuchen, "Likes" bei bestimmten Artikeln machen, bei ihren Tweets oder Facebook-Postings bestimmte Wortkombinationen verwenden, zu bestimmten Tageszeiten aktiv sind, etc. Diese Menschen fallen (mathematisch-statistisch) in ein sog. Cluster, eine räumliche Gruppierung in dem hoch-dimensionalen Raum. Der Trick des Algorithmus besteht darin, anderen Personen die durch ihre Klicks oder Likes in der Nähe dieses Clusters angeordnet werden, die gleiche Diagnose zuzweisen. Im Einzelfall ist daher nicht nachzuvollziehen, warum jemand (mathematisch) in die Nähe der Borderline-Patienten gerutscht ist.

Ethik von künstlichen Intelligenzen

An anderer Stelle gibt es mehr zu Datenverlusten bei Datenaggregatoren.

Weitere Details zu Klassifizierungen gibt es bei Facebook und die anderen Datensammler klassifizieren ihre Nutzer. Ebenfalls an anderer Stelle erkläre ich, wie abgefragt werden kann, was die großen Datensammler über mich gesammelt haben.

Auf Spokeo (und den anderen Datenhändlern) werden auch Fotos aus dem Netz zusammengesucht, alles was öffentlich zugänglich ist (d.h. auch die, bei denen die Benutzer beim Posten nicht auf die Privacy Settings geachtet haben. Dazu kommen Kommentare, Postings, Produktbewertungen auf amazon, Filmwebsites oder eBay.

Die Informationen kommen von über 80 öffentlichen Quellen, Facebook, Flickr und Twitter sind nur einige davon. Mehr als 1 Mio Suchanfragen werden jeden Tag bearbeitet. Potentielle Arbeitgeber bekommen auf diese Weise ein sehr intimes Bild des Kandidaten (aber die Nutzung für diese Zwecke ist auf der Spokeo Website ausdrücklich verboten.

Darstellung der Zusammenführung von Pseudonymen und Klarnamen

Firma PeekYou.com hat ein Patent darauf angemeldet, wie Pseudonyme und Nicknames aufgelöst werden können.
Quelle: Artikel 'Scrapers' Dig Deep for Data on Web

Die De-Anonymisierung von anonymen Daten

Mein Tutorial zu Anonymisierung

Hier der Link zu dem PDF meines Vortrags Probleme bei der Anonymiserung von Daten, in dem die hier dargestellten Probleme illustriert werden.

Ich erkläre, wo die Fehlerquellen liegen und mit welchen Tricks und Verfahren Datensätze wirklich anonymisiert werden können. Das Tutorial gibt es auch als Video: Anonymisierung und Pseudonymisierung von Daten.

für alle, die glauben, dass die Angabe eines falschen Namens im Profil ihre Privatsphäre irgendwie schützen könnte habe ich eine unangenehme Nachricht: "We don't want the name. The name is noise".

Dies erklärt ein Techniker von Google In einem Artikel der NY Times "Rethinking Privacy in an Era of Big Data" ---- als Antwort auf die Frage, warum Google kein Interese an persönlichen Namen hat (Diese Meinung hat sich bei Google allerdings geändert, als Google Plus eingeführt wurde und dann noch mal in 2016, als Google Account-Profile direkt mit den Profilen aus Aktivitäten auf nicht-Gooogle Seiten verknüpft wurden).

2006: AOL - die Veröffentlichung von Suchanfragen

AOL (America Online) ist heute 2017 nur noch den Internet-Veteranten als Suchmaschine und Internetportal bekannt. 2006 wurde dort zum ersten Mal publikumswirksam öffentlich demonstriert, dass mittels Data Mining eine große Datenbank mit vielen Detailinformationen über reale Menschen aufgebaut werden kann, auch wenn die Ursprungsdaten anonym sind.

AOL hatte, um Wissenschaftlern zu helfen, auf einer speziellen Website 20 Millionen Suchanfragen von 657 000 Kunden zur Verfügung gestellt, und zwar in 'anonymer' Form. Die Anfragen waren nach Kunden geordnet, IP-Adresse und Name des Kunden wurden aber durch Nummern ersetzt (das nennt man Pseudonymisierung). Diese Daten sind dann bald ausgewertet worden und sie boten einen guten überblick, was einzelne Personen so alles gesucht haben.

Schnell waren einzelne Personen identifiziert und von der Presse angesprochen worden (z.B. Personen, die nach dem eigenen Wohnort gesucht hatten oder sogar nach dem eigenen Namen). AOL hatte dann zwar bald die Website mit den Daten gesperrt, die Liste kursierte aber noch eine Weile im Internet.

AOL war dies alles sehr peinlich. Der Sprecher sagte, dass sie das nicht so sehr als Verletzung der Privatsphäre sehen, sondern als extreme Dummheit, die gegen alle Konzernregeln verstößt. Na ja.

Nach und nach werden mehr und mehr Details veröffentlicht. Das geht bis zu ziemlich erschreckenden Anfragen wie "how to kill your wife". Muss die Polizei jetzt die (nicht-anonymisierten) Daten zu solchen Suchanfragen von AOL anfordern um einen möglicherweise geplanten Mord zu verhindern?

Hier ein Artikel in USA Today, der Beispiele der De-Anonmisierung aufzeigt: AOL search data release reveals a great deal:

The problem is that searches aren't anonymous, even if the screen names were withheld to protect the innocent. The New York Times proved this when it tracked down user 4417749, one Thelma Arnold of Lilburn, Ga., from her searches. . . . . . . .

Take user 5450953. He apparently has a taste for kiddie porn, based on his searches for "lolita nudes," "underground kiddy porn pictures," "russianpreteennudes," and, most disturbingly, "see girls and animals having sex." Who is he? Let's narrow it down. He appears to own a 2004 Corvette ("need oil drain plug gasket for my 2004 corvette") and lives near Baltimore ("see telephone number of old wheel world in Baltimore"). He's also planning a trip to Vegas ("see the weather in las vegas" and "see showtime tours in las vegas"). That might be enough information for people who know him - "Hey, doesn't Steve own a 'Vette, and didn't he just come back from Vegas?"

Diese Netzknoten (=Personen) wurden identifiziert weil Suchanfragen grundsätzlich lokal und persönlich sind, wir stellen Fragen, die uns interessieren und betreffen. Jeder, der Suchanfragen ohne die Nutzung von HTTPS-Verschlüsselung abschickt stellt übrigens auch seinem Internet Service Provider (ISP) solche Daten zur Verfügung (zum Glück ist HTTPS heute der Standard bei fast allen Websites, erreicht wurde dies übrigens durch Druck von Google).

Hier eine weitere Auswertung der AOL Daten.

An anderer Stelle mehr zu den Aktivitäten, bereits beim Internetanbieter den gesamten Datenverkehr abzufangen.

British Telecom als großer Internet Service Provider (ISP) in England war äbrigens 2008 kurz davor, solche Daten zu Geld zu machen. Erst auf Grund deutlicher Proteste wurde dies wieder aufgegeben. Heute ist das Problem geringer geworden, weil nun fast alle Websites mit HTTPS, d.h. verschlüsselt angesprochen werden, auch die Suchanfragen.

Darstellung de-anonmyisierung der Netflix Daten

Die Netflix-Daten wurden de-anonymisiert, indem der gleiche Film sowohl in den Netflix-Daten wie in der öffentlichen IMDB gesucht wurde, und zwar im Abstand von max. 2 Wochen. Wenn eine Person mehrmals Filme ausgeliehen und dann kommentiert hatte, so gab das die Identität preis

2007: Netflix startet einen Big Data Wettbewerb

Anonymisierung von großen Datenmengen war 2007: Anlass war ein Wettbewerb, den der Videoverleiher Netflix ausgeschrieben hatte um seinen Empfehlungsalgorithmus zu verbessern. Der (damals noch) DVD-Verleiher stellte den Teilnehmern des Wettbewerbs mehr als 50.000 Teilnehmern Datensätze zur Verfügung. Die Daten enthielten 100 Millionen Film-Bewertungen, zusammen mit dem Zeitpunkt der Bewertung, einer eindeutigen ID-Nummer für den Kunden und Informationen über den Film. Auf der Basis dieser Daten von 480.000 Kunden sollten die Wettbewerbsteilnehmer einen Empfehlungsalgorithmus erstellen, der 10% besser als Netflix eigener vorhersagen würde, welche Filme diese Kunden in Zukunft ausleihen würden.

Die Daten waren derart schlecht anonymisiert, dass bereits nach wenigen Wochen zwei Wissenschaftler der University of Texas diverse Netflix-Kunden identifizierten. Sie verglichen dafür die Ausleihdaten von Netflix mit Reviews, die in der Internet Movie Database (IMDB) veröffentlicht wurden. Dadurch ließen sich Aufschlüsse u.a. über die sexuelle Orientierung und politische Einstellung (pdf) der Betroffenen gewinnen.

Diese Netzknoten (=Personen) wurden identifiziert, weil den Knoten eine gemeinsame Eigenschaft ('hat den Film xxx gesehen und zwar ungefähr am yyyyy') mehrfach zugeordnet werden konnte. Der Rest ist Arbeit für die Computer. (Dabei hätte das Problem leicht vermieden werden können: Die Namen der Filme hätten pseudonymisiert werden können und das Datum der Ausleihe ist auch nicht nötig, eine Sequenznummer hätte ausgereicht).

Einige vermuteten an dieser Stelle, dass solche Datensammlungen nicht mehr zur Verfügung gestellt würden: AOL, Netflix and the end of open access to research data:

First the AOL search logs last year, and now the Netflix database. With these two incidents, it is highly unlikely that any company will ever again share data with researchers.

Der Grund liegt darin, dass letztendlich immer ein realer Social Graph existiert und jede Datenveröffentlichung einen Ausschnitt aus dem größeren realen Graphen ist und darum mit anderen Daten zusammenpasst, egal ob mit realem Namen versehen oder nicht. Das bedeutet für jeden von uns, dass die Verwendung von Pseudonymen (Nicknames) im Netz nur sehr begrenzte Privatsphäre bietet, wie ich an anderer Stelle zeige. Dort verlinke ich auch auf einen Artikel in der Zeitschrift c't, für den die Redakteure in einem Experiment die verschiedenen privaten und beruflichen Identitäten eines Freiwilligen und die seiner Familie in einem großen Profil zusammengefasst hatten; als er das Ergebnis sah hat er die Veröffentlichung des Artikels verboten: Datenschutz-Fallrückzieher.

Wie anonymisiere ich richtig?

Ein sehr guter, aber teilweise technischer Text ist der Bericht der Art.29 (Datenschutz) Arbeitsgruppe der EU zu korrekter Anonymisierung. Sie betonen, dass Anonymisierung ungleich Pseudonymisierung ist und dass beides eine Kunst ist, bei der es keine einfachen Rezepte gibt ("Namen" ersetzen durch . . . . ), sondern dass immer der volle Datensatz und sogar das Umfeld betrachtet werden müssen, aus dem ein Angreifer (bzw. der berechtigte Empfänger der Daten) evtl. die Informationen ziehen kann, die zur De-Anonymisierung führen.

Wie schwierig es ist, anonym zu sein, zeigt 2014 auf spielerische Weise die Website I Know Where Your Cat Live. Der Autor zeigt, wie der Kernbestandteil aus dem sich das moderne Internet zusammen setzt (Katzenfotos) auf den Besitzer zurückverfolgt werden können.

2013: New York City Taxi and Limousine Commission

In 2014 veröffentlicht ein Masters Student der Northwestern University eine Studie, die er auf Grund der anonymisierten Records der New Yorker Taxifahrten machen konnte. Die Daten enthalten einen Hash der Taxinummer, Koordinaten von Anfangs- und Endpunkt, Datum, Uhrzeit und Preis der Fahrt: Riding with the Stars: Passenger Privacy in the NYC Taxicab Dataset.

Der Titel bezieht sich darauf, dass er für einige Prominente die jeweilige Fahrt eruieren konnte, da aus anderen Quellen (der Boulevarpresse) genügend Zusatzinformationen zur Verügung standen. Außerdem konnte er für ein Striplokal an Hand der Taxifahrten eine Reihe der Kunden in Facebook wiederfinden. Der Kern des Artikels ist jedoch dass er die Mathematik angibt, mit der solche Datensätze behandelt werden müssen, damit sie nicht so einfach de-anonymisiert werden können.

Überlappung der Daten in der DNA Datenbank mit dem Wählerverzeichnis

Quelle: Personal Genome Project (PGP) - Die Darstellung zeigt die Überlappung zwischen den anonymiserten persönlichen Daten in der DNA-Datenbank und dem Wählerverzeichnis und das reicht aus für die Erkennung. Postleitzahl (ZIP), Geburtsdaten und Geschlecht sind "quasi-identifier". Diese finden sich in den Medizindaten und im Wählerverzeichnis. Der überlapp identifiziert die Personen.

2013: Ein Klassiker der De-Anonymisierung: Die DNA Studie von Latanya Sweeney

Mit DNA hat diese Studie nur am Rande zu tun: die Wissenschaftlerin Latanya Sweeney hat im Rahmen eines DNA-Projekts aufgezeigt, dass die Erfassung von Geburtsdatum, Postleitzahl und Geschlecht zwischen 84 und 97% aller Teilnehmer identifiziert. Geburtsdatum, Postleitzahl und Geschlecht sind spezifisch genug für eine ziemlich gute Identifizierung. Das Beispiel zeigt, dass es gar nicht einfach ist, wirklich anonyme Daten herzustellen. In diesem Fall wäre vermutlich die Reduktion des Geburtsdatums auf das Geburtsjahr die Lösung gewesen. Hier der Link zum Artikel: Harvard Professor Re-Identifies Anonymous Volunteers In DNA Study.

2016: Die Daten der Browser-Erweiterung WOT ("Web of Trust")

NDR-Reporter decken einen Datenskandal in Deutschland auf. Das vielfach beworbene Browser-Plugin WOT ("Web of Trust") soll vor gefährlichen Websites warnen, aber dafür muss es die Surf-Daten an die zentrale weitermelden. Und die merkt, dass sie auf einem Goldschatz sitzen, nämlich dem Surf-Verhalten der Nutzer. Diese Daten verkauft WOT dann weiter, natürlich in anonymisierter Form, alles andere wäre ja illegal.

Das Problem ist, dass auch die Techniker oder Statistiker von WOT auf die gleichen Probleme reingefallen sind, wie alle obigen Beispiele: Die Daten sind alles andere als anonym.

Aus den Artikeln: "So seien die Daten sehr einfach konkreten Personen zuzuordnen gewesen und hätten intimste Details aus deren Leben verraten. Rekonstruiert haben sie etwa Details zu laufenden polizeilichen Ermittlungen oder zu sado-masochistischen Vorlieben eines Richters, aber auch die internen Umsatzzahlen eines Medienunternehmens und Internetsuchen zu Krankheiten, Prostituierten und Drogen. Zu einem Manager aus Hamburg habe man einen Link zu einem von ihm genutzen Cloud-Speicher gefunden, über den Kontoauszüge, Lohnabrechnungen, eine Kopie des Personalausweises und mehr einsehbar waren." Aber auch die Politik ist betroffen: Intime Details von Spitzenpolitikern nachvollziehbar.

Hier beschreibt ein Reporter, wie es ihm ergangen ist, nachdem eine Kollegin ihn auf seinen Datensatz aufmerksam gemacht hat: Plötzlich nackt im Netz. Den Namen hat die Kollegin übrigens aus den pseudonymen Daten leicht gefunden, denn Twitter speichert den Benutzernamen im Link, d.h. ein einziger Zugriff zu Twitter und die Anonymität ist weg. Das gleiche gilt für Xing. Die anderen Dienste verstecken den Klartextnamen etwas besser, aber auch das ist für einen cleveren Menschen kein Problem.

Der Falter berichtet von einem Richter, der im Netz zuerst nach einer Robe gesucht hat und dann nach Sadomaso-Pornos. Oder ein Polizist, der einen vertraulichen Akt bei Google Translate übersetzen lässt. Auch die Politikerin die nach speziellen Medikamenten sucht ist evtl. erpressbar. Hier die Details von der ARD.

Bei dieser Geschichte kommt speziell die Story zu den Fehlern von AOL in Erinnerung: URLs, Links und Suchanfragen sind NIE anonym, dafür steht zu viel Klartext in den Links selbst drin.

Ganz nebenbei findet sich in einem Artikel der NY Times zum (2015) neuen Amazon Machine Learning Service (eine Konkurrenz zu ähnlichen Angeboten von Google und Microsoft) folgender Satz:

Using conventional means, the company said, the team gained 92 percent accuracy in 45 days. Using the new Amazon Machine Learning product, one engineer reached the same accuracy in 20 minutes.

Lead Generation

(Aktualisierung Dez. 2012)
Die De-Anonymisierung ist mittlerweile zu einem echten Markt geworden, dort tummeln sich Firmen wie VisiStat, Relead und FullContact. Der Service, den diese Firmen anbieten, ist folgender: Surfer besuchen die Website eines Unternehmens und schauen sich dort Produkte an. Wenn dieses Unternehmen Kunde eines dieser Lead Generators ist, so nutzen diese dann ihre großen Datenarchive und ordnen diesen anonymen Besuchern Namen und vor allem Kontaktdaten zu. Dies gelingt durch die hier bereits beschriebenen Techniken, z.B. Korrelation mit Informationen auf Social Networks u.ä. Programme wie Privacy_Badger zeigen den Besuchern, ob eine dieser Firmen an ihrer Anonymität knuspert.

An anderer Stelle berichte ich über Dienste, die für jede Handynummer den weltweiten Aufenthaltsort zurückmelden. Eines der Unternehmen prahlt mit 10 000 Kunden in 180 Ländern, die diesen Dienst nutzen.

Spezialthema Ortsdaten / Bewegungsdaten / Location

In Zukunft werden noch viel mehr Datenpunkte über uns zur Verfügung stehen. Ein Grund ist, dass der Trend überall zu drahtlosen Verfahren geht, z.B. beim Bezahlen mittels NFC, bei der Benutzung von öffentlichen Verkehrsmitteln, beim Zutritt zu Gebäuden oder Events, etc. Selbst wenn so ein drahtloses Gerät keine Daten aussendet so identifiziert es sich zumindest mit einer Geräte-ID (in Verbindung mit dem Ort, an dem die ID versendet wurde) und mehr braucht es nicht zum Tracken von Personen. Und dafür brauche ich die Karten (o.ä.) nicht mal zu nutzen, ich muss sie nur mit mir rumtragen. Viele Beispiele zur Problematik von Ortsdaten an anderer Stelle.

Systematisch gesammelte Ortsdaten (wie sie im Rahmen der Vorratsdatenspeicherung über alle die Bürger gesammelt werden, die mit einem Handy durch die Welt laufen) können niemals anonym sein, das zeigt ein kurzes Denkexperiment:

Mehr zu De-Anomymisierung auch in meinem Artikel zu Data Mining.

An anderer Stelle beschreibe ich, wie schwer wirkliche Anonymität im Internet ist.

Nehmen wir die Handy-Ortsdaten (die ja bereits aufgezeichnet und gesammelt werden) oder auch drahtlose Netzkarten für Busse oder Bahnen, bzw. die automatische Auswertung von Nummernschildern bei den Autofahrern (sofern sie nicht bereits ein Fahrzeug besitzen, das seine eigene GSM-(Handy)-Anbindung hat). Die Auswertung der Daten über einige Wochen wird für fast alle Bürger ergeben, dass sie einen sehr großen Teil ihrer Zeit an genau 2 Orten verbringen, die Nächte zu Hause und die Tage an der Arbeitsstätte. Eine überlagerung dieser Ortsdaten mit Daten aus anderen Quellen (wie dem Einwohnerregister) ergibt sehr schnell eindeutige Zuordnungen: Wie viele Menschen im gleichen Haus arbeiten an der gleichen Arbeitsstätte?

Zur mangelnden Anonymität jeglicher Bewegungsdaten hier ein BBC-Bericht aus 2013: Mobile location data 'present anonymity risk'. Hier die Studie dazu: Unique in the Crowd: The privacy bounds of human mobility: "We study fifteen months of human mobility data for one and a half million individuals and find that human mobility traces are highly unique. In fact, in a dataset where the location of an individual is specified hourly, and with a spatial resolution equal to that given by the carrier's antennas, four spatio-temporal points are enough to uniquely identify 95% of the individuals."

Jan. 2015: De-Anonymisierung von Taxi-Fahrten
In der Presse gibt es nun Berichte über Studien, die der Fahrtdienst Uber bereits in 2012 gemacht hat: Uber analysiert One-Night-Stands seiner Nutzer. Das Beispiel zeigt, was in Ortsdaten so alles drin steckt. Letztendlich weiß aber eine App die kontinuierlich den Standort des Nutzes erfasst noch viel mehr über die jeweiligen Smartphone-Besitzer und deren kleine Geheimnisse.

April 2015: Geotagging durch "Total Variation Minimization"
Hier geht es um die De-Anonymisierung von Postings auf Twitter oder Facebook. Der Trick basiert auf der Erkenntnis, dass die Mehrzahl der Friends oder Follower in einem sozialen Netz aus der näheren Umgebung stammen. Und wenn von einem Menschen der Standort bekannt ist, so können die Aufenthaltsorte der anderen bestimmt werden, indem das Programm den Ort sucht, bei dem die Summe der (gewichteten) Abstände zwischen allen Kontakten ein Minimum ist - einfach, aber es klappt. Hier die Studie Geotagging One Hundred Million Twitter Accounts with Total Variation Minimization.

Und die Zukunft? Viel mehr Daten und Gesichtserkennung flächendeckend

Ein riesiger Schritt zum gläsernen Menschen steht uns in Kürze bevor: Gesichtserkennung oder Face Recognition, in Verbindung mit Überwachungskameras, Datenbrillen oder entsprechenden Smartphone-Apps.

In diesem Artikel ging es um die Techniken zur Informationsgewinnung über möglichst viele Menschen. Verwandte Themen werden an anderen Stellen behandelt: Spuren im Internet, Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre und Verlust an Privatsphäre. Ein weiteres verwandtes Thema ist Data Mining. Auch: Wie wir manipuliert werden.

Ab 2008 gab es Face recognition in Picasa, 2009 in face.com's friend-finder app, ab 2011 implementierte Facebook Face recognition. Sicherheitsbehörden haben derzeit bereits Zugriff auf Geräte die Personen auf einige Entfernung (wieder-)erkennen können. Facebook hat eine riesige Sammlung von Fotos, die sich für Gesichtserkennung eignen (überraschend viele Facebook-Nutzer haben aber Fotos, die sich NICHT eignen, z.B. weil sie nur Teile des Gesichts zeigen oder Sonnenblumen und ähnliches).

Trotzdem werden wir alle irgendwann Apps (im Smartphone oder gleich in einer entsprechenden Datenbrille) bekommen mit deren Hilfe ich durch die Straßen gehen kann und über den Köpfen der Passanten werden die Details angezeigt, die in öffentlichen Datenbanken (wie z.B. Facebook) über sie zu finden sind. Behörden werden auch Zugriff zu Informationen haben, die nicht-öffentlich sind.

Mehr zu Gesichtserkennung in einem anderen Beitrag.

graphics above illustrates the explosive effect on adoption among 2 million Facebook users

Quelle: HBR, Vision Statement: Forget Viral Marketing -Make the Product Itself Viral:
The graphics above illustrates the explosive effect on adoption among 2 million Facebook users when viral features, such as user-generated personalized invitations, were added to a software app for sharing and discussing film-industry information.
Der HBR-Artikel bietet die große Version der Graphik

Virales Marketing als Gral der Werbe-Industrie

Eines der großen Ziele des modernen Marketing ist "viral marketing". Dabei geht es darum, dass das Produkt (oder der Service) sich wie ein Virus selbst verbreitet, und das möglichst unaufhaltsam. Ein Beispiel wäre z.B. wenn eine Produkt sei begeistert, dass jeder Kunde sofort allen seinen Freunden empfielt, dieses Produkt auch zu kaufen. Bei einem Produkt wie Skype, oder den Messaging Apps die langsam das alte SMS ablösen, geht es gar nicht anders. Sie können nur genutzt werden, wenn mein soziales Umfeld sie auch nutzt. Ob es sich um ein netz-basiertes Produkt handelt oder nicht, die Verbreitung geschieht auf jeden Fall entlang der Netze des Social Graphs, daher das große Interesse.

2 Forscher haben in einem Experiment untersucht, wie sich eine App am effektivsten verbreiten lässt, wer sind die Beeinflusser und wer sind die Beeinflussten. Die Ergebnisse sind am besten zusammengefasst in Who Wields the Most Influence on Facebook? Der Einfluss ist abhängig vom

Alter (ältere sind einflussreicher)
Beziehungsstatus (verheiratet und single am einflussreichsten und Verheiratete sind am wenigsten empfänglich)
Geschlecht (Frauen sind weniger empfänglich für Empfehlungen als Männer, aber Männer sind im Durchschnitt einflussreicher und empfänglich für weibliche Empfehlungen)

Weitere Ergebnisse: Entweder jemand beeinflusst, oder er lässt sich beeinflussen, beides gemeinsam ist eher selten. Und die einflussreichsten sind untereinander vernetzt:

Some people are significantly more influential than others and they tend to be clustered in networks with other highly influential people, giving them the potential to be 'super-spreaders' of influence; less susceptible or more stubborn people also tend to cluster together

Die Futurezone berichtete auch über diese Forschungen (und bringen einige zusätzliche Graphiken, die zeigen, wie die Beziehungscluster analysiert und dargestellt werden können). Der Artikel verweist dabei auch auf Geschichtliches:

Die beiden Forscher popularisierten zwar den Begriff, doch der Grundgedanke ist alles andere als neu und geht auf den Altösterreicher Jacob Moreno zurück. Er stellte Netzwerke in den 1930er-Jahren grafisch in so genannten Soziogrammen dar. Der geborene Wiener und 1933 in die USA ausgewanderte Soziologe Paul Felix Lazarsfeld schrieb mit "The People's Choice" (1944) eine der frühen, bahnbrechenden Studien über den Einfluss des sozialen Umfelds auf das Wählerverhalten. Mittlerweile interessieren sich Forscher verschiedener Disziplinen dafür, wie Netzwerke funktionieren: Physiker, Soziologen, Biologen, Psychologen, Mediziner, Ökonomen und Computerexperten.

2008 gab es Berichte von einer Konferenz in den USA, in der Ted McConnell, Manager of interactive marketing and innovation at Procter & Gamble auftrat.

"Facebook's ability to aim at particular demographic groups is impressive", Mr. McConnell told the club. As an experiment, he and a colleague set up an ad that would target all Facebook members who were 22- to 27-year old women, who worked for P.& G., were left-leaning and living in Cincinnati, and who liked sex and Cocoa Puffs. Facebook provided one person who perfectly fit the profile. Speaking not as an advertiser but as a prospective recipient of such highly personalized messaging, Mr. McConnell said, "I'm not so sure I want to be targeted like that."

Mir zeigt dies, wie perfekt die Profilierung auf Grund der Inhalte in den Profilen bereits heute möglich ist. Jede Regierung die Angst vor ihren Bürgern hat (welche tut das nicht? - Hier gibt es mehr Beispiele zu den heutigen Überwachungsmethoden und Überwachungsgelüsten) wird sehr an solchen Profilen interessiert sein.

Fragen und Antworten zu Überwachung

Anlass dieses Posts ist eine Anfrage eines Studenten aus Köln, der auf meine Website aufmerksam geworden war, aber Fragen zu meiner Einschätzung hatte. Ich habe die Antwort hier publiziert, weil ich denke, dass dies auch andere interessieren könnte. (Q: ist jeweils die Frage, mit P.S.>>> beginnt dann meine Antwort

Q: Ich würde sie gerne fragen, wie hoch sie die Wahrscheinlichkeit einschätzen, dass wir Gefahr laufen einer totalen Überwachung zu unterliegen. Bei den Beispielen die sie auch in ihrer Website aufführen, könnte man glauben, dass es zwangläufig darauf hinausläuft.

P.S.>>> Ob wir einer "totalen Überwachung" unterliegen ist eine Frage der Definition. Der Trend zu Big Data und das "unglückliche" Geschäftsmodell "kostenlose Dienste gegen persönliche Daten" führt dazu, dass jeder Dienstleister alles über uns sammelt was er nur bekommen kann. Die Beispiele finden sich in meinem Beitrag zu den Spuren im Internet. Wenn ein Internet-Nutzer alle seine Dienste (Email, Websuche, Surfen mit Malware-Schutz, messaging dienste, Aufenthalsorte über den ganzen Tag verteilt, Fitnesstracker-Daten, Urlaubsfoto-Archiv, etc etc) von einem einzigen Dienstleister bezieht, z.B. Apple oder Google, so entsteht bei diesem Anbieter ein ziemlich komplettes virtuelles Bild dieser Person. Der Begriff "totale Überwachung" trifft da m.E. bereits heute zu. Aber natürlich bin ich nicht gezwungen, so transparent zu sein. Man muss seine Fotos nicht in der Überwachung unterwerfen, aber derzeit zwingt mich (noch) niemand dazu.

Die Überwachung ist aber evtl. nicht mal das größte Problem, sondern die Möglichkeiten der Manipulation. Z.B. hier: Wird Facebook bald Wahlen entscheiden?? Aber es geht nicht nur um große Sachen wie die Beeinflussung von Wahlen, die nachweislich möglich ist, sondern um die vielen kleinen Manipulationen wenn z.B. der Assisstent im Smartphone bestimmte Lokale vorschlägt, bestimmte Güter zum Kauf vorschlägt, etc. Mehr zum Thema Manipulation ausführlicher an anderer Stelle.

Q: Außerdem würde ich gerne ihre Meinung zu der Realisierbarkeit von noch weitergehenden Überwachungen hören. Im Internet gibt es (unglaubwürdige) Quellen, die behaupten, dass es sogar schon Aufzeichnungen über die DNA eines Menschen oder mit GPS ausgestattetes Hartgeld geben soll. Diese Methoden kommen einem vor als wären sie aus Science-Fiction-Filmen.

P.S.>>> Das Beispiel mit dem Hartgeld klingt mir doch sehr stark nach Verschwörungstheorien. Hartgeld mit GPS wird aus vielen Gründen nicht funktionieren: die Batterie wäre nach einigen Tagen leer (die GPS Berechnungen sind sehr rechenintensiv, die Münze wäre ein Faraday-Käfig und würde keinen Empfang erlauben und kein Weitersenden der Daten erlauben, etc.). Aber warum so ein Aufwand, wenn das Ziel der Überwachung des Zahlungsverhaltens so viel einfacher zu bekommen ist, es reicht, das Bargeld abzuschaffen. Siehe dazu mein Artikel zur Abschaffung des Bargelds.

Das Sammeln von DNA ist im Einzelfall recht einfach, es reicht ein benutztes Taschentuch oder Essbesteck oder Glas. Aber das erlaubt keine flächendeckende Erfassung. Dafür braucht es Gesetze und die werden hier und dort erlassen, z.B. Kuwait, wo bald auch alleTouristen ihre DNA abgeben müssen. Aktualisierung 2016: Nach Protesten hat die Regierung das Gesetz wieder etwas entschärft: only suspected criminals will need to give their DNA. Aber auch viele andere Länder haben ähnliche Begierden.

Ganz wichtig: Beim Thema DNA und Privatsphäre muss man zwischen verschiedenen Anwendungen unterscheiden. Die DNA Datenbanken der Polizeibehörden sind nicht geeignet, um etwas über den Gesundheitszustand der Personen oder ihre ethnischen Ursprünge auszusagen. Dafür müssen andere Genabschnitte analysiert werden und das kostet, speziell für Massenanalysen, immer noch deutlich Geld. Das wird aber in 10-20 Jahren bestimmt anders sein. Zu DNA-Themen gibt es mehr Details in meinem Artikel zu DNA und Privatsphäre.

Q: Des weiteren interessiert es einen natürlich wer genau dahinter steckt. Spioniert Marc Zuckerberg meinen Facebook-Account aus, damit Amazon weiß, was ich mir zum Geburtstag wünsche? Oder gibt es über mich persönlich mehr zu lernen, was von Bedeutung ist? (Dies ist bezogen auf ein einzelnes Individuum, dessen Alltag eigentlich doch nicht mehr hergeben sollte, das von Belang sein könnte)

P.S.>>> Nein, Marc Zuckerberg wird die Daten, die auf Facebook anfallen, nicht mit Amazon teilen, und auch umgekehrt nicht. Jeder dieser großen Konzerne betrachtet diese Daten als seine "Kronjuwelen" und schützt diese sehr gut (Aktualisierung 2018: Facebook ist offenbar doch bereit, die Rohdaten zu teilen, siehe Cambridge Analytica). Die Daten werden zwar kommerziell genutzt, aber nicht verkauft. Die Dienstleister schalten die gezielte Werbung ohne dass der Werbetreibende erfährt, wer genau seine Werbung gesehen hat. Mehr dazu in einem Artikel zum Verkauf oder Nicht-Verkauf der Daten.

Wir müssen zwischen verschiedenen Interessenten an ihren Daten unterscheiden. Im vorigen Abschnitt beschreibe ich die Social Networks und Dienstleister, die ihre Daten und die daraus berechneten Persönlichkeits-Profile für Werbezwecke nutzen.

Aber dies sind nicht die einzigen Interessenten. Ganz wichtig sind auch Strafverfolgungsbehörden die glauben, über Persönlichkeitsprofile zukünftige Verbrecher und Terrroristen erkennen zu können. Dies ist wissenschaftlicher Unfug, wird aber trotzdem getan weil es ein gutes Geschäft ist, es diskriminiert Bevölkerungsgruppen und wird unter dem Stichwort "Precrime" an anderer Stelle behandelt. Hier zur Diskriminierung: US-Justiz: Algorithmen benachteiligen systematisch Schwarze.

Und diese Sicherheitsbehörden, z. B. die NSA in den USA, haben noch deutlich mehr Kapazitäten und Möglichkeiten als die Dienstleister. Siehe dazu bei Überwachung. Letztendlich führt dies zu einer Gesellschaft bei der die Bürger sich gut überlegen, welche Suchbegriffe sie eingeben oder welche Bücher oder Filme sie sich ausleihen. Eine Untersuchung dazu: Studie zu Chilling Effects: Wikipedia-Artikel zu Terrorismus werden weniger gelesen.

Aber bei den Firmen in Silicon Valley kann ich sehr wohl eine kleine "Verschwörung" ausmachen. Mehr dazu schreibe ich unter Robokratie - Google, Facebook, das Silicon-Valley und der Mensch als Auslaufmodell. Es geht darum, dass die legendären Firmengründer die das große Geld gemacht haben, alle eine gemeinsame Ideologie haben, nämlich dass alle Probleme der Menschheit gelöst werden könnten, wenn wir nur genügend Technologie einsetzen und die Firmen in Silicon Valley nur machen lassen. Dies ist eine Entdemokratisierung, denn einerseits zahlen diese Firmen nur wenig Steuern, aber dann verteilen die Firmengründer und ihre besser bezahlten Manager das eingesparte Geld für ihre Lieblingsprojekte. D.h. nicht die gewählten Vertreter des Staats entscheiden, in welche Richtung geforscht und geholfen sind, sondern die Oligarchen im Silicon Valley. Nicht von ungefähr ist das Verhältnis zur Regierung in Washington oft recht gespannt (mal abgesehen von den riesigen Summen, die diese Firmen für Lobbyarbeit ausgeben).

Q: Meine letzte Frage: Was genau glauben sie hat das alles ins Rollen gebracht? An welchem Punkt begann man sich dafür zu interessieren, alles Mögliche über alle anderen in Erfahrung zu bringen.

P.S.>>> Ein ganz wichtiger Faktor ist das Internet-Geschäftsmodell "kostenlose Dienste gegen persönliche Daten". Das Internet hätte sich nicht so entwickeln müssen, aber ca. 2002 ist mit den kostenlosen Suchmaschine dieses Modell als das dominierende entstanden. Davor gab es hauptsächlich Bezahlmodelle: Man war Mitglied bei AOL oder anderen Portalen und für die Mitgliedsgebühr gab es einen Email-Account, eine Suchmaschine und andere Funktionalitäten. Dann kam Google und führte das Modell "Dienstleistungen gegen Daten" ein. Diese Entscheidung hat das Internet grundlegend verändert und zur Überwachungsmaschine gemacht. An anderer Stelle mehr dazu, ob ein Internet ohne Überwachung möglich wäre.