Home      Themenübersicht / Sitemap      Notizen      Webmaster      

 

 

"Big Data" - Die Problematik von Data Mining und Profiling

Stand: Okt. 2016

In diesem Artikel geht es um die Data Mining, d.h. die Auswertung extrem großer Datenmengen.
Sehr ähnlich, aber konkreter auf Menschen bezogen, sind die Inhalte bei Techniken zur Informationssammlung über möglichst viele Menschen - Stichwort Gläserner Mensch.
Ein anderer Artikel beschreibt detailliert die Spuren die wir im Internet hinterlassen.
Weitere verwandte Themen werden an anderen Stellen behandelt: Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre und Verlust an Privatsphäre. Neu: Wie wir manipuliert werden.

Eine treffende Definition von Data Mining durch den Nobelpreisträger Sidney Brenner: "My data is mine; and your data is also mine."

An anderer Stelle mehr zu den Überwachungsaktivitäten und dem Einsatz der Big Data-Methoden durch die Geheimdienste und weiter unten, warum Big Data zum Finden von Terroristen nicht geeignet ist.

Data Mining (heute Big Data genannt), das ist die systematische Auswertung durch Korrelation von Datenelementen in mehreren, zumeist sehr großen Datenbanken

Data Mining ist aus dem modernen Markting nicht mehr wegzudenken, denn durch solche Analysen sind Firmen in der Lage, extrem viel über ihre Kunden zu lernen, oft Dinge, die die Kunden selbst noch nicht realisiert haben, wie z.B. eine wachsende Vorliebe für irgend etwas. Und genauso wird Data Mining immer stärker zu Fahndungszwecken eingesetzt (z.B. als Schleppnetzfahndung) und zur angeblichen Bekämpfung des Terrors, bzw. zum Aufstöbern von ungequemen Bürgern wie Greenpeace Aktivisten.

Es geht dabei geht um die statistische Auswertung von Verhaltensdaten einer sehr großen Zahl von Menschen, am besten der gesamten Bevölkerung. Die Idee dabei ist, dass durch reine Korrelationen, ohne zu verstehen warum etwas passiert, Erkenntnisse über die Zukunft und sogar (wahrscheinliches) zukünftiges Verhalten einzelner Personen gesammelt werden können. Eines der Probleme die für die Gesellschaft dabei entstehen ist die Unmöglichkeit, das Verhalten der Algorithmen wirklich im Details zu verstehen und damit zu verhindern, dass die Algorithemen systematische Diskriminierungen und andere unerwünschte Eigenschaften zeigen.

Für diese Analyse und Vorhersage des erwarteten Verhaltens können z.B. folgende Daten verwendet werden:

  • Zugriffsprotokolle zum Internet, Protokolle der besuchten Website, der Suchbegriffe, etc.
  • Die Netze, die in Social Networking Websites aktiv aufgebaut werden, oder die impliziten Netze, die sich aus E-mail-Kontaktlisten ergeben
  • Auflistungen aller Telefonate von einem Anschluss aus, d.h. wer kennt wen
  • aber auch bizarrere Daten wie die Wortlänge auf Twitter, Facebook, Whatsapp, etc. - Dies wird für Big Five Analysen verarbeitet
  • Auswertung der Standorte von eingeschalteten Handys, gesammelt über den ganzen Tag und die ganze Nacht - sehr aufschlussreiche Daten
  • Abrechnung von Straßengebühren bei kostenpflichtigen Straßen
  • Automatische Erkennung von Autokennzeichen
  • Konsumenteninformationen aus Kundenkarten im Geschäft, bargeldlosen Zahlungen, Käufen und Verkäufen übers Internet
  • Informationen, die aktiv und freiwillig ins Netz gestellt wurden: Kommentare zu Zeitungen, in Blogs, auf Seiten mit Film-Kritiken, etc.
  • Rechnungsinformationen aller Art, z.B. Telefon, Handy, Stromrechnung, ...
  • Reisedaten aus Buchungen von Flügen, aber auch Internetbestellungen von Zugkarten
  • ab ca 2010 werden vor allem Ortsinformationen zusätzlich ausgewertet, entweder über die IP-Adresse und deren Zuordnung zu einem Ort (Geolocation-Dienste) oder noch besser über den Standort des Mobilgeräts
Link-Konventionen:
Fette Links öffnen ein fremde Seite in einem neuen Fenster
Blau hinterlegte Links bleiben auf der sicherheitskultur.at

Es ist wichtig zu wissen, dass es für diese Auswertung kaum ein Problem darstellt, wenn viele oder fast alle der Daten dieser Netze keine klaren Hinweise auf die Identität der Personen enthalten (d.h. anonym oder pseudonym sind). Mathematische Verfahren zur Analyse der Verbindungsstrukturen erlauben es weitgehend, verschiedene Netze und Datensammlungen übereinander zu legen. Und wenn eines dieser Netze den Namen oder die Telefonnummer enthält, so sind damit alle Netze und Datensammlungen de-anonymisiert. Weiter unten gebe ich Beispiele und Quellenhinweise zu De-Anonymisierungen.

Ziel solcher Aktivitäten ist in vielen Fällen die Erstellung von Nutzer-Profilen, z.B. zu Werbezwecken. Bei der Werbung ist der Name gar nicht so interessant, solange die Person der dieses Profil zugeordnet ist, bei Bedarf immer wieder automatisiert erkannt wird, z.B. wenn sie auf einer Website erscheint oder wenn sie einen Laden betritt.

Herbst 2016: Ein neues Schlagwort: Sentiment Analysis. Es beschreibt Systeme wie die Software Social Pulse mit deren Hilfe Arbeitgeber aus der schriftlichen Kommunikation der Mitarbeiter auf die Gefühlslage der Mitarbeiter, generell oder auf das Unternehmen bezogen, herausrechnen. Das klingt in den Artikeln zu Beginn immer "ganz OK", natürlich ist es gut, wenn die Unternehmensführung weiß, was bei den Mitarbeitern auf Missbehagen stößt. Was in den Artikeln nicht sehr deutlich rauskommt, aber natürlich klar ist: Wenn die Software bei ihren statistischen Berechnungen über Wortwahl und Formulierungen auf Missbehagen stößt, so entsteht auch immer eine Liste der Mitarbeiter, deren Äußerungen diese Erkenntnis ausgelöst haben. Solche Transparenz der Mitarbeiter lässt sich noch sehr gut mit Wearables für die Mitarbeiter ergänzen. Dann hat der Mitarbeiter wirklich keine Geheimnisse mehr. Natürlich behaupten die Unternehmen, dass diese Sachen anonym sind, aber wie viel von angeblicher Anonymität zu halten ist, das zeigt der Rest dieses Artikels hier.

Aber auch die Staaten, Strafverfolgungsbehörden und Geheimdienste, sind immer stärker an solchen Analysen interessiert. Die Idee, durch eine Analyse des Surf-Verhaltens, der Internet-Suchanfragen, der Käufe bei Amazon und ähnliche Daten etwas über die (wahrscheinliche) Zukunft einer Person zu lernen, das ist eine Versuchung, der viele nicht widerstehen können. Genauso wie Amazon durch solche Analysen herausfinden "Kunden wie Sie haben auch folgende andere Bücher gekauft", so werten andere aus "Menschen mit ihren Interessen werden mit 45% Wahrscheinlichkeit später mal zu einem unbequemen Tierschützer" - so was nennt man Pre-Crime, popularisiert durch den Film Minority Report. Oder "Personen wie Sie werden mit 25% Wahrschenlichkeit zu einem Whistle-Blower wie Snowden". Bzw. für die Banken: "Menschen mit Ihren Freunden, Ihrem Wohnort, Ihren Interessen zahlen mit 30% Wahrscheinlichkeit einen Kredit nicht zurück, daher geben wir Ihnen erst gar keinen" - oder es gibt auf Grund einer solchen Analyse keinen Handyvertrag.

Data Mining Auswertungen sind heute sogar für Privatleute verfügbar und nicht nur für große Firmen. Sie gibt es z.B. eine App für Facebook, iPhone, etc. mit dem Namen DateCheck entwickelt von Intelius. Die Applikation fragt Daten zu möglichen Straftaten, zur Wohnsituation sowie Informationen aus sozialen Netzwerken ab. Damit erfährt der Nutzer möglichst viele intime Details über eine neue Bekanntschaft.

Ganz gruselig wird es, wenn die CIA solche Zukunftsprognosen erstellt und dann darüber nachdenkt, ob die Wahrscheinlichkeit hoch genug ist, eine Drohne vorbeizuschicken.

 

Oktober 2011:
Im Zusammenhang mit den Klagen von Max Schrems gegen Facebook in Irland erscheint dieser Artikel im Guardian, in dem sehr detailliert aufgezählt wird, was Facebook so alles aufhebt (als Beispiel für andere manische Datensammler), z.B. jede Einladung die jemand gesendet oder empfangen hat, egal ob angenommen oder nicht, und auch dann, wenn der Benutzer Daten ausdrücklich gelöscht hat.

Eine ganz andere Umsetzung des Themas Datenhandel und Data Mining - mit viel Ironie und als Spiel - versucht
Data Dealer.

Viktor Mayer-Schönberger hat ein Buch zum Thema geschrieben: Big Data - Die Revolution, die unser Leben verändern wird. Im Buch geht er auch auf die negativen Aspekte ein. Sein Hauptpunkt ist, dass man zwar recht gut irgendwelche Probleme durch diese gewaltigen Korrelationen analysieren kann und dann auf Grund von Zusammenhängen praktisch verwertbare Erkenntnisse ziehen kann (z.B. welches Buch ein Kunde mit einer hohen Wahrscheinlichkeit auch noch interessiert), aber dass dies leicht mit wirklichen Erkenntnissen im Sinne von Kausalität verwechselt wird - die große Falle von Statistiken. Nur weil etwas gemeinsam auftritt, d.h. korreliert ist, so heißt das noch nicht, dass das eine das andere auslöst, es könnte auch einen oder mehrere weitere Faktoren geben, die beide Phänomene auslösen. So ist Übergewicht mit vielen anderen Faktoren korreliert (u.a. Länge des Schulbesuchs), aber das beweist nicht, dass es eine direkte Kausalität gibt.

 

 

Juni 2012:
Welche Begehrlichkeiten da entstehen zeigt die Schufa-Skandal in Deutschland: Die größte deutsche Wirtschafts-Auskunftei Schufa überlegt, künftig verstärkt Informationen aus dem Internet für die Berechnung der Kreditwürdigkeit heranzuziehen. In einem Forschungsprojekt mit der Universität Potsdam wurde bereits ausgelotet, wie Facebook- und Twitter-Daten ausgewertet werden können.

Laut einem Bericht des NDR sollen unter anderem die Kontakte von Facebook-Mitgliedern herangezogen werden, um Beziehungen zwischen Personen zu untersuchen und so Zusammenhänge mit der Kreditwürdigkeit der Verbraucher zu finden. Dazu sollen Social Bots eingesetzt werden, die ich auf dieser Weise an anderer Stelle erwähnt habe. Zudem sei die Analyse von Textdaten denkbar, um „ein aktuelles Meinungsbild zu einer Person zu ermitteln.“ Im Ziel sind aber auch berufliche Netzwerke wie Xing oder LinkedIn, der Kurznachrichtendienst Twitter, Personensuchmaschinen wie Yasni, Geodatendienste wie Google Street View und selbst Mitarbeiterverzeichnisse von Unternehmen oder den Autorenkatalog der Deutschen Nationalbibliothek. Digitale Marktplätze wie Immoscout sind nach einem "Welt"-Bericht ebenfalls im Visier.

Diskutiert wurde gar, wie die Schufa über eigene Facebook-Profile oder Zugänge zum Kurznachrichtendienst Twitter verdeckt an „Adressen und insbesondere Adressänderungen“ anderer Nutzer gelangen kann. Angedacht sei auch die „automatisierte Identifikation von Personen öffentlichen Interesses, Verbraucherschützern und Journalisten“. Die Unterlagen auf ndr.de.

Nach einem Aufschrei von Datenschützern und Politiker wurde das Projekt eingestellt und als "Missverständnis" bezeichnet.

Rein wirtschaftlich ist natürlich die Versuchung groß, sich solcher Dienste zu bedienen die automatisierte Risikoprofile erstellen weil sie großflächig (mit welchen Methoden auch immer) das gesamte "Daten Öko-System" der sozialen Netze auswerten. An anderer Stelle berichte ich über den US-Datenaggregator Spokeo, der so etwas sehr systematisch und sehr erfolgreich tut (und zu 800 000$ Strafe verurteilt wurde, weil er darauf hingewiesen hat, wie effektiv sich diese Daten für Kreditbewertungen nutzen lassen).

Die NY Times hat dazu einen recht guten Artikel. Der Autor sagt, dass wir derzeit alle kräftig mithelfen dieses riesige "Daten Öko-System" zu befüllen. Wir tun dies nicht nur durch unsere Postings in den Social Networks, sondern auch durch unsere Online-Einkäufe, durch unsere Anfragen an Suchmaschinen und alle anderen Aktivitäten im Netz, die alle irgendwo Datenspuren hinterlassen. Dieses "Daten Öko-System" nicht zu nutzen wird auf die Dauer ein Wettbewerbsnachteil sein.

Auch in diesem Zusammenhang hier ein anderer NY Times Artikel: The Age of Big Data:

    Big Data has its perils, to be sure. With huge data sets and fine-grained measurement, statisticians and computer scientists note, there is increased risk of “false discoveries.” The trouble with seeking a meaningful needle in massive haystacks of data, says Trevor Hastie, a statistics professor at Stanford, is that “many bits of straw look like needles.”
    Big Data also supplies more raw material for statistical shenanigans and biased fact-finding excursions. It offers a high-tech twist on an old trick: I know the facts, now let’s find ’em. That is, says Rebecca Goldin, a mathematician at George Mason University, “one of the most pernicious uses of data.”

D.h. solche Auswertungen der riesigen Datenströme können sehr gut dafür genutzt werden, genau das zu finden, was man gesucht hat. Dies bezieht sich auch auf Kreditwürdigkeit, aber nicht nur. Da natürlich alle diese Datensammlungen, wenn sie mal geschehen sind, dem Datenschutz unterliegen sperren sich die Auswerter sehr dagegen, dass andere Wissenschaftler ihre Untersuchungen nachprüfen.

 

 

 

Zurück nach oben

Data Mining / "Big Data"

Bruce Schneier stellt in der Zeitschrift Wired dar, warum diese Technik zum Vereiteln von terroristischen Anschlägen schon von der Idee her extrem ungeeignet ist.

Es geht bei dem Data Mining darum, dass definiert wird, an welchem Verhalten man einen Terroristen zu erkennen glaubt, z.B. Bezahlen von Flugtickets mit Bargeld und gleichzeitig Bestellen von Mahlzeiten im Flugzeug für Muslims. Dann erfolgt eine Auswertung aller Daten auf Grund dieser Kriterien. Weil die Kriterien für "terroristisches Verhalten" sehr vage und verschwommen sind, wird jede dieser Auswertungen eine sehr große Zahl von sog. False Positives finden, das sind Ereignisse und Personen, die auch in dieses Schema passen, aber vollkommen harmlos sind. Aber allen diesen Hinweisen muss nachgegangen werden.

Data Retention, Vorratsdatenspeicherung: generell Aufbewahrung von Daten, z.B. um den Auflagen bezüglich Archivierung zu erfüllen.

In der heutigen Diskussion (2005/06) meist die Fristen für die Aufbewahrung der Verkehrs- und Standortdaten die bei den Anbietern von Telephon- und Internet-Diensten anfallen. Europäische Anbieter wehren sich gegen eine zu lange Aufbewahrungsverpflichtung, da dies Kosten für sie verursacht. Datenschützer wehren sich gegen die Aufbewahrung, weil die Weitergabe von Verbindungdaten auch bereits eine Einschränkung der Privatsphäre darstellt.

Ergebnis ist, dass die Polizei überschwemmt wird mit Nachforschungsanforderungen. So berichtete die New York Times, dass die (illegale) automatische Überwachung aller Telefonate in den USA durch Computer, die nach Schlüsselbegriffen in den Gesprächen gehorcht haben, zu vielen Tausenden von Hinweisen pro Monat geführt hat, die ALLE Fehlalarme waren. Der Grund liegt darin, dass terroristische Angriffe extrem selten sind, selbst im Vergleich zu ebenfalls seltenen Ereignissen wie Missbrauch einer Kreditkarte. Die Kosten für einen Falschalarm bei der Verifizierung von Käufen per Kreditkarte sind aber recht gering, die Karte wird nicht akzeptiert und der Käufer muss ein kurzes Telefonat mit der Kreditkartenfirma führen. Im Falle eines Falschalarms bei der Terroristenfahndung muss aber eine manuelle Untersuchung des Hintergrunds der Person durchgeführt werden, eine extrem aufwendiger Prozess, ein Anruf bei der Person wäre in diesem Fall nicht zielführend.

    Hier die Zahlen von Bruce Schneier für den Einsatz eines solchen "intelligenten Profilierungssystem" an der Grenze zum Abwehr von Terroristen: an den US-Grenzen werden 430 Millionen Menschen geprüft. Wenn ein Programm die unglaubliche (und vollkommen unrealistische) Treffsicherheit von 99,9% hätte, so wären immer noch 430 000 falsche Alarme das Ergebnis, Fällen, in denen ein ausführliches Verhör den Verdacht auf Terrorismus erst widerlegen müsste.

    Jan. 2014: Eine Studie besagt, dass die massenhafte Telefonüberwachung ohne Erfolge bleibt.

    Juli 2014: Ein 166 Seiten Dokument "March 2013 Watchlisting Guidance" erläutert, wie jemand auf die amerikanische Terroristen-Watchlist kommen kann. Dafür genügt der Verdacht des Kontakts zu jemandem, bei der ein Verdacht in Richtung Terrorismus besteht. Kontakt bedeutet z.B. dass man in jemandes Adressbuch steht, Verdacht in Richtung Terrror besteht bereits, wenn jemand palästinensische Hilfsorganisationen finanziell unterstützt hat. Auch Facebook oder Twitter Einträge die einer Person zugeordnet werden können zu einem Eintrag auf der Watchlist führen.

Das Problem des Data Mining mit seltenen Ereignissen hat übrigens auch die Medizin, wenn sie Massenscreenings auf Krankheiten durchführt, die extrem selten sind. Selbst eine sehr geringe False Positiv-Rate eines solchen Tests ergibt eine sehr große Zahl von Fehldiagnosen, die zu einer Verunsicherung der getesteten Personen führen und die dann durch einen anderen Test verifziert werden müssen und sich dann als falsch herausstellen.

TIA: (Terrorism Information Awareness) US-Programm zur Sammlung von personenbezogenen Daten und Erstellung von Personenprofilen mittels Data Mining in (auch kommerziellen) Datenbanken, z.B. Axciom, 2003 vom Congress gestoppt. Heute siehe Matrix.

Matrix: (Multistate Anti-Terrorism Information Exchange) US-Überwachungsprojekt das eine große Zahl unterschiedlicher Quellen von personenbezogenen Daten kombiniert.
Mehr zu solchen Fragen unter Privatsphäre und in meinem Sicherheitsglossar (pdf, > 1 MB). Auch sehr interessant dazu das Gespräch mit dem Chef der TSA.

Data Mining ist extrem gut geeignet, um häufige Ereignisse auszuwerten. Die Käufe von bestimmten Büchern bei amazon, das Reiseverhalten von Flugzeugpassagieren, die Inhalte der Anfragen bei Google oder die Inhalte von GoogleMail.

Hier ein guter Artikel der IT-Management Zeitschrift CIO zum Thema Hilft Data Mining im Kampf gegen Terror? (mit vielen weiterführenden Links, z.B. im Artikel "Poindexter Comes in from the Cold" über den Hintergrund und die Geschichte von TIA, dem großen US-Data Mining Programm, das einfach nicht tot zu kriegen ist. Bis hin zu einem Artikel Taming Big Brother, der besagt, dass Data Mining Technologie noch so weit von den Zielen der Regierung entfernt ist, dass diese Projekte außer den riesigen Kosten (fast) nur "false positives", d.h. unschuldige Verdächtigte, abwerfen werden. Zitat "So far one of the only distinct transactional similarities among the 19 Sept. 11th hijackers is that they all bought a lot of pizza using credit cards.").

Hier eine ausführliche Studie zu Effective Counterterrorism and the Limited Role of Predictive Data Mining, mit einem Link zur Originalstudie. Und was selbst aus anonymiserten Daten alles herauszuholen ist zeigt diese peinliche Geschichte bei AOL.

Was die NSA über die elektronische Kommunikation alles auswertet (zum Artikel)

Hier ein Link zu einem ausführlichen Artikel über die Datensammelwut in den USA durch die NSA.

Und hier in meinen Notizen eine Erklärung (und weitere Unterlagen), wie mit Hilfe von Software aus solchen Datenmengen doch Erkenntnisse gewonnen werden können: Die Nadel im Heuhaufen finden - die Auswertung von Verkehrsdaten.

Ein 2008 Report der "National Science Foundation" findet Data mining doesn't work well. Sie unterscheiden in diesem Report zwischen "subject-based data mining", d.h. eine Person steht im Mittelpunkt und dann werden Verbindungen zu dieser Person gesucht, gegenüber pattern-based data mining, bei der Anomalitäten in den Daten gefunden werden sollen (so wie die Software im vorigen Link dies versucht). Letzteres hat kaum Erfolg zu akzeptablen False Positive Raten zu kommen, d.h. die Zahl der vermeintlichen Terroristen wird immer zu hoch sein, als dass die Sicherheitsbehörden jedem Fall nachgehen könnten.

Quelle: Futurezone.at

 

Big Data - ein neues Schlagwort für Data Mining

In 2011 entsteht ein neues Schlagwort unter dem jetzt Data Mining kommerziell angeboten wird: Big Data. Das zeigt dass Data Mining sehr wohl funktioniert. Im Mai 2011 erklärt die Speichersystem-Firma EMC: Big Data: Kundeninfos als Goldgrube. Der Artikel bringt Beispiele zur Auswertung von Kundenverhalten, aber auch automatisierte Bewerberauswahl über Daten im Internet.

Im Herbst dann ein Artikel in der NYT: Big Data: Sorting Reality From the Hype. In dem Artikel wird erklärt, was das besondere an Big Data-Auswertungen sind. Programme wie das open-source Programm Hadoop (das z.B. erfolgreich beim Auswerten von Verbindungsdaten eines ganzen Landes eingesetzt werden kann) ist in der Lage, in den Datenbergen (notfalls auch von unstrukturierten Daten wie Emails) Muster zu erkennen, ohne dass der Benutzer des Programmes genau sagen muss, wonach er eigentlich sucht.

Die NY Times bringt einen sehr interessanten Artikel zu Big Data: Government Aims to Build a ‘Data Eye in the Sky’. Sie berichten, dass mehrere Forschungseinrichtungen der US-Regierung und Militär derzeit Forschungsaufträge rund um die Auswertung der Datenmenge des Internets vergeben. Ziel ist es, Aussagen über zukünftige Entwicklungen zu machen. Die Forschungsgemeinde ist recht zwiespältig dazu. Hier einige Zitate:

    "The automated data collection system is to focus on patterns of communication, consumption and movement of populations. It will use publicly accessible data, including Web search queries, blog entries, Internet traffic flow, financial market indicators, traffic webcams and changes in Wikipedia entries. . . . In its most recent budget proposal, the defense agency argues that its analysis can expose terrorist cells and other stateless groups . . . . In recent years, however, academic opposition to military financing of research has faded. . . . . Other researchers are far more optimistic. “There is a huge amount of predictive power in this data,” said Albert-Laszlo Barabasi, a physicist at Northeastern University who specializes in network science. “If I have hourly information about your location, with about 93 percent accuracy I can predict where you are going to be an hour or a day later.”

Also, für mich klingen diese Technologien eigentlich alles ziemlich grauslich nach Überwachungsstaat. Natürlich werden die großen Trendanalysen anonym gemacht. Wenn dann aber mal erkannt wurde, dass es irgendwo im Staat ein Konfliktpotential gibt, so kann die gleiche Software sehr wohl auch die Vernetzungen der sog. "Drahtzieher" analysieren und sehr wohl mit Namen benennen.

Ein Artikel in der Futurezone fragt nach der Effektivität der Auswertungen: 9/11: Folge den Netzwerken. Zitat:

    Wie aussagekräftig die Daten sind, zeigen mehrere wissenschaftliche Studien. Für hinreichend genaue Ergebnisse müssen etwa nicht alle Beteiligten überwacht werden. Eine Studie an der Katholischen Universität Leuven und der Erasmus Universität Rotterdam ging der Frage nach, wie viele Einzelpersonen überwacht werden müssen, um über deren Kontakte zu Dritten eine große Gruppe mittelbar erfassen zu können. Die Wissenschaftler untersuchten hierfür die E-Mails von rund 2.300 Personen, die über einen Zeitraum von drei Jahren erstellt worden waren. Dabei stellten sie fest, dass die Netzwerkbeziehungen vollständig aufgedeckt werden können, wenn nur acht Prozent der Gruppe überwacht werden. Über wenige Zielpersonen kann damit ein großer Personenkreis effizient überwacht werden.
    Eine Studie von Wissenschaftlern am Massachusetts Institute of Technology und der Harvard University prüfte für eine Gruppe von 94 Personen über Handyverbindungsdaten, Bluetooth-Verkehrsdaten sowie Interviewdaten, wie gut Freundschaften und soziale Netzwerke aus diesen Daten rekonstruiert werden können. Dabei stellte sie fest, dass soziale Netzwerke mit Hilfe von Verkehrsdaten sogar besser identifiziert werden können als über Befragungen: 95 Prozent der Freundschaftsbeziehungen ließen sich über die Daten identifizieren. Ebenso treffsicher waren die Wissenschaftler aber auch bei der Frage, wie es um einzelne Personen etwa hinsichtlich ihrer Arbeitszufriedenheit ging. Die für die Studie mit technischen Hilfsmitteln erhobenen Daten entsprachen im Übrigen einem Aufwand von 330.000 Stunden bzw. 38 Jahren klassischer Feldbeobachtung.

 

Nov. 2011:
Der Text Six Provocations for Big Data von danah boyd und Kate Crawford setzt sich kritisch mit dem Hype rund um Data Mining auseinander.

  • Er warnt z.B. dass Wissenschaft und Erkenntnisgewinn dazu verkommen kann, dass nur noch gezählt und korreliert wird, denn Fragen nach einem Warum können diese Datenhalden nicht beantworten.
  • Der zweite Punkt ist, dass eine Schein-Objektivität entsteht ohne dass die Datenmenge sinnvoll interpretiert wird.
  • Im dritten Punkt geht es um die implizite Annahme, dass mehr Daten bessere Ergebnisse erzielen als Forschungen auf Grundlage einer kleineren Gesamtmenge. Dies ist falsch, weil sehr oft die große Datenmenge dadurch entsteht, dass z.B. Twitter- oder Google-Verhaltensdaten analysiert werden (weil leicht zugänglich) und dass die automatische Verzerrung (z.B. dadurch dass nur Personen mit Internetzugang erfasst werden oder die sich in Twitter betätigen und nur die Personen analyisert werden, deren Privatsphäre-Einstellungen entsprechend offen waren) ignoriert wird und auf die Gesamtmenge aller Menschen geschlossen wird. Dadurch dass eine große Datenmenge ausgewertet wird gehen Unterschiede auf Grund von Bildung, Herkunft, etc. leicht unter - aus Twitter-Daten kann ich nur grobe Mittelwerte gewinnen.
  • Ein weiteres Problem bei dieser Art von Wissenschaft ist, dass die Forscher leicht auf die Falle hereinfallen, die Friend-Liste als korrekten Spiegel des Beziehungsnetzes einer Person zu sehen.
  • Der fünfte Punkt hinterfragt, ob das Sammeln, die Weitergabe und Nutzung dieser Daten eigentlich immer ethisch ist - nur weil die Daten im Internet zu finden (z.B. wegen fehlerhafter Privatsphäre-Einstellungen) sind bedeutet noch lange nicht, dass sie auch in einem anderen Zusammenhang verwertbar sein sollen. Über die Möglichkeiten der De-Anonymisierung schreibe ich an anderer Stelle.
  • Außerdem wird eine Gefahr darin gesehen dass Forschung in Zukunft evtl nur anerkannt wird, wenn die Ergebnisse mit großen Datenmengen belegt werden.

Einige interessante (und erschreckende) Hintergründe zeigt auch der Artikel von WikiLeaks: Mass interception of entire populations is not only a reality, it is a secret new industry spanning 25 countries. Im Artikel wird auf konkrete Nutzung zur Überwachung der Bürger hingewiesen, vor allem, aber nicht nur, in den bekannten Diktaturen.

Wie solche Techniken von Kaufhäusern ausgenutzt werden können zeigt mein Artikel Die Zukunft ist schon hier: Das gezielte Manipulieren von Gewohnheiten.

Ein NYT Artikel: Software That Listens for Lies zeigt, wie weit diese Technologie heute gehen kann. Der Artikel berichtet über das automatisierte Erkennen von Emotionen das u.a. dafür verwendet werden soll, Lügen zu erkennen. Aber natürlich kann diese Technik für viele andere Zwecke genutzt werden.

März 2012:
Die US-Regierung verkündet eine 250 Mill. Förderung unter dem Titel Big Data is a Big Deal, die Auswertung dieser Daten sollen etwa biomedizinischer und Umweltforschung, dem Bildungswesen sowie der nationalen Sicherheit zugute kommen. Der Artikel verlinkt dann auf 14-Seiten Fact Sheet mit vielen Details was da passieren soll.

 

 

 

Data Mining, Marketing, Anonymisierung und De-Anonymisierung

Da moderne Menschen heute ständig Datenspuren hinterlassen (siehe Datenspuren im Internet) und solche Informationen für die Werbeindustrie reines Gold darstellen, wird ständig daran gearbeitet, wie diese Daten ausgewertet werden können ohne gar zu eklatant gegen Datenschutzgesetze zu verstoßen, bzw. die Kunden vor den Kopf zu stoßen. In Großbritannien und jetzt auch in den USA gibt es seit Mitte 2008 Aktivitäten unter dem Stichwort Phorm. Dabei geht es darum, dass die Firma den gesamten Datenverkehr ins Internet von Privatpersonen auswerten möchte, daraus Profile erstellen und dann gezielte Werbung für diese Personen anbieten. Man nennt dies Behavioral Targeting.

Wie schwierig es ist, anonym zu sein, zeigt 2014 auf spielerische Weise die Website I Know Where Your Cat Live. Der Autor zeigt, wie der Kernbestandteil aus dem sich das moderne Internet zusammen setzt (Katzenfotos) auf den Besitzer zurückverfolgt werden können.

Etwas ernster und deutlich technischer ist ein Bericht der Art.29 (Datenschutz) Arbeitsgruppe der EU in ihrem sehr guten Text über korrekte Anonymisierung. Sie betonen, dass Anonymisierung ungleich Pseudonymisierung ist und dass beides eine Kunst ist, bei der es keine einfachen Rezepte gibt ("Namen" ersetzen durch ....), sondern dass immer der vollen Datensatz und sogar das Umfeld betrachtet werden müssen, aus dem ein Angreifer evtl. die Informationen ziehen kann, die zur De-Anonymisierung führen.

Wie weit diese Technologien mittlerweile entwickelt sind, zeigen einige Beispiele. Die US-Firma Sense Networks wertet die Standortdaten aus, die sie von den Mobilfunkanbietern bekommen. Es geht dabei nicht um die Telefonate, sondern nur die Orte, an denen sich die eingeschalteten Telefone täglich befinden. Diese Daten werden (natürlich) nur anonym weiterverkauft (z.B. zu Marketingzwecken), sie sind jedoch nie wirklich anonymisierbar. Denn Untersuchungen zeigen, dass die Kombination von Aufenthaltsort nach Mitternacht und Aufenthaltsort tagsüber in der überwiegenden Zahl der Fälle eindeutig ist. Wer in ihrem Wohnblock arbeitet am gleichen Arbeitsort wie sie. Diese Daten sind aber durchaus recherchier- und damit auswertbar, z.B. aus Telefonbüchern, Wählerverzeichnissen, u.ä.

April 2011 berichten die Zeitungen, dass Apple im iPhone eine Datei mit allen Aufenthaltsorten des iPhones speichert. ". . . . Apple said it collects the location data anonymously . . . .". In der gleichen Woche wird folgendes berichtet: Google Says It Collects Location Data on Phones. Und wieder: ". . . Google said Friday that it collected location data from Android phones, but that it did so anonymously . . ." - Das ist aber alles nur Augenwischerei, solchen Datensammlungen sind nie wirklich anonym.

Aber auch ohne diese De-Anonymisierung sind die Daten wertvoll. Eine Marketing-Organisation sortiert diese Standardortdaten nach 20 typischen Mustern, z.B. Nachtschwärmer (nach 10 Uhr abends unterwegs), berufstätig (im Berufsverkehr unterwegs), Hausfrau (nicht im Berufsverkehr unterwegs), denen dann gezielte Angebote aufs Handy gesendet werden. Das ganze funktioniert natürlich auch ohne dass das Unternehmen Daten wie Namen und Anschrift bekommt.

Zu anonymen Daten aus Social Networks zeigt sich, dass deren De-Anonymisierung nicht wirklich funktioniert. Hier eine Studie zum Thema De-Anonymisierung. Die Studie zeigt, dass auch gründlich anonymisierte Daten aus Social Networks, wenn sie mit anderen Netzen verglichen werden, de-anonymisiert werden können. Die Wissenschaftler haben die öffentlich verfügbaren anonymisierten Verbindungsdaten des Twitter-Netzes de-anonymisiert, indem sie die Verknüpfungen mit denen in flickr.com verglichen haben. Das hat geklappt obwohl es nur eine geringe Überlappung zwischen den beiden Netzen gibt. Solche de-anonymisierten Daten werden für Forschungszwecke zur Verfügung gestellt, aber auch an Werbetreibende, die die Qualität der Daten eines Netzwerks testen möchten.

Solche Daten sind auch verfügbar, indem automatische Suchprogramme sich durch solche Social Network "hindurchwühlen" (die Liste der Freunde der Freunde der Freunde .... durchgehen). Dabei gewinnen sie, je nach Netz, entweder Daten mit realen Namen oder nur Nick-Names. In diesem Artikel wird an Hand eines Beispiels mit anonymen Patientendaten (für Forschungszwecke zur Verfügung gestellt) sehr gut aufgezeigt, wie eine nachträgliche Namenszuordnung mit Hilfe von überlappenden Datenelementen (De-Anonymisierung) funktioniert (Hier der wissenschaftliche Artikel Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization).

Wie schwer es ist, Anonymität zu erzeugen, das zeigen Untersuchungen, bei denen 87% aller Amerikaner durch die Verknüpfung von Geburtsdatum, Geschlecht und Postleitzahl eindeutig identifiziert waren.

Solche Profile können nicht nur dafür verwendet werden, Werbung gezielt zu platzieren (was man ja erst mal noch nicht als schlimm ansehen muss), sie können auch für Diskriminierung eingesetzt werden. D.h. jemand der durch die Auswertung seines Internet-Nutzungsverhaltens als jemand erkannt wurde, bei dem Geld "vergleichsweise locker sitzt", der bekommt bestimmte Sonderangebote gar nicht erst angezeigt (discriminatory prizing). Amazon hat vor einigen Jahren angeblich in diese Richtung experimentiert und nach Protesten von Nutzern diese Aktivitäten wieder aufgegeben. Eine weitere Gefahr solcher Nutzerprofile ist, dass einer bestimmten Bevölkerungsgruppe bestimmte Informationen vorenthalten werden.

 

Mehr Details zu De-Anonymisierung auch in meinem Artikel zum Gläsernen Menschen

August 2010: Recorded Future
Wired berichtet über eine Firma, in die Google und der CIA gemeinsam investiert haben: Recorded Future. Das Unternehmen hat es sich zum Ziel gesetzt, gegenwärtige sowie zukünftige Beziehungen zwischen Menschen und Organisationen, zwischen ihren Absichten und ihren Handlungen zu analysieren. Dafür wertet das Unternehmen Webseiten, Social Networks, Blogs und Twitter-Accounts aus und sucht nach unsichtbaren Verknüpfungen (das White-Paper gibt die Details an).

Nov. 2011:
Die NYT berichtet: Recorded Future kann jetzt für 149 USD pro Monat auch privat genutzt werden.

Mai 2012: Profiling für Pre-Crime Detection
In den USA läuft seit einigen Jahren der Versuch, aber biometrische Informationen wie Körpertemperaturverteilung, Atemrhythmus und Herzschlag, die über Kameras ausgelesen werden, eine Vorhersage zu machen, ob eine Person vor hat, terroristische Taten zu begehen. Es ist extrem zweifelhaft ob das gelingt, aber bestimmt ein gutes Geschäft für die beteiligten Firmen.

 

 

 

Zurück nach oben

Wie können solche riesigen Datenströme denn ausgewertet werden?

Beispiel für eine wissenschaftlich-mathematische Vorgehensweise
In diesem ersten Beispiel (Siehe Artikel: App lets anyone track Twitter to play the stock market) geht es um eine wirklich anonyme Auswertung der Stimmungen in der Bevölkerung durch automatisierte Auswertung von Twitter Tweets. Die Forscher finden, dass sie die Vorhersage der Bewegungen des Dow Jones Index 3 Tage im Voraus mit 87% Wahrscheinlichkeit vorhersagen können. Hier die Studie: Twitter mood predicts the stock market.

    we investigate whether measurements of collective mood states derived from large-scale Twitter feeds are correlated to the value of the Dow Jones Industrial Average (DJIA) over time. We analyze the text content of daily Twitter feeds by two mood tracking tools, namely OpinionFinder that measures positive vs. negative mood and Google-Profile of Mood States (GPOMS) that measures mood in terms of 6 dimensions (Calm, Alert, Sure, Vital, Kind, and Happy).

Diese Funktionalität soll auch als Smartphone-App zur Verfügung gestellt werden.

Die großen Web-Portale beginnen die Sozialwissenschaften zu dominieren.
In der NY Times wird berichtet, dass immer mehr sozialwissenschaftliche Studien von Mitarbeitern von Firmen wie Google, Facebook, Microsoft, etc. gemacht werden. Dort liegen nämlich die Daten über unser Verhalten und warten auf eine Auswertung. Troves of Personal Data, Forbidden to Researchers

Da die Daten dem Datenschutz unterliegen ist deren Weitergabe an Universitäten selbst dann problematisch, wenn vorher eine Pseudonymisierung (oder Anonymisierung) unternommen wird (bzw. versucht wird, siehe die vielen Beispiel in diesem Artikel über Fälle, in denen die Anonymisierung rückgängig gemacht wurde).

Auf diese Weise entstehen Studien und Veröffentlichungen, die kein anderer Wissenschaftler nachprüfen kann, denn die Daten stehen nur den Mitarbeitern des Unternehmens zur Verfügung, das die Daten gesammelt hat. D.h, praktisch kann der Wissenschaftler mehr oder weniger alles behaupten. Das entspricht aber nicht den modernen wissenschaftlichen Gepflogenheiten. Die NY Times schreibt:

    Last year the National Science Foundation said that researchers who receive its funds would be “expected” to share data with other researchers. Many scientists agree that this is as it should be.

Ebenfalls im Netz verfügbar: Die Kurzversion meines Vortrags zu Smart City und den Herausforderungen der Anonymisierung der dabei benötigten Daten.

 

Auswertung von Datenmengen durch Crowd Sourcing
Hier ein Blick in die (nahe) Zukunft. Jänner 2005: Ein Stadtteil in London bekommt eine Einrichtung, bei der die Anwohner die Bilder der Kameras einsehen und mit einer Gallerie von "anti-social-behaviour" Personen vergleichen und Auffälliges der Polizei melden.

Dez. 2009:
Diese Überwachung durch willige und gelangeweilte Mitbürger kommt immer mehr in Mode. Hier ein Bericht über 3 solche Projekte: The sinister powers of crowdsourcing:

    Texas Border Sheriff's Coalition (TBSC) Bürger können sich KOSTENLOS in das Überwachungsnetz an der Texas-Südgrenze einwählen und Verdächtiges melden und sie können auch eigene Kameras einbinden und öffentlich überwachen lassen.
    gerdab.ir bietet ebenfalls Geld und zwar für die Identifizierung von Teilnehmern der Iran-Unruhen Juni 2009.

Mit Hilfe des "mechanischen Türken" von amazon.com lassen sich solche Tätigkeiten auch sehr leicht auf kostengünstiger kommerzieller Basis in Billiglohnländer "Outsourcen". (Hier die Erklärung des etwas ungewöhnlichen Namens Mechanischer Türke)

Okt. 2011:
Und es geht jetzt immer besser auch automatisiert: Ein Artikel zu den Aktivitäten rund um In-Q-Tel und Recorded Future findet sich in der Futurezone.

Dez. 2011:
Die Algorithmen werden immer besser: Social-Media-Daten ermöglichen Prognose für Besucherzahlen und Wettervorhersage für Kaufentscheidungen.

 

 

 

Weiterführende Informationen

Wie wichtig Data Mining heute geworden ist zeigt diese Liste von Forschungsprojekten der US-Regierung: Fact Sheet: Big Data Across the Federal Government - March 29, 2012 (PDF). Da finden sich Datenanalyse-Projekte in sehr vielen Bereichen, nicht nur beim Verteidigungsministerium, das den Feind und das Schlachtfeld besser verstehen möchte, sondern auch in vielen Forschungsbereichen. Ein sehr begrüßenswertes Programm ist Programming Computation on Encrypted Data (PROCEED). Dabei geht es darum, dass z.B. in Daten, die verschlüsselt in einer Cloud-Storage abgelegt sind, trotzdem nach Inhalten gesucht werden kann ohne dass die Daten auf dem Cloud-Server zuvor entschlüsselt werden müssen, genannt wird so etwas "fully homomorphic encryption" (FHE). Dies ist für eine sichere Cloud-Nutzung eine Voraussetzung. Hier mehr zur Sicherheit von Cloud-Diensten.

In diesem Artikel ging es um die Data Mining, d.h. die Auswertung extrem großer Datenmengen.
Sehr ähnlich, aber konkreter auf Menschen bezogen, sind die Inhalte bei Techniken zur Informationsgewinnung über möglichst viele Menschen.

Weitere verwandte Themen werden an anderen Stellen behandelt: Privatsphäre und Social Networking und das grundsätzliche Thema: Privatsphäre und Verlust an Privatsphäre.

Speziell zum "Datensammeln" im Internet gibt es meinen Artikel Spuren im Internet.

2002 hat AT&T eine Programmiersprache Hancock patentieren lassen, die sich zur Auswertung von Kommunikationsdaten sehr gut eignet. Dabei geht es um Communities of Interest (COI) und um ganz viel Mathematik. Hier ist das Dokument selbst: Communities of Interest (verfügbar in viele Formaten, auch als PDF).

Mai 2012:
Die NY Times berichtet, die großen Datensammlungen würden heute mit Hadoop ausgewertet. Dies ist eine Datenbank, die auch mit Petabytes an Daten kein Problem hat (1000 Terabytes = 1 Mio Gigabytes).

Dez. 2013:
Viele technische Details zum Einsatz von Data Mining Tools bringt die Artikelserie: Big Data in Security. In einem Interview berichten Wissenschaftler von Cisco, welche Tools (Open Source oder kommerziell) sie aus welchen Gründen für welche der verschiedenen Big Data Anwendungen (Patternanalyse, Analyse von Netzen, Visualisierungen, etc.) einsetzen. Die ganze Sache ist auch ausführlich bebildert und es gibt noch ergänzende Youtube-Videos.

 



Philipp Schaumann, http://sicherheitskultur.at/

Home

Copyright-Hinweis:
Das Copyright des Materials auf diesen Webseiten liegt, falls kein anderer Autor genannt wird, bei Philipp Schaumann. Creative Commons License
Diese Texte sind lizensiert unter der Create Commons Attribution-Noncommercial-Share Alike 2.0 Austria Lizenz. Natürlich gelten auch die Regeln des Fair Use und über Ausnahmen bzgl. der Lizenz kann jederzeit mit den Autoren gesprochen werden.