Home      Themenübersicht / Sitemap      Notizen      Webmaster      

 

Die Problematik von Data Mining und Profiling

Stand: August 2010

Data Mining, d.h. die systematische Auswertung durch Korrelation von Datenelementen in mehreren, zumeist sehr großen Datenbanken, wird heute immer stärker zu Fahndungszwecken eingesetzt (Schleppnetzfahndung) und zur Terrorbekämpfung eingesetzt. Dabei geht es z.B. um die statistische Auswertung von Verhaltensdaten einer sehr großen Zahl von Menschen, am besten der gesamten Bevölkerung. Dafür können z.B. folgende Daten verwendet werden:

  • Zugriffsprotokolle zum Internet, Protokolle der besuchten Website, der Suchbegriffe, etc.
  • Rechnungsinformationen aller Art, z.B. Telefon, Handy, Stromrechnung, ...
  • Auflistungen aller Telefonate von einem Anschluss aus
  • Auswertung der Standorte von eingeschalteten Handys
  • Abrechnung von Straßengebühren
  • Automatische Erkennung von Autokennzeichen
  • Konsumenteninformationen aus Kundenkarten, bargeldlosen Zahlungen, Käufen und Verkäufen übers Internet
  • Informationen, die aktiv und freiwillig ins Netz gestellt wurden: Kommentare zu Zeitungen, in Blogs, auf Seiten mit Film-Kritiken, etc.
  • Die Netze, die in Social Networking Websites aktiv aufgebaut werden, oder die impliziten Netze, die sich aus E-mail-Kontaktlisten ergeben
  • Reisedaten aus den Buchungen von Flügen, aber auch Internetbestellungen von Zugkarten
  • heute (2010) werden vor allem Ortsinformationen zusätzlich ausgewertet, entweder über die IP-Adresse und deren Zuordnung zu einem Ort (Geolocation-Dienste) oder noch besser über den Standort des Mobilgeräts

Es ist wichtig zu wissen, dass es für eine Auswertung von solchen Netzwerken auch dann kaum ein Problem darstellt, wenn viele oder fast alle der Daten dieser Netze keine klaren Hinweise auf die Identität der Personen enthalten. Mathematische Verfahren zur Analyse der Verbindungsstrukturen erlauben es sehr weitgehend, verschiedene Netze übereinander zu legen. Und wenn eines dieser Netze den Namen oder die Telefonnummer enthält, so sind damit alle Netze de-anonymisiert. Weiter unten gebe ich Beispiele und Quellenhinweise dazu.

Ziel solcher Aktivitäten ist in vielen Fällen die Erstellung von Nutzer-Profilen, z.B. zu Werbezwecken. Bei der Werbung ist der Name gar nicht so interessant, solange die Person der dieses Profil zugeordnet ist, bei Bedarf immer wieder automatisiert erkannt wird, z.B. wenn sie auf einer Website erscheint oder wenn sie einen Laden betritt.

Data Mining Auswertungen sind heute sogar für Privatleute verfügbar und nicht nur für große Firmen. Sie gibt es z.B. eine App für Facebook, iPhone, etc. mit dem Namen DateCheck entwickelt von Intelius. Die Applikation fragt Daten zu möglichen Straftaten, zur Wohnsituation sowie Informationen aus sozialen Netzwerken ab. Damit erfährt der Nutzer möglichst viele intime Details über eine neue Bekanntschaft.

 

 

 

Zurück nach oben

Data Mining durch die Behörden

Bruce Schneier stellt in der Zeitschrift Wired dar, warum diese Technik zum Vereiteln von terroristischen Anschlägen schon von der Idee her extrem ungeeignet ist.

Es geht bei dem Data Mining darum, dass definiert wird, an welchem Verhalten man einen Terroristen zu erkennen glaubt, z.B. Bezahlen von Flugtickets mit Bargeld und gleichzeitig Bestellen von Mahlzeiten im Flugzeug für Muslims. Dann erfolgt eine Auswertung aller Daten auf Grund dieser Kriterien. Weil die Kriterien für "terroristisches Verhalten" sehr vage und verschwommen sind, wird jede dieser Auswertungen eine sehr große Zahl von sog. False Positives finden, das sind Ereignisse und Personen, die auch in dieses Schema passen, aber vollkommen harmlos sind. Aber allen diesen Hinweisen muss nachgegangen werden.

Data Retention, Vorratsdatenspeicherung: generell Aufbewahrung von Daten, z.B. um den Auflagen bezüglich Archivierung zu erfüllen.

In der heutigen Diskussion (2005/06) meist die Fristen für die Aufbewahrung der Verkehrs- und Standortdaten die bei den Anbietern von Telephon- und Internet-Diensten anfallen. Europäische Anbieter wehren sich gegen eine zu lange Aufbewahrungsverpflichtung, da dies Kosten für sie verursacht. Datenschützer wehren sich gegen die Aufbewahrung, weil die Weitergabe von Verbindungdaten auch bereits eine Einschränkung der Privatsphäre darstellt.

Ergebnis ist, dass die Polizei überschwemmt wird mit Nachforschungsanforderungen. So berichtete die New York Times, dass die (illegale) automatische Überwachung aller Telefonate in den USA durch Computer, die nach Schlüsselbegriffen in den Gesprächen gehorcht haben, zu vielen Tausenden von Hinweisen pro Monat geführt hat, die ALLE Fehlalarme waren. Der Grund liegt darin, dass terroristische Angriffe extrem selten sind, selbst im Vergleich zu ebenfalls seltenen Ereignissen wie Missbrauch einer Kreditkarte. Die Kosten für einen Falschalarm bei der Verifizierung von Käufen per Kreditkarte sind aber recht gering, die Karte wird nicht akzeptiert und der Käufer muss ein kurzes Telefonat mit der Kreditkartenfirma führen. Im Falle eines Falschalarms bei der Terroristenfahndung muss aber eine manuelle Untersuchung des Hintergrunds der Person durchgeführt werden, eine extrem aufwendiger Prozess, ein Anruf bei der Person wäre in diesem Fall nicht zielführend.

    Hier die Zahlen von Bruce Schneier für den Einsatz eines solchen "intelligenten Profilierungssystem" an der Grenze zum Abwehr von Terroristen: an den US-Grenzen werden 430 Millionen Menschen geprüft. Wenn ein Programm die unglaubliche (und vollkommen unrealistische) Treffsicherheit von 99,9% hätte, so wären immer noch 430 000 falsche Alarme das Ergebnis, Fällen, in denen ein ausführliches Verhör den Verdacht auf Terrorismus erst widerlegen müsste.

Das Problem des Data Mining mit seltenen Ereignissen hat übrigens auch die Medizin, wenn sie Massenscreenings auf Krankheiten durchführt, die extrem selten sind. Selbst eine sehr geringe False Positiv-Rate eines solchen Tests ergibt eine sehr große Zahl von Fehldiagnosen, die zu einer Verunsicherung der getesteten Personen führen und die dann durch einen anderen Test verifziert werden müssen und sich dann als falsch herausstellen.

TIA: (Terrorism Information Awareness) US-Programm zur Sammlung von personenbezogenen Daten und Erstellung von Personenprofilen mittels Data Mining in (auch kommerziellen) Datenbanken, z.B. Axciom, 2003 vom Congress gestoppt. Heute siehe Matrix.

Matrix: (Multistate Anti-Terrorism Information Exchange) US-Überwachungsprojekt das eine große Zahl unterschiedlicher Quellen von personenbezogenen Daten kombiniert.
Mehr zu solchen Fragen unter Privatsphäre und in meinem Sicherheitsglossar (pdf, > 1 MB). Auch sehr interessant dazu das Gespräch mit dem Chef der TSA.

Data Mining ist extrem gut geeignet, um häufige Ereignisse auszuwerten. Die Käufe von bestimmten Büchern bei amazon, das Reiseverhalten von Flugzeugpassagieren, die Inhalte der Anfragen bei Google oder die Inhalte von GoogleMail.

Hier ein guter Artikel der IT-Management Zeitschrift CIO zum Thema Hilft Data Mining im Kampf gegen Terror? (mit vielen weiterführenden Links, z.B. im Artikel "Poindexter Comes in from the Cold" über den Hintergrund und die Geschichte von TIA, dem großen US-Data Mining Programm, das einfach nicht tot zu kriegen ist. Bis hin zu einem Artikel Taming Big Brother, der besagt, dass Data Mining Technologie noch so weit von den Zielen der Regierung entfernt ist, dass diese Projekte außer den riesigen Kosten (fast) nur "false positives", d.h. unschuldige Verdächtigte, abwerfen werden. Zitat "So far one of the only distinct transactional similarities among the 19 Sept. 11th hijackers is that they all bought a lot of pizza using credit cards.").

Hier eine ausführliche Studie zu Effective Counterterrorism and the Limited Role of Predictive Data Mining, mit einem Link zur Originalstudie. Und was selbst aus anonymiserten Daten alles herauszuholen ist zeigt diese peinliche Geschichte bei AOL.

Was die NSA über die elektronische Kommunikation alles auswertet (zum Artikel)

Hier ein Link zu einem ausführlichen Artikel über die Datensammelwut in den USA durch die NSA.

Und hier in meinen Notizen eine Erklärung (und weitere Unterlagen), wie mit Hilfe von Software aus solchen Datenmengen doch Erkenntnisse gewonnen werden können: Die Nadel im Heuhaufen finden - die Auswertung von Verkehrsdaten.

Ein 2008 Report der "National Science Foundation" findet Data mining doesn't work well. Sie unterscheiden in diesem Report zwischen "subject-based data mining", d.h. eine Person steht im Mittelpunkt und dann werden Verbindungen zu dieser Person gesucht, gegenüber pattern-based data mining, bei der Anomalitäten in den Daten gefunden werden sollen (so wie die Software im vorigen Link dies versucht). Letzteres hat kaum Erfolg zu akzeptablen False Positive Raten zu kommen, d.h. die Zahl der vermeintlichen Terroristen wird immer zu hoch sein, als dass die Sicherheitsbehörden jedem Fall nachgehen könnten.

 

 

 

Data Mining, Marketing und De-Anonymisierung

Da moderne Menschen heute ständig Datenspuren hinterlassen (siehe Datenspuren im Internet) und solche Informationen für die Werbeindustrie reines Gold darstellen, wird ständig daran gearbeitet, wie diese Daten ausgewertet werden können ohne gar zu eklatant gegen Datenschutzgesetze zu verstoßen, bzw. die Kunden vor den Kopf zu stoßen. In Großbritannien und jetzt auch in den USA gibt es seit Mitte 2008 Aktivitäten unter dem Stichwort Phorm. Dabei geht es darum, dass die Firma den gesamten Datenverkehr ins Internet von Privatpersonen auswerten möchte, daraus Profile erstellen und dann gezielte Werbung für diese Personen anbieten. Man nennt dies Behavioral Targeting.

Wie weit diese Technologien mittlerweile entwickelt sind, zeigen einige Beispiele. Die US-Firma Sense Networks wertet die Standortdaten aus, die sie von den Mobilfunkanbietern bekommen. Es geht dabei nicht um die Telefonate, sondern nur die Orte, an denen sich die eingeschalteten Telefone täglich befinden. Diese Daten werden (natürlich) nur anonym weiterverkauft (z.B. zu Marketingzwecken), sie sind jedoch nie wirklich anonymisierbar. Denn Untersuchungen zeigen, dass die Kombination von Aufenthaltsort nach Mitternacht und Aufenthaltsort tagsüber in der überwiegenden Zahl der Fälle eindeutig ist. Wer in ihrem Wohnblock arbeitet am gleichen Arbeitsort wie sie. Diese Daten sind aber durchaus recherchier- und damit auswertbar, z.B. aus Telefonbüchern, Wählerverzeichnissen, u.ä.

Aber auch ohne diese De-Anonymisierung sind die Daten wertvoll. Eine Marketing-Organisation sortiert diese Standardortdaten nach 20 typischen Mustern, z.B. Nachtschwärmer (nach 10 Uhr abends unterwegs), berufstätig (im Berufsverkehr unterwegs), Hausfrau (nicht im Berufsverkehr unterwegs), denen dann gezielte Angebote aufs Handy gesendet werden. Das ganze funktioniert natürlich auch ohne dass das Unternehmen Daten wie Namen und Anschrift bekommt.

Zu anonymen Daten aus Social Networks zeigt sich, dass deren De-Anonymisierung nicht wirklich funktioniert. Hier eine Studie zum Thema De-Anonymisierung. Die Studie zeigt, dass auch gründlich anonymisierte Daten aus Social Networks, wenn sie mit anderen Netzen verglichen werden, de-anonymisiert werden können. Die Wissenschaftler haben ein öffentlich verfügbares anonymisiertes Twitter-Netz de-anonymisiert, indem sie es mit den Verknüpfungen in flickr.com verglichen haben. Das hat geklappt obwohl es nur eine geringe Überlappung zwischen den beiden Netzen gibt. Solche de-anonymisierten Daten werden für Forschungszwecke zur Verfügung gestellt, aber auch an Werbetreibende, die die Qualität der Daten eines Netzwerks testen möchten.

Solche Daten sind auch verfügbar, indem automatische Suchprogramme sich durch solche Social Network "hindurchwühlen" (die Liste der Freunde der Freunde der Freunde .... durchgehen). Dabei gewinnen sie, je nach Netz, entweder Daten mit realen Namen oder nur Nick-Names. In diesem Artikel wird an Hand eines Beispiels mit anonymen Patientendaten (für Forschungszwecke zur Verfügung gestellt) sehr gut aufgezeigt, wie eine nachträgliche Namenszuordnung mit Hilfe von überlappenden Datenelementen (De-Anonymisierung) funktioniert (Hier der wissenschaftliche Artikel Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization).

Wie schwer es ist, Anonymität zu erzeugen, das zeigen Untersuchungen, bei denen 87% aller Amerikaner durch die Verknüpfung von Geburtsdatum, Geschlecht und Postleitzahl eindeutig identifiziert waren.

Solche Profile können nicht nur dafür verwendet werden, Werbung gezielt zu platzieren (was man ja erst mal noch nicht als schlimm ansehen muss), sie können auch für Diskriminierung eingesetzt werden. D.h. jemand der durch die Auswertung seines Internet-Nutzungsverhaltens als jemand erkannt wurde, bei dem Geld "vergleichsweise locker sitzt", der bekommt bestimmte Sonderangebote gar nicht erst angezeigt (discriminatory prizing). Amazon hat vor einigen Jahren angeblich in diese Richtung experimentiert und nach Protesten von Nutzern diese Aktivitäten wieder aufgegeben. Eine weitere Gefahr solcher Nutzerprofile ist, dass einer bestimmten Bevölkerungsgruppe bestimmte Informationen vorenthalten werden.

 

Aktualisierung August 2010: Recorded Future

Wired berichtet über eine Firma, in die Google und der CIA gemeinsam investiert haben: Recorded Future. Das Unternehmen hat es sich zum Ziel gesetzt, gegenwärtige sowie zukünftige Beziehungen zwischen Menschen und Organisationen, zwischen ihren Absichten und ihren Handlungen zu analysieren. Dafür wertet das Unternehmen Webseiten, Social Networks, Blogs und Twitter-Accounts aus und sucht nach unsichtbaren Verknüpfungen (das White-Paper gibt die Details an).

 

 

 

Zurück nach oben

Wie können solche riesigen Datenströme denn ausgewertet werden?

Hier ein Blick in die (nahe) Zukunft. Jänner 2005: Ein Stadtteil in London bekommt eine Einrichtung, bei der die Anwohner die Bilder der Kameras einsehen und mit einer Gallerie von "anti-social-behaviour" Personen vergleichen und Auffälliges der Polizei melden.

Aktualisierung Dez. 2009: Diese Überwachung durch willige und gelangeweilte Mitbürger kommt immer mehr in Mode. Hier ein Bericht über 3 solche Projekte: The sinister powers of crowdsourcing:

    Texas Border Sheriff's Coalition (TBSC) Bürger können sich KOSTENLOS in das Überwachungsnetz an der Texas-Südgrenze einwählen und Verdächtiges melden und sie können auch eigene Kameras einbinden und öffentlich überwachen lassen.

    Internet Eyes - Detecting Crime as it Happens - Bürger können sich einwählen und für eine Belohnung Ladendiebe und anderes finden und melden.

    gerdab.ir bietet ebenfalls Geld und zwar für die Identifizierung von Teilnehmern der Iran-Unruhen Juni 2009.

Mit Hilfe des "mechanischen Türken" von amazon.com lassen sich solche Tätigkeiten auch sehr leicht auf kostengünstiger kommerzieller Basis in Billiglohnländer "Outsourcen". (Hier die Erklärung des etwas ungewöhnlichen Namens Mechanischer Türke)

 

 

 

Weiterführende Informationen

2002 hat AT&T eine Programmiersprache Hancock patentieren lassen, die sich zur Auswertung von Kommunikationsdaten sehr gut eignet. Dabei geht es um Communities of Interest (COI) und um ganz viel Mathematik. Hier ist das Dokument selbst: Communities of Interest (verfügbar in viele Formaten, auch als PDF).

Dieses Thema ist Teil der größeren Problematik Schutz der Privatsphäre, die an anderer Stelle ausführlich diskutiert wird. Speziell zum "Datensammeln" im Internet gibt es meinen Artikel Spuren im Internet.

 



Philipp Schaumann, http://sicherheitskultur.at/

Home

Copyright-Hinweis:
Das Copyright des Materials auf diesen Webseiten liegt, falls kein anderer Autor genannt wird, bei Philipp Schaumann. Creative Commons License
Diese Texte sind lizensiert unter der Create Commons Attribution-Noncommercial-Share Alike 2.0 Austria Lizenz. Natürlich gelten auch die Regeln des Fair Use und über Ausnahmen bzgl. der Lizenz kann jederzeit mit den Autoren gesprochen werden.