Metadaten

Wir alle hinterlassen Datenspuren im Netz, was uns aber vermutlich kaum bewusst ist: Fast jede unserer Handlungen wird von irgendwem irgendwie registriert und interpretiert.

Was ein Like alles aussagt

Die im Video erwähnte Studie «Private traits and attributes are predictable from digital records of human behavior» kann man hier nachlesen: als PDF, als Webseite. Auf Deutsch finden Sie einen Zeitungsartikel dazu.

Angenommen, Sie liken nun auf facebook diese “Curly Fries”. Macht Sie diese Handlung zu einem besonders intelligenten Menschen?

Eine ausführliche Antwort (Spoileralarm!!)

Die Antwort ist Jein – es kommt nämlich auf die Perspektive an:

Auf der persönlichen Ebene ändert dieser eine Klick natürlich nichts an Ihrer Intelligenz.

In den Augen eines Analysten jedoch erhöht die in diesem Like versteckte Information die Wahrscheinlichkeit, dass Sie intelligent sind. Wie im Video erklärt, liegt das daran, dass sich Inhalte (wie z.B. das Bild von den Spiralpommes) entlang von Freundesnetzwerken verbreiten. Aufgrund der Homophilie teilen diese Netzwerke Eigenschaften wie “hohe” Intelligenz, also ist statistisch gesehen jeder, der das Bild zu Gesicht bekommt (und nur dann kann er/sie es liken), überdurchschnittlich intelligent.
In Ihrem Fall (als Teilnehmer des Oinf-Kurses) ist die Erklärung noch ein bisschen komplexer: Sie sind im Kurs auf die Idee gebracht worden, das Bild zu liken, also trifft die Erklärung mit den Freundesnetzwerken auf Sie nicht zu. Andererseits besuchen Sie den Kurs, weil Sie an der Kanti sind, und auch Kantischüler sind (statistisch gesehen) überdurchschnittlich intelligent – also stimmt es doch wieder.
Bedenken Sie auch, dass dieser Klick statistisch gesehen nicht nur Informationen zu Ihrer Intelligenz beinhaltet – aufgrund der Homophilie kann ein Analytiker, der weiss, mit wem Sie befreundet sind, darauf schliessen, dass auch Ihre Freunde vermutlich eher intelligent sind – dabei hatten diese mit dem ganzen Vorgang überhaupt nichts zu tun!

Was könnte man mit Ihren Metadaten anfangen?

Nehmen wir nun an, jemand weiss von Ihnen, wann Sie in den letzten 12 Monaten welchen Dienst genutzt und welche Internetseite besucht haben. Die eigentlichen Inhalte (z.B. Email-Texte, Posts, Chat-Beiträge, Uploads, usw.) sollen aber nicht bekannt sein.
Überlegen Sie sich jeweils 2-3 konkrete Wege, wie man aus diesen Daten schliessen könnte auf

Ihr Alter
Ihren Wohnort (oder Staat)
Ihr Geschlecht
Ihre finanzielle Lage
Ihren Job/Beschäftigung
Ihren Beziehungsstatus
Ihre religiöse Ausrichtung
Ihre Hobbies
Ihren Drogenkonsum
Ihren Musikgeschmack
Ihren Charakter

Standortdaten

Anhand eines öffentlich zum Verkauf stehenden Datensatzes von Schweizer Bürgern zeigt diese SRF Analyse auf, welche Risiken sich aus der Zugänglichkeit von Standortdaten ergeben.
Diese grafische Anleitung erklärt, mit welchen Einstellungen man die Weitergabe von Standortdaten einschränken kann.

Metadaten

Metadaten sind nicht die eigentlichen Daten, sondern beschreiben diese Daten so, dass sie eindeutig kommuniziert und decodiert werden können. Metadaten fallen also überall dort an, wo digitale Daten ausgetauscht werden – z.B. jedesmal, wenn Sie eine Webseite aufrufen, ein E-Mail versenden, Geld abheben oder den Online-Fahrplan checken. Anhand von unseren Metadaten hinterlassen wir also eine digitale Spur, die jederzeit verfolgt werden kann.

Metadaten

Erstellt von Seraina Hohl

Als Metadaten bzw. Metainformationen werden strukturierte Daten bezeichnet, die Informationen über andere Informationsressourcen enthalten. Metadaten beschreiben also die eigentlichen Daten auf eine Art und Weise. Metainformationen werden erforderlich, wenn es größere Datenmengen zu verwalten gibt. Ein ausgesprochenes Merkmal von Metadaten ist daher oft, dass sie maschinell lesbar und auswertbar sind.

Quelle: Andreas Pfund, Metadaten

Analogie

Ein Buch enthält bestimmte Informationen – Text, Bilder, usw. Zusätzlich finden sich – meist auf dem Umschlag oder auf den ersten Seiten – verschiedene Metadaten, bei denen es nicht um den Inhalt des Buchs geht, sondern um das Buch selbst – z.B. wer es geschrieben hat, bei welchem Verlag es wann und wo es erschienen ist, wie viele Seiten es hat, welche ISBN-Nummer ihm zugeordnet ist. Diese Metadaten werden vor allem gebraucht, um dieses Buch von all den anderen Büchern zu unterscheiden, oder um es in einer Bibliothek wiederfinden zu können – und diesen Zweck erfüllen die Metadaten eigentlich erst, wenn sie beispielsweise in einem Katalog zusammengestellt werden.
Bezogen auf den Katalog sind die zusammengestellten Metadaten der Bücher dann wiederum der eigentliche Inhalt, also die Daten – aber auch Kataloge haben Metadaten.

Oft ist der Unterschied zwischen Daten und Metadaten nicht besonders eindeutig. Im digitalen Kontext ist das noch schwieriger, weil jeglichen Daten bzw. Informationen ja eigentlich nur irgendwelche Bits sind, die man mit Kenntnis des zugehörigen Formats interpretieren kann – es kommt also auf das Format und seinen Zweck an, welche Bits zum eigentlichen Inhalt gehören und welche zusätzliche (ggf. aber ebenfalls notwendige) Informationen beschreiben. Zudem werden vom Betriebssystem oder sonstiger Software für jede Datei weitere Metadaten generiert, damit die Unmengen gleichartiger Dateien identifiziert und effizient verwaltet werden können.

Beispiel Digitales Bild (Metadaten von Dateien)

Die eigentlichen Daten sind hier diejenigen Bits, die beschreiben, wie das Bild aussieht. Damit das klappt, muss ein bestimmtes Format eingehalten werden. Fast alle Formate haben einen Header, in dem allgemeine Informationen über die enthaltenen Daten (also Metadaten) gespeichert werden, z.B. die genaue Version des Formats, die Dimensionen des Bildes, ggf. eine Tabelle der benutzten Farben (GIF). Oft ist hier oder in einer verlinkten Zusatzdatei noch Platz für weitere Metadaten – für Photos kommt häufig das Metadatenformat EXIF zum Einsatz, in dem viele weitere Informationen enthalten sein können, wie z.B. Aufnahmedatum und -ort, mit welcher Kamera das Photo mit welchen Einstellungen aufgenommen wurde, benutzerdefinierte Tags und Keywords, wann, von wem und ggf. wie das Photo verändert wurde. Viele dieser Informationen werden von der Kamera oder von Bildbearbeitungsprogrammen automatisch eingefüllt (und können allenfalls auch manuell editiert werden). Auch auf der Ebene des Betriebssystems werden zu jeder Datei Metadaten generiert und benutzt, etwa Dateiname und Grösse, Erstellungs- und Veränderungsdatum, welcher Benutzer welche Zugriffsrechte hat, usw.

Metadaten gibt es also auf verschiedenen Ebenen für alle Dateien. Eine zusätzliche Ebene ergibt sich, wenn Daten zwischen Digitalgeräten ausgetauscht werden.

Beispiel Datenpakete (Kommunikations-Metadaten)

Zu versendende Daten (ggf. inkl. zugehöriger Metadaten) werden als payload in Datenpakete verpackt, das heisst, für jede Kommunikationsebene kommt ein Header mit zu dieser Ebene gehörenden Metadaten dazu. Manche davon sind absolut notwendig, damit das Paket seinen Weg durchs Internet finden kann, z.B. die IP. Gleichzeitig bedeutet das aber auch, dass ein unterwegs abgefangenes Paket üblicherweise dem Absender zugeordnet werden kann – wer wann mit wem kommuniziert (nicht aber, was die Pakete enthalten) ist also ein ziemlich offenes Geheimnis.

Das «üblicherweise» im letzten Satz ist tendenziell wahr, es hängt jedoch an sehr vielen Bedingungen und Details, auf die an dieser Stelle nicht näher eingegangen werden soll.

Viele Protokolle bzw. deren Header enthalten auch optionale Informationen – beispielsweise über das Betriebssystem, den Browser, installierte Plugins oder Sicherheitseinstellungen, die Bildschirmauflösung, usw. des anfragenden Geräts. Solche Informationen können nützlich sein für ein optimales Benutzererlebnis bei der Interaktion mit Webseiten. Gleichzeitig ermöglichen sie das sogenannte Fingerprinting: Da es sehr unwahrscheinlich ist, dass zwei Geräte die genau gleiche Kombination dieser Aspekte aufweisen, kann man abgefangene Datenpakete aufgrund dieses „Fingerabdrucks“ meist dem aussendenden Gerät zuordnen.

Auch Geräte haben und erzeugen Metadaten, einige wurden im obigen Beispiel bereits erwähnt. Dazu kommt inzwischen eine weitere, potentiell kritische Art von Metadaten, nämlich Informationen über den Standort eines mobilen Geräts.

Beispiel Standortdaten (Gerätebezogene Metadaten)

Mobiltelefone können nur funktionieren, wenn sie ihre Datenpakete in ein (leitungsgebundenes) Mobilfunknetz einspeisen können. Sie sind daher beständig auf der Suche nach der nächsten Mobilfunkantenne – wird keine gefunden, hat man keinen Empfang. Um möglichst guten Empfang zu gewährleisten, fragt das Telefon also ständig nach erreichbaren Handymasten und verbindet sich mit dem nächstgelegenen – das geschieht andauernd, auch wenn man das Telefon gerade nicht benutzt. Aus der Information, mit welchen Masten das Gerät wann in Kontakt war, kann man den geografischen Standort des Geräts und damit üblicherweise des Benutzers ableiten – mit einer Genauigkeit von etwa 50 bis 1000 Metern, je nach der lokalen Dichte der Masten. Noch präziser geht das, wenn das Gerät über GPS verfügt; hier liegt die Genauigkeit im Bereich von wenigen Metern. Weitere Standortinformationen können ggf. abgeleitet werden aus der benutzen IP und aus den Wi-Fi-Netzen, mit denen das Gerät in Kontakt kommt.
Über die solcherart generierten Standortdaten verfügt mindestens das Gerät selbst. Hinzu kommen Apps, denen der Benutzer den Zugang zu diesen Daten erlaubt. Hinzu kommen die Betriebssysteme, die – teilweise nicht abschaltbar – die Bewegungsdaten ihrer Nutzer sammeln und analysieren. Hinzu kommen die Betreiber der angepeilten Stationen, also beispielsweise die Mobilfunkanbieter oder die Betreiber der GPS-Satelliten.
Potentiell kritisch ist das, weil sich aus Standort- bzw. Bewegungsdaten sehr viel ableiten lässt. Das sieht man allein daran, dass viele biologische Forschungsprojekte bemüht sind, Tiere mit entsprechenden Sendern auszustatten. Für Menschen ist das unnötig, die haben ja ein Handy.

Auch Webseiten generieren und analysieren Metadaten – z.B. wer benutzt wann welchen Teil unseres Angebots. Zusätzlich gibt es die inzwischen häufig genutzte Möglichkeit, nutzerspezifische Metadaten zu generieren und direkt beim Client zu speichern, sogenannte Cookies.

Beispiel Cookies (Webseiten-Metadaten)

Ein Cookie ist ein Stück textgebundene Information, die der Server der Webseite an einer bestimmten Stelle im Browser des Clients ablegen kann. Hier könnte beispielsweise Amazon speichern, welche Bücher ein (nicht eingeloggter) Benutzer sich angeschaut oder gekauft hat. Wenn vom selben Browser erneut auf die Amazon-Seite zugegriffen wird, fragt der Server, ob es einen Amazon-Cookie gibt und wertet ggf. die Informationen aus, um beispielsweise passende Buchvorschläge zu generieren oder die zuletzt aufgerufene Unterseite anzuzeigen.
Dieselben Informationen könnten auch direkt auf dem Server gespeichert und ausgewertet werden – um die eindeutige Zuordnung zu ermöglichen, muss der Benutzer sich dafür aber identifizieren, d.h. einloggen. Bei Cookies entfällt das Einloggen – dafür ist die Zuordnung nicht unbedingt eindeutig, etwa dann nicht, wenn der Benutzer beim nächsten Zugriff ein anderes Gerät benutzt.
Je nach Umsetzung kann die Cookie-Technik Datenschutzprinzipien unterlaufen. Nach der europäischen DSGV muss der Nutzer für jede Bearbeitung persönlicher Daten aktiv zustimmen – das gilt auch für Cookies und selbst dann, wenn mit den Daten nichts (kritisches) angefangen wir. Aus diesem Grund lassen sich inzwischen fast alle Webseiten vom Benutzer (beim ersten Besuch) bestätigen, dass sie Cookies setzen dürfen. Ob das den Datenschutz verbessert, scheint fraglich, denn kritisch ist weniger die Technik an sich, als deren Umsetzung, also welche Informationen in den Cookies gespeichert werden, wer darauf Zugriff hat und sie wie auswertet oder weitergibt.

Ein reales Beispiel

Informationen und Interactive zum Projekt „Gläserner Politiker“ und ein Arbeitsblatt dazu FallbeispielMetadatenGlättli.docx (pdf).

Meine Spuren im Netz

Welche Spuren hinterlasse ich selbst im Netz? Wer hat Zugang dazu?

Das im obenstehenden Video angesprochene Tool heist inzwischen «Lightbeam», es ist als Firefox-Plugin (https://www.mozilla.org/de/lightbeam) verfügbar. Es zeigt Ihnen, wie und von wem die durch ihr Surfverhalten (notwendigerweise) generierten Metadaten gesammelt, weitergegeben und zusammengeführt werden.
Achtung: Dazu muss Lightbeam u.U. Ihre Firefox-Datenschutzeinstellungen anpassen, insbesondere so, dass eine Chronik angelegt wird.
Auch wenn Sie den Browserverlauf und Cookies immer löschen, sind Sie (d.h. der sogenannte «fingerprint» ihres Browsers) üblicherweise recht gut wiedererkennbar: Testen Sie Ihren Browser mit AmIUnique oder Panopticlick und finden Sie heraus, wie eindeutig Ihr Fingerprint ist.
Ausführlichere Informationen zu Spuren im Netz finden sich auf dieser Website: https://myshadow.org

In der Präsentation Webtracking.pptx.pdf finden Sie eine kurze Einführung zu Webtrackern.

Betrachten Sie folgende zwei Zitate:

«To every man is given the key to the gates of heaven; the same key opens the gates of hell.»
(von einem buddhistischen Mönch, vgl. Video «The Power of Metadata»)
«We kill people based on metadata.»
(Michael Hayden, ehem. Direktor der CIA und der NSA, 11. Mai 2014, https://www.youtube.com/watch?v=UdQiz0Vavmc)

Welche Überlegungen lösen diese bei Ihnen aus?