Anonymisierung und Deanonymisierung
Eine Einführung
Frederik Möllers
Defendo GbR – Möllers & Hessel
Anonymisierung
- Anonymität:
- Nicht-identifizierbarkeit von Personen
- Anonymisierung:
- Entfernung einer bestehenden Identifizierbarkeit
Pseudonymisierung
- Nicht eindeutig abgrenzbar zu Anonymisierung
- In der Technik meist:
- Pseudonymisierung: Daten können einzelner (nicht identifizierbarer) Person zugeordnet werden
- Anonymisierung: Daten können keiner einzelnen Person zugeordnet werden
Warum Anonymisierung?
- Personenbezug entfällt
- DSGVO nicht anwendbar (Art. 4)
- Pseudonymisierung explizite T.O.M.
- Datenminimierung vorgeschrieben (Art. 25)
Beispiel: Datensätze
Name | Adresse | Krankheit |
---|
Christin Grünewald | Bahnhofstraße 1 | Beinbruch |
Ilse Münch | Westallee 7 | H5N1 |
Ralph Freud | Am Eck 21 | Prostatakrebs |
Christina Metzger | Südhang 3 | Grauer Star |
Beispiel pseudonymis.
Nutzer | Krankheit |
---|
1 | Beinbruch |
2 | H5N1 |
3 | Prostatakrebs |
4 | Grauer Star |
Beispiel anonymis.
Stadt | Krankheit |
---|
Saarheim | Beinbruch |
Saarheim | H5N1 |
Saarheim | Prostatakrebs |
Saarheim | Grauer Star |
Beispiel anonymis.?
Probleme
- Anonymisierte Daten können mehr Informationen enthalten als gedacht/gewünscht
- Andere Quellen können verknüpfbare Informationen liefern
AOL Search History Leaks
Suchanfragen pseudonymisiert veröffentlicht
User | Query |
---|
711391 | can not sleep with snoring husband |
711391 | online friendships |
711391 | omni hotel san antonio tx |
711391 | how to make a good first impression |
User | Query |
---|
711391 | how to drive a man crazy with desire for you |
711391 | married but in love with another |
711391 | online friend is horrible in person |
711391 | how do you break off an affair |
Anfragen nach eigenen Daten, Freunden, …
Indizien für geplante Morde, …
Netflix Prize
- Pseudonymisierte Filmbewertungen veröffentlicht
- Abgleich mit IMDB-Bewertungen möglich
- Auch „geheime“ Bewertungen können zugeordnet werden
Netflix |
---|
User | Movie | Rating |
---|
1 | Star Wars I | ★★☆☆☆ |
1 | Last Starfighter | ★★★★☆ |
1 | Starship Troopers | ★★★☆☆ |
1 | Green Lantern | ★★★★★ |
IMDB |
---|
User | Movie | Rating |
---|
745 | Star Wars I | ★★★★☆☆☆☆☆☆ |
745 | Last Starfighter | ★★★★★★★★☆☆ |
745 | Starship Troopers | ★★★★★★☆☆☆☆ |
Versteckte Daten
Patient | Geschlecht | Krankheit |
---|
1 | m/w | Beinbruch |
2 | m/w | H5N1 |
3 | m | Prostatakrebs |
4 | m/w | Grauer Star |
Quasi-Identifikatoren
- Merkmale/Merkmalkombinationen, die (ggf. mit Hilfe anderer Datenquellen) eine eindeutige Identifizierung ermöglichen.
- Beispiele:
- (Geschlecht, PLZ, Geburtsdatum)
- (IP-Adresse, Datum, Uhrzeit)
- Nicht unbedingt alle einmaligen Kombinationen!
Konzept: k-Anonymität
Geschlecht | PLZ | Geburtsjahr | Krankheit |
---|
m | 33106 | 1987 | Beinbruch |
m | 33106 | 1987 | Armbruch |
w | 66111 | 1991 | Masern |
w | 66111 | 1991 | Grippe |
Immer k Zeilen mit gleichen Werten beim Quasi-Identifikator
Hier: k=2
Weitere Probleme
- Reihenfolge
- Mehrere Veröffentlichungen aus gleicher Datenbasis
- Homogenität
- Aussagen über alle Mitglieder einer Gruppe
Weitere Ansätze
- Rauschen
- Veränderung der Daten einer Zeile
- Hinzufügen/Löschen von Zeilen
- Maßnahmen bei Datenerzeugung
- Homogenisierung
- Mehr Nutzer
Wichtig für Verantwortliche
- Datensparsamkeit
- Genaue Überlegungen vor Veröffentlichung/Weitergabe
- Form der Veröffentlichung festlegen
- Beobachtung nach Veröffentlichung