Zalety i wady technik anonimizacji – na tle opinii Grupy Roboczej Art. 29
09/09/2015
Grupa Robocza ds. Ochrony Osób Fizycznych w Zakresie Przetwarzania Danych Osobowych (w skrócie: Grupa Robocza Art. 29) w opinii 05/2014 w sprawie technik anonimizacji zajęła stanowisko w sprawie procesów anonimizacji i kwestii z nią związanych.
We wspomnianym dokumencie Grupa Robocza Art. 29 przybliża korzyści wypływające z anonimizowania danych, ale także kładzie nacisk na zagrożenia związane z możliwością odkrycia tożsamości osoby, której dane dotyczą.
Anonimizacja danych
Grupa Robocza Art. 29 w opinii uznaje, że techniki anonimizacji mogą zapewnić gwarancje prywatności i jednocześnie stanowić przydatne zanonimizowane dane, ale wyłącznie wtedy, gdy ich stosowanie jest odpowiednio zaprojektowane – oznacza to, że aby osiągnąć docelową anonimizację przy jednoczesnym wytworzeniu użytecznych danych, należy określić kontekst i cel procesu anonimizacji.
W świetle dyrektywy 95/46/WE w sprawie ochrony osób fizycznych w zakresie przetwarzania danych osobowych oraz swobodnego przepływu tych danych (a także w innych aktach prawnych, np. w dyrektywie 2002/58/WE o prywatności i łączności elektronicznej), anonimizacja wynika z przetwarzania danych osobowych w celu nieodwracalnego uniemożliwienia identyfikacji, co więcej, dyrektywa nie określa sposoby w jaki należy to zrobić – z czego wypływa wniosek, że administrator danych sam może zdecydować o tym, z jakich technik anonimizacji skorzysta.
W opinii Grupy Roboczej Art. 29 można wyróżnić kilka rodzajów anonimizacji o różnych stopniach dokładności – w związku z tym administratorzy muszą zwrócić uwagę na gwarancje, jakie można osiągnąć dzięki zastosowaniu danej techniki, ale także powinni zwrócić uwagę na obecny stan technologii. Z uwagi na kształt anonimizacji jako procesu należy zwrócić uwagę także na jeszcze jeden istotny problem, a mianowicie uwzględnić czynniki ryzyka właściwe dla anonimizacji. Grupa Robocza Art. 29 wyróżniła trzy takie czynniki:
1) wyodrębnienie – oznaczające możliwość wydzielenia niektórych lub wszystkich zapisów identyfikujących określoną osobę fizyczną w zbiorze danych;
2) możliwość tworzenia powiązań – zdolność do powiązania co najmniej dwóch zapisów dotyczących jednej osoby lub grupy osób, których dane dotyczą, w tej samej bazie danych lub w dwóch różnych bazach danych;
3) wnioskowanie – możliwość wydedukowania ze znacznym prawdopodobieństwem wartości danego atrybutu z wartości zbioru innych atrybutów.
Warto jednak mieć na uwadze, że zdaniem Grupy Roboczej Art. 29 żadna z dostępnych technik anonimizacji nie spełnia w całości wszystkich wymienionych powyżej kryteriów, ale niektóre z tych zagrożeń można wyeliminować w pełni lub częściowo stosując odpowiedni proces anonimizacji.
Techniki anonimizacji
Grupa Robocza Art. 29 w opinii dotyczącej technik anonimizacji wyróżniła kilka technik i omówiła ich zalety i wady, także w kontekście sytuacji, w jakiej zostały zastosowane dane techniki.
Niniejsze opracowanie ma na celu próbę przybliżenia tych technik w oparciu o powyższą opinię.
W tekście użyto następującej terminologii:
atakujący – jest osobą trzecią (tj. nie jest ani administratorem danych, ani przetwarzającym), która przypadkowo lub specjalnie przeprowadza ocenę zapisów pierwotnych,
quasi-identyfikatory – połączenia atrybutów dotyczących osoby lub grupy osób, których dane dotyczą,
zbiór danych - składa się z różnych zapisów dotyczących określonych osób fizycznych (osób, których dane dotyczą). Każdy zapis związany jest z jedną osobą, której dane dotyczą, i składa się ze zbioru wartości (lub „wpisów”, np. 2013) w odniesieniu do każdego atrybutu (np. roku),
zbiór zapisów – jest nim każdy zbiór danych, które można alternatywnie przedstawić w formie tabeli (lub zbioru tabel) lub w formie opisanego grafu.
Randomizacja
Obejmuje kilka technik, które zmieniają prawdziwość danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną.
W związku z powyższym - jeśli dane charakteryzują się wystarczającą niepewnością, wówczas nie można już ich odnieść do określonej osoby fizycznej.
Jak wynika z opinii Grupy Roboczej Art. 29 randomizacja nie ogranicza szczególnego charakteru każdego zapisu, ponieważ każdy zapis nadal będzie pochodził od jednej osoby, której dane dotyczą, ale może chronić przed czynnikami ryzyka opartymi na wnioskowaniu. Zalecane jest jednak, by zastosować dodatkowe techniki, tak, by zapis nie umożliwiał zidentyfikowania jednej osoby fizycznej.
- dodawanie zakłóceń
Dodawanie zakłóceń jest użyteczne zwłaszcza wtedy, gdy atrybuty mogą mieć istotny niekorzystny skutek dla poszczególnych osób fizycznych, i polega na modyfikowaniu atrybutów w zbiorze danych w taki sposób, aby były one mniej dokładne, przy jednoczesnym zachowaniu ogólnej dystrybucji.
Przykładowo, jeżeli wzrost danej osoby fizycznej został pierwotnie zmierzony z dokładnością co do centymetra, zanonimizowany zbiór danych może zawierać informacje dotyczące wzrostu z dokładnością tylko do +/- 10 centymetrów.
Powszechnym błędem uwidocznionym podczas stosowania zakłóceń jest np. założenie, że dodawanie zakłóceń stanowi samodzielne rozwiązanie umożliwiające anonimizację. W istocie, technika ta jest środkiem uzupełniającym, który utrudnia atakującemu uzyskanie danych osobowych; duży nacisk należy położyć także na usunięcie oczywistych atrybutów i quasi-identyfikatorów.
Grupa Robocza Art. 29 w opinii przytacza dowód na niepowodzenie w zakresie dodawania zakłóceń w postaci eksperymentu przeprowadzonego na bazie danych z danymi klientów dostawcy treści wideo – przedsiębiorstwa Netflix. Badacze przeprowadzili analizę właściwości geometrycznych tej bazy danych obejmującej ponad 100 mln ocen w skali 1–5 wyrażonych przez prawie 500 000 użytkowników w odniesieniu do ponad 18 000 filmów; baza ta została udostępniona publicznie przez przedsiębiorstwo po „zanonimizowaniu” jej zgodnie z wewnętrzną polityką prywatności i usunięciu wszystkich informacji umożliwiających identyfikację klienta poza ocenami i datami. Dodano zakłócenia polegające na nieznacznym podniesieniu lub obniżeniu ocen. Mimo tego okazało się, że w zbiorze danych można jednoznacznie zidentyfikować 99 % zapisów użytkowników, wykorzystując jako kryteria wyboru 8 ocen i dat z błędami w zakresie 14 dni, natomiast obniżenie kryteriów wyboru (2 oceny i błąd w zakresie 3 dni), co w efekcie umożliwiło zidentyfikowanie 68 % użytkowników.
- permutacja
Polega na tasowaniu wartości atrybutów w tabeli, tak aby niektóre z nich były sztucznie powiązane z różnymi osobami, których dane dotyczą, jest użyteczna, w przypadku gdy istotne jest zachowanie dokładnej dystrybucji każdego atrybutu w zbiorze danych.
Przykładowo, jeżeli weźmie się pod uwagę podzbiór atrybutów w zbiorze danych medycznych takich jak „przyczyny hospitalizacji/objawy/oddział odpowiadający”, w większości przypadków wartości będą powiązane silnym związkiem logicznym, przez co wykryta zostałaby permutacja tylko jednej z tych wartości i istniałaby nawet możliwość jej odwrócenia.
Warto zauważyć, że podobnie jak w przypadku dodawania zakłóceń sama permutacja nie zapewni anonimizacji i zawsze powinna być połączona z usuwaniem oczywistych atrybutów.
Poniżej opisano przykład nieskutecznej anonimizacji poprzez permutację: w tym przypadku można łatwo wydedukować dochód każdej osoby fizycznej w zależności od jej stanowiska pracy (i roku urodzenia). I tak na przykład na podstawie danych można stwierdzić, że dyrektor generalny uwzględniony w tabeli prawdopodobnie urodził się w 1957 r. i otrzymuje najwyższe wynagrodzenie, natomiast bezrobotny urodził się w 1964 r., a jego dochód jest najniższy.
Tabela ilustrująca przykład nieskutecznej anonimizacji przez permutację skorelowanych atrybutów.
Rok | Płeć | Stanowisko pracy | Dochód (permutowany) |
---|---|---|---|
1957 | M | Inżynier | 70 tys. |
1957 | M |
Dyrektor generalny |
5 tys. |
1957 | M | Bezrobotny | 43 tys. |
1964 | M | Inżynier | 100 tys. |
1964 | M | Manager | 45 tys. |
- prywatność różnicowa
Cechą charakterystyczną dla tej techniki jest możliwość zastosowania jej w czasie, gdy administrator danych generuje zanonimizowane widoki zbioru danych, jednocześnie zachowując kopie danych pierwotnych (dane pierwotne nie są zmieniane). Takie zanonimizowane widoki zwykle generuje się przez podzbiór zapytań na potrzeby określonej osoby trzeciej. Podzbiór ten obejmuje pewne losowe zakłócenia dodane celowo po przeprowadzeniu anonimizacji.
Zaletą tej techniki jest fakt, że zbiory danych udostępniane są upoważnionym osobom trzecim w odpowiedzi na szczególne zapytanie, a nie przez udostępnianie jednego zbioru danych.
Jak zauważa Grupa Robocza Art. 29 w opinii, największą trudnością pod względem ochrony danych jest zdolność do wygenerowania odpowiedniej ilości zakłóceń dodawanych do prawdziwych odpowiedzi, tak aby chronić prywatność osób fizycznych, przy jednoczesnym zachowaniu użyteczności udostępnionych odpowiedzi. Dlatego też konieczne jest prowadzenie monitorowania zapytań wprowadzanych przez podmiot i obserwowanie zdobytych informacji na temat osób, których dane dotyczą.
Uogólnianie
Polega na uogólnianiu lub osłabianiu atrybutów osób, których dane dotyczą, poprzez modyfikowanie odpowiedniego zakresu lub rzędu wielkości (tj. raczej region, a nie miasto, raczej miesiąc, a nie tydzień).
- agregacja i k-anonimizacja
Techniki te mają na celu uniemożliwienie wyodrębnienia osoby, której dane dotyczą, poprzez zgrupowanie tych osób z co najmniej k innymi osobami fizycznymi.
Aby to osiągnąć, uogólnia się wartości atrybutów do takiego zakresu, w jakim każdej osobie fizycznej przypisana jest ta sama wartość.
Przykładowo, przez obniżenie poziomu szczegółowości lokalizacji z miasta do państwa baza danych obejmuje większą liczbę osób, których dane dotyczą. Poszczególne daty urodzenia mogą zostać uogólnione do przedziału dat lub pogrupowane według miesięcy lub lat. Inne atrybuty numeryczne (np. wynagrodzenie, waga, wzrost lub dawka leku) mogą zostać uogólnione przez zastosowanie wartości przedziałowych (np. wynagrodzenie 20 000–30 000 EUR).
Warto zwrócić uwagę na to, że zastosowanie tej techniki anonimizacji nie zapobiega atakom opartym na wnioskowaniu. Poniższy przykład obrazuje, że jeżeli atakujący wie, że konkretna osoba fizyczna jest objęta zbiorem danych i że urodziła się w 1964 r., wie także, że osoba ta miała zawał serca. Co więcej, jeżeli wiadomo, że ten zbiór danych otrzymano od francuskiej organizacji, oznacza to, że każda osoba fizyczna mieszka w Paryżu, ponieważ pierwsze trzy cyfry paryskiego kodu pocztowego to 750.
Tabela przedstawiająca przykład słabo skonstruowanej k-anonimizacji.
Rok | Płeć | Kod pocztowy | Diagnoza |
---|---|---|---|
1957 | M | 750 |
Zawał serca |
1957 | M | 750 | Cholesterol |
1957 | M | 750 | Cholesterol |
1964 | M | 750 |
Zawał serca |
1964 | M | 750 |
Zawał serca |
- l-dywersyfikacja
L-dywersyfikacja – zgodnie z opinia Grupy Roboczej Art. 29, stanowi rozszerzenie k-anonimizacji w celu zapewnienia, aby deterministyczne ataki oparte na wnioskowaniu nie były już możliwe poprzez zagwarantowanie, że w każdej klasie równoważności każdy atrybut ma co najmniej l różnych wartości.
Celem do osiągnięcia jest ograniczenie występowania klas równoważności o słabej zmienności atrybutów, tak aby atakujący posiadający podstawową wiedzę na temat określonej osoby, której dane dotyczą i zawsze miał duży stopień niepewności.
- t-bliskość
Technika ta stanowi udoskonalenie l-dywersyfikacji pod tym względem, że ma na celu utworzenie równoważnych klas, które odzwierciedlają początkową dystrybucję atrybutów w tabeli. Jest użyteczna, gdy istotne jest zachowanie danych możliwie najbliżej danych pierwotnych; w tym celu nakłada się dalsze ograniczenie na klasę równoważności, mianowicie, że nie tylko powinno istnieć co najmniej l różnych wartości w ramach każdej klasy równoważności, ale również, że każda wartość jest reprezentowana tyle razy, ile jest konieczne, aby odzwierciedlić początkową dystrybucję każdego atrybutu.
Podsumowanie
Z opinii Grupy Roboczej Art. 29 wypływa jasny przekaz dotyczący tego, że każda technika ma swoje zalety i wady.
Tabela przedstawiająca zalety i wady rozważanych technik:
Nazwa techniki |
Czy nadal istnieje ryzyko wyodrębnienia? |
Czy nadal istnieje ryzyko możliwości tworzenia powiązań? |
Czy nadal istnieje ryzyko wnioskowania? |
---|---|---|---|
Dodawanie zakłóceń | Tak | Być może nie | Być może nie |
Zastąpienie | Tak | Tak | Być może nie |
Agregacja lub k-anonimizacja | Nie | Tak | Tak |
L-dywersyfikacja | Nie | Tak | Być może nie |
Prywatność różnicowa | Być może nie | Być może nie | Być może nie |
Co więcej, w wielu przypadkach zanonimizowany zbiór danych nadal może stanowić ryzyko szczątkowe dla osób, których dane dotyczą. Z tego też powodu administratorzy danych powinni mieć cały czas na uwadze rosnącą skalę zagrożeń wynikających z możliwości odkrycia tożsamości osób, których zanonimizowane dane dotyczą, a także identyfikować rodzaje ryzyka, monitorować je oraz kontrolować.
Opinia 05/2014 w sprawie technik anonimizacji
Pobierz plik [768.81 KB]