10 błędów i nieporozumień związanych z anonimizacją

Anonimizacja to proces polegający na przekształceniu danych osobowych w sposób uniemożliwiający ich przyporządkowanie do zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej. Wokół anonimizacji narosło wiele mitów i nieporozumień, przysparzających administratorom i inspektorom ochrony danych bólu głowy. Bardzo często jest ona mylona z pseudonimizacją lub uważa się, że może nastąpić wyłącznie poprzez fizyczne usunięcie danych. W naszym artykule przybliżamy wyjaśnienia hiszpańskiego organu nadzorczego (Agencia Española de Protección de Datos) mające na celu prawidłowe wykorzystanie tego mechanizmu ochrony danych.

Zgodnie z RODO dane anonimowe to takie dane, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną albo są zanonimizowane w taki sposób, że w ogóle nie można zidentyfikować lub już nie można zidentyfikować osób, których dane dotyczą. Zbiory danych osobowych mogą zawierać identyfikatory bezpośrednie i pośrednie umożliwiające identyfikację osoby fizycznej.

Odbierz pakiet bezpłatnych poradników i mikroszkoleń RODO

Dołącz do grona czytelników naszego biuletynu, odbierz bezpłatny pakiet i trzymaj rękę na pulsie.
ODBIERZ PAKIET
Bezpośredni identyfikator to konkretne informacje, które odwołują się do osoby fizycznej, np. nazwisko lub numer identyfikacyjny. Identyfikator pośredni (zwany także quasi-identyfikatorem) to dowolna informacja (np. położenie geograficzne w określonym momencie lub opinia na określony temat), którą może wykorzystać (indywidualnie lub w połączeniu z innymi quasi-identyfikatorami) osoba posiadająca wiedzę na temat danej osoby w celu jej ponownej identyfikacji w zbiorze danych.

Ryzyko ponownej identyfikacji polega na tym, że w danym zbiorze danych możliwe jest przekształcenie danych zanonimizowanych w dane osobowe za pomocą dopasowywania danych lub podobnych technik. Użyteczność zbioru danych jest miarą przydatności informacji do zamierzonego celu (np. badania nad konkretną chorobą).

Anonimizacja – czy to naprawdę takie ważne?

W ostatnich latach mieliśmy kilka przykładów niekompletnych lub niepoprawnie wykonanych procesów anonimizacji, które doprowadziły do ponownej identyfikacji osób, których dane dotyczą. Na przykład w 2006 roku serwis streamingu filmów opublikował zbiór danych zawierający 10 milionów rankingów filmowych wykonanych przez 500 000 klientów, twierdząc, że były anonimowe, ale – jak się później okazało – wystarczyła niewielka wiedza na temat subskrybenta, aby móc zidentyfikować jego rekord w zbiorze danych. Kolejny przykład wadliwej anonimizacji: w 2013 roku New York City Taxi and Limousine Commission opublikowała arkusz danych z ponad 173 milionami indywidualnych przejazdów taksówką, zawierający miejsce odbioru i odjazdu, godziny i rzekomo zanonimizowane numery licencji. Zbiór danych nie został poprawnie zanonimizowany i możliwe było zidentyfikowanie oryginalnych numerów licencji, a nawet poszczególnych kierowców tych taksówek.

W dalszej części artykułu przedstawimy najczęstsze błędy i nieporozumienia związane z anonimizacją. Zapraszamy do lektury!

1 Pseudonimizacja jest tym samym co anonimizacja.

Pseudonimizacja to nie to samo co anonimizacja. RODO definiuje pseudonimizację jako przetworzenie danych osobowych w taki sposób, aby bez użycia dodatkowych informacji nie można ich było już przypisać konkretnej osobie, której dane dotyczą, pod warunkiem że takie dodatkowe informacje przechowuje się osobno i są one objęte środkami technicznymi i organizacyjnymi uniemożliwiającymi ich przypisanie zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej. Oznacza to, że wykorzystanie dodatkowych informacji może prowadzić do identyfikacji osób fizycznych, dlatego też pseudonimowe dane osobowe są nadal danymi osobowymi.

Z drugiej strony, dane anonimowe nie mogą być powiązane z konkretnymi osobami. Gdy dane są już naprawdę anonimowe i nie można już zidentyfikować osób fizycznych, dane te nie będą objęte zakresem RODO.

2 Szyfrowanie jest anonimizacją

Szyfrowanie nie jest techniką anonimizacji, ale może być potężnym narzędziem pseudonimizacji. Proces szyfrowania wykorzystuje tajne klucze do przekształcania informacji w taki sposób, który zmniejsza ryzyko niewłaściwego użycia przy jednoczesnym zachowaniu poufności przez określony czas. Ponieważ oryginalne informacje muszą być dostępne, przekształcenia stosowane przez algorytmy szyfrowania mają być odwracalne w procesie deszyfrowania. Tajne klucze używane do odszyfrowywania to wspomniane informacje dodatkowe (patrz błąd numer 1), które mogą zapewnić czytelność danych osobowych, a w konsekwencji możliwą identyfikację. Teoretycznie można by uznać, że usunięcie klucza szyfrującego zaszyfrowane dane uczyniłoby je anonimowymi, ale tak nie jest.

Nie można zakładać, że zaszyfrowane dane nie mogą być odszyfrowane, ponieważ klucz deszyfrujący jest rzekomo „wymazany” lub „nieznany”. Jest wiele czynników wpływających na poufność zaszyfrowanych danych, zwłaszcza w dłuższym okresie.

Wśród tych czynników są: siła algorytmu szyfrowania i klucza, wycieki informacji, problemy wdrożeniowe, liczba zaszyfrowanych danych lub postęp technologiczny (np. obliczenia kwantowe).

3 Anonimizacja danych jest zawsze możliwa.

Nie zawsze jest możliwe obniżenie ryzyka ponownej identyfikacji poniżej uprzednio określonego progu, przy jednoczesnym zachowaniu zbioru danych przydatnych do określonego przetwarzania. Anonimizacja to proces, w którym dąży się do znalezienia właściwej równowagi między zmniejszeniem ryzyka ponownej identyfikacji a utrzymaniem użyteczności zbioru danych do przewidzianego celu lub celów. Jednak w zależności od kontekstu lub charakteru danych ryzyko ponownej identyfikacji nie może zostać w wystarczającym stopniu ograniczone.

Taka sytuacja może mieć miejsce, gdy łączna liczba możliwych osób fizycznych („ogół osób których dane dotyczą”) jest zbyt mała (np. anonimowy zbiór danych zawierający tylko 705 członków Parlamentu Europejskiego), gdy kategorie danych są tak różne u poszczególnych osób fizycznych, że możliwe jest wyodrębnienie tych osób (np. odcisk palca urządzenia w systemach, które uzyskały dostęp do określonej strony internetowej) lub gdy zbiory danych zawierają dużą liczbę atrybutów demograficznych lub danych dotyczących lokalizacji.

RODO. Wspracie się przydaje!

4 Anonimizacja jest na zawsze

Istnieje ryzyko, że niektóre procesy anonimizacji mogą zostać odwrócone w przyszłości. Okoliczności z czasem ulegają zmianie, a nowe osiągnięcia techniczne i dostępność dodatkowych informacji mogą zagrozić wcześniejszym procesom anonimizacji. Zasoby obliczeniowe i nowe technologie (lub nowe sposoby zastosowania istniejących technologii) dostępne dla atakującego, który mógłby spróbować ponownie zidentyfikować anonimowy zbiór danych, zmieniają się z biegiem czasu. Obecnie chmury obliczeniowe zapewniają możliwości obliczeniowe na poziomie i w cenach, które były nie do pomyślenia kilka lat temu.

W przyszłości komputery kwantowe mogą również spowodować, że zmieni się treść pojęcia „rozsądne środki”. Ponadto, ujawnienie dodatkowych danych w ciągu wielu lat (np. w przypadku naruszenia danych osobowych) może umożliwić powiązanie wcześniej anonimowych danych ze zidentyfikowanymi osobami fizycznymi. Ujawnienie liczących wiele dziesięcioleci rejestrów zawierających bardzo wrażliwe dane (np. rejestry karne) mogłoby nadal mieć poważny szkodliwy wpływ na osobę fizyczną lub jej bliskich.

5 Anonimizacja zawsze zmniejsza prawdopodobieństwo ponownej identyfikacji zbioru danych do zera.

Proces anonimizacji i sposób jego wdrożenia będzie miał bezpośredni wpływ na prawdopodobieństwo wystąpienia ryzyka ponownej identyfikacji. Solidny proces anonimizacji ma na celu obniżenie ryzyka ponownej identyfikacji poniżej pewnego progu. Próg ten będzie zależał od kilku czynników, takich jak istniejące mechanizmy ograniczające (brak w kontekście publicznego ujawniania danych), wpływ na prywatność osób fizycznych w przypadku ponownej identyfikacji, motywy i zdolność osoby atakującej do ponownej identyfikacji danych.

Chociaż stuprocentowa anonimizacja jest najbardziej pożądanym celem z punktu widzenia ochrony danych osobowych, w niektórych przypadkach nie jest ona możliwa i należy wziąć pod uwagę nawet minimalne ryzyko ponownej identyfikacji.

6 Anonimizacja jest koncepcją binarną, której nie da się zmierzyć.

Można analizować i zmierzyć stopień anonimizacji. Wyrażenie „dane anonimowe” nie może być postrzegane w taki sposób jak gdyby zbiory danych mogły po prostu być oznaczone jako anonimowe lub nie. Prawdopodobieństwo ponownej identyfikacji rekordów w każdym zbiorze danych zależy od tego, na ile możliwe jest ich wyodrębnienie. W każdym solidnym procesie anonimizacji zostanie ocenione ryzyko ponownej identyfikacji, którym należy zarządzać i kontrolować je w czasie.

Z wyjątkiem szczególnych przypadków, w których dane są bardzo uogólnione (np. zbiór danych dotyczący liczby odwiedzających stronę internetową w danym kraju w ciągu roku), ryzyko ponownej identyfikacji nigdy nie jest równe zeru.

7 Anonimizacja może być w pełni zautomatyzowana.

Można używać zautomatyzowanych narzędzi podczas procesu anonimizacji, jednak biorąc pod uwagę znaczenie kontekstu w ogólnej ocenie procesu, konieczna jest interwencja eksperta. Wręcz przeciwnie, wymaga to analizy oryginalnego zbioru danych, jego zamierzonych celów, technik, które należy zastosować, oraz ryzyka ponownej identyfikacji danych wynikowych. Po Identyfikacji i usunięciu bezpośrednich identyfikatorów (zwanych również „maskowaniem”), które stanowią ważny element procesu anonimizacji, należy zawsze przeprowadzić ostrożną analizę pod kątem innych źródeł (pośredniej) identyfikacji, zazwyczaj za pomocą quasi-identyfikatorów. Podczas gdy identyfikatory bezpośrednie są dość łatwe do znalezienia, to identyfikatory pośrednie nie zawsze są oczywiste, a ich niewykrycie może skutkować odwróceniem procesu (tj. ponowną identyfikacją), co ma konsekwencje dla prywatności osób fizycznych.

Automatyzacja mogłaby mieć kluczowe znaczenie dla niektórych etapów procesu anonimizacji, takich jak usuwanie bezpośrednich identyfikatorów lub konsekwentne stosowanie procedury uogólniania na zmienną. Z drugiej strony wydaje się mało prawdopodobne, aby w pełni zautomatyzowany proces mógł identyfikować quasi-identyfikatory w różnych kontekstach lub decydować o tym, jak zmaksymalizować użyteczność danych poprzez zastosowanie konkretnych technik do konkretnych zmiennych.

8 Anonimizacja sprawia, że dane stają się bezużyteczne.

Bezpłatna wiedza o RODO.
Korzystaj do woli!

Webinary, artykuły, poradniki, szkolenia, migawki i pomoc. Witaj w bazie wiedzy ODO 24.
WCHODZĘ W TO
Prawidłowy proces anonimizacji zachowuje funkcjonalność danych dla danego celu. Celem anonimizacji jest uniemożliwienie identyfikacji poszczególnych osób w zbiorze danych. Techniki anonimizacji zawsze będą ograniczały sposoby wykorzystania wynikowego zbioru danych. Na przykład, grupowanie dat urodzenia w przedziałach rocznych zmniejszy ryzyko ponownej identyfikacji, ale jednocześnie w niektórych przypadkach ograniczy użyteczność zbioru danych. Nie oznacza to, że dane anonimowe staną się bezużyteczne, ale raczej, że ich użyteczność będzie zależeć od celu i dopuszczalnego ryzyka ponownej identyfikacji. Z drugiej strony, dane osobowe nie mogą być stale przechowywane poza ich pierwotnym przeznaczeniem, w oczekiwaniu na okazję, w której mogłyby stać się przydatne do innych celów.

Rozwiązaniem dla niektórych administratorów danych może być anonimizacja, w ramach której dane osobowe można oddzielić i usunąć ze zbioru danych, podczas gdy pozostały zbiór danych nadal zachowuje użyteczne znaczenie. Przykładem może być anonimizacja logów dostępu do strony internetowej, polegająca na zachowaniu jedynie daty dostępu i strony, z której uzyskano dostęp, bez informacji o tym, kto uzyskał dostęp. Zasada minimalizacji danych wymaga od administratora ustalenia, czy konieczne jest przetwarzanie danych osobowych w celu osiągnięcia konkretnego celu lub czy cel ten można również osiągnąć za pomocą danych anonimowych.

W niektórych przypadkach może to prowadzić do wniosku, że anonimizacja danych nie będzie odpowiadać zamierzonemu celowi. W takich przypadkach administrator danych będzie musiał dokonać wyboru między przetwarzaniem danych osobowych (i zastosowaniem np. pseudonimizacji) a zastosowaniem RODO lub w ogóle nie przetwarzać danych.

9 Stosowanie procesu anonimizacji, który inni stosowali z powodzeniem, doprowadzi naszą organizację do takich samych wyników.

Procesy anonimizacji muszą być dostosowane do charakteru, zakresu, kontekstu, a także celów przetwarzania danych, jak również do ryzyka o różnym prawdopodobieństwie wystąpienia i wadze dla praw i wolności osób fizycznych. Anonimizacji nie można stosować podobnie jak w przypadku przestrzegania przepisu, ponieważ kontekst (charakter, zakres, kontekst i cele przetwarzania danych) jest prawdopodobnie różny w zależności od okoliczności i organizacji. Proces anonimizacji może wiązać się z ryzykiem ponownej identyfikacji poniżej pewnego progu, gdy dane są udostępniane jedynie ograniczonej liczbie odbiorców, natomiast ryzyko ponownej identyfikacji nie będzie w stanie osiągnąć tego progu, gdy dane zostaną udostępnione ogółowi społeczeństwa. Różne zbiory danych mogą być dostępne w różnych kontekstach. Można by je powiązać z danymi anonimowymi, co miałoby wpływ na ryzyko ponownej identyfikacji.

Na przykład, w Szwecji szczegóły dotyczące danych osobowych podatników są publicznie dostępne, podczas gdy w Polsce – nie. Dlatego też, nawet jeżeli zbiory danych zawierające informacje o obywatelach Polski i Szwecji zostałyby zanonimizowane przy zastosowaniu tej samej procedury, ryzyko ponownej identyfikacji mogłoby być różne.

10 Nie ma ryzyka i nie ma interesu w tym, aby dowiedzieć się do kogo odnoszą się dane

Dane osobowe mają wartość samą w sobie, zarówno dla samych osób fizycznych, jak i dla stron trzecich. Ponowna identyfikacja danej osoby może mieć poważne skutki dla jej praw i wolności. Ataki na anonimizację mogą polegać na umyślnych próbach ponownej identyfikacji, niezamierzonych próbach ponownej identyfikacji, naruszeniu danych lub publicznym udostępnieniu danych. Prawdopodobieństwo, że ktoś będzie próbował ponownie zidentyfikować osobę fizyczną dotyczy tylko pierwszego rodzaju. Nie można zlekceważyć ryzyka, że ktoś ponownie zidentyfikuje przynajmniej jedną osobę w zbiorze danych, czy to z ciekawości lub przez przypadek, czy też kierując się rzeczywistym zainteresowaniem (np. badaniami naukowymi, dziennikarstwem lub działalnością przestępczą). Dokładna ocena wpływu ponownej identyfikacji na życie prywatne danej osoby może być trudna, ponieważ zawsze będzie zależeć od kontekstu i informacji, które są skorelowane.

Na przykład, ponowna identyfikacja osoby, której dane dotyczą, w kontekście pozornie nieszkodliwej informacji o jej preferencjach filmowych może prowadzić do wnioskowania o skłonnościach politycznych lub orientacji seksualnej tej osoby. Takie szczególnie wrażliwe dane są jednak objęte specjalną ochroną na mocy RODO.

Czytaj także:

Outsourcing funkcji Inspektora Ochrony Danych (IOD)

Outsourcing, czyli przekazanie funkcji IOD to sprawdzony sposób na optymalizację procesów i kosztów.

Zobacz więcej
Tomasz Ochocki
Tomasz Ochocki
Kierownik zespołu merytorycznego.
Ekspert ds. ochrony danych.
Audytor wiodący systemu zarządzania bezpieczeństwem informacji (ISO/IEC 27001:2013), zarządzania ciągłością działania (ISO 22301) oraz audytor wewnętrzny ISO/IEC 27701. Ukończył podyplomowe studia z zakresu ochrony danych osobowych i informacji niejawnych oraz analizy bezpieczeństwa i zagrożeń terrorystycznych.

Autor oraz prelegent dedykowanych szkoleń pracowniczych z zakresu bezpieczeństwa informacji.

Współautor opracowania: "RODO Nawigator", "DODO Nawigator" oraz książki: "Ustawa o ochronie danych osobowych przetwarzanych w związku z zapobieganiem i zwalczaniem przestępczości. Komentarz".

Adw. Łukasz Pociecha
Adw. Łukasz Pociecha
Ekspert ds. ochrony danych.
Swoje doświadczenie zawodowe zdobywał współpracując z kancelariami specjalizującymi się w obsłudze przedsiębiorców, w tym klientów korporacyjnych. Audytor wiodący ISO/IEC 27001.

Do jego kompetencji należy kompleksowa obsługa klientów w zakresie ochrony danych osobowych i bezpieczeństwa informacji, w tym m.in.: sporządzenie opinii prawnych i umów, prowadzenie szkoleń oraz przeprowadzanie audytów. Posiada aktualny certyfikat metodyki zarządzania projektami PRINCE2.

Współautor książki: "Ustawa o ochronie danych osobowych przetwarzanych w związku z zapobieganiem i zwalczaniem przestępczości. Komentarz".

Barbara Matasek
Barbara Matasek
Ekspert ds. ochrony danych
Doktorant w Kolegium Prawa Akademii Leona Koźmińskiego w Warszawie. Odpowiada za przeprowadzanie audytów, przygotowanie dokumentacji w zakresie ochrony danych osobowych oraz doradztwo prawne.

Swoje zainteresowania skupia wokół prawa handlowego i prawa cywilnego, ze szczególnym uwzględnieniem zagadnień dotyczących ochrony danych osobowych. Doświadczenie zawodowe zdobywała pracując w kancelariach prawnych oraz jako asystent sędziego.

Współautorka poradnika: "Jak przygotować się do kontroli".