Anonimizacja i pseudonimizacja danych osobowych w badaniach społecznych

W procesie przetwarzania danych osobowych często pojawiają się pojęcia anonimizacji i pseudonimizacji. Choć są one czasem używane zamiennie, w rzeczywistości mają odmienne znaczenie i zastosowanie. RODO wprost odnosi się do pseudonimizacji, definiując ją jako technikę zabezpieczenia danych osobowych, jednak nie zawiera definicji anonimizacji. Mimo to oba te terminy mają kluczowe znaczenie w kontekście ochrony danych i warto dokładnie je zrozumieć. Niniejszy artykuł wyjaśnia różnice pomiędzy anonimizacją a pseudonimizacją, a także zagłębia się w bardziej szczegółowe aspekty, takie jak zasady i techniki anonimizacji oraz sposób jej planowania i wdrażania.

Poniższy artykuł stanowi tłumaczenie poradnika opublikowanego przez Fińskie Archiwum Danych Społecznych (Finnish Social Science Data Archive).

Czym są dane osobowe?

Zgodnie RODO dane osobowe to wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej. Osobę fizyczną uważa się za możliwą do zidentyfikowania, jeżeli można ją określić bezpośrednio lub pośrednio, w szczególności przez odniesienie do identyfikatora, takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej. Według tej definicji w przypadku danych badawczych dane osobowe nie są ograniczone do informacji dotyczących uczestników badań. Dane badawcze mogą bowiem zawierać również identyfikatory dotyczące rodziny i przyjaciół uczestników badań lub innych osób trzecich. Informacje identyfikacyjne dotyczące tych osób także stanowią dane osobowe.

Nie ma ograniczeń co do rodzaju i charakteru danych osobowych. Może nimi być każda informacja związana z osobą fizyczną. Dotyczy to wypowiedzi, opinii, postaw i sądów wartościujących. Dane osobowe mogą mieć charakter obiektywny lub subiektywny. To, czy informacja jest prawdziwa i możliwa do sprawdzenia, czy też nie, nie ma tu żadnego znaczenia. Informacje mogą dotyczyć życia prywatnego lub rodzinnego danej osoby, jej zdrowia, cech fizycznych, działalności zawodowej oraz zachowań gospodarczych lub społecznych.

Jakie informacje stanowią dane możliwe do zidentyfikowania?

Dane osobowe to wszelkiego rodzaju dane, które mogą być wykorzystane do identyfikacji osoby fizycznej lub grupy osób, np. osób w tym samym gospodarstwie domowym. Identyfikacja może nastąpić na podstawie co najmniej jednego czynnika właściwego dla fizycznej, psychologicznej, psychicznej, ekonomicznej, kulturowej lub społecznej tożsamości osoby lub osób. Dane, które nie dotyczą bezpośrednio osób, również mogą być danymi osobowymi, jeśli zawierają identyfikatory. Przykładem wtórnych (drugorzędnych) danych osobowych mogą być informacje straży pożarnej o pożarach obejmujące adresy.

Informacje, które same w sobie są wystarczające do zidentyfikowania osoby fizycznej, obejmują pełne imię i nazwisko, numer ubezpieczenia społecznego, adres e-mail zawierający imię i/lub nazwisko oraz identyfikatory biometryczne (odciski palców, obraz twarzy, wzorce głosu, skan tęczówki, geometrię dłoni lub odręczny podpis). Tego typu dane nazywane są identyfikatorami bezpośrednimi.

Inne informacje, które mogą być wykorzystane do w miarę łatwej identyfikacji osoby fizycznej, to: adres pocztowy, numer telefonu, numer rejestracyjny pojazdu, cytat bibliograficzny publikacji danej osoby, adres e-mail inny niż zawierający imię/nazwisko, adres strony internetowej zawierającej dane osobowe, nietypowe stanowisko pracy, bardzo rzadka choroba lub stanowisko zajmowane tylko przez jedną osobę w danym czasie (np. przewodniczący w organizacji). Rzadkie zdarzenie również może ujawnić tożsamość osoby. Fińskie archiwum danych nauk społecznych (Finnish Social Science Data Archive – FSD) nazywa tego typu informacje silnymi identyfikatorami pośrednimi.

W FSD przyjęto, że silne identyfikatory pośrednie obejmują również rodzaje kodów, które mogą być użyte do jednoznacznej identyfikacji osoby z grupy osób. Mowa tu o numerze legitymacji studenckiej, numerze konta ubezpieczeniowego lub bankowego, adresie IP komputera itp.

Identyfikatory pośrednie (lub quasi-identyfikatory) to rodzaj informacji, które same w sobie nie wystarczają do zidentyfikowania osoby, ale w połączeniu z innymi dostępnymi informacjami mogą być wykorzystane do wywnioskowania tożsamości danej osoby. Zmienne podstawowe i identyfikatory pośrednie obejmują np. Wiek, płeć, wykształcenie, działalność gospodarczą i status zawodowy, status społeczno-ekonomiczny, skład gospodarstwa domowego, dochód, stan cywilny, język ojczysty, pochodzenie etniczne, miejsce pracy lub nauki oraz zmienne regionalne. Do pośrednich identyfikatorów odnoszących się do miejsca zamieszkania można zaliczyć np. kod pocztowy, dzielnicę, gminę i główny region.

Nowy w temacie RODO? Poznaj podstawy!

Data również może być identyfikatorem pośrednim. Data urodzenia jest najczęstszym przykładem, ale data śmierci i daty ważnych wydarzeń również mogą być pośrednimi identyfikatorami w danych badawczych, gdy są powiązane z innymi informacjami. W badaniach w dziedzinie zdrowia i medycyny daty leczenia i pobierania próbek mogą czasami stanowić pośrednie identyfikatory, gdy są powiązane z innymi informacjami.

Dane spseudonimizowane także są traktowane jako dane osobowe. Należą do nich dane z badań longitudinalnych, w których uczestnicy mają identyfikator przypadku zamiast nazwiska lub numeru ubezpieczenia społecznego, a zespół badawczy posiada klucz służący do powiązania danych z konkretnymi uczestnikami badań.

Przetwarzanie danych badawczych zawierających identyfikatory

Dane umożliwiające identyfikację mogą być używane do badań naukowych, gdy ich wykorzystanie jest właściwe, zaplanowane i uzasadnione oraz gdy istnieje podstawa prawna do przetwarzania danych (taka jak np. zgoda uczestnika lub interes publiczny, dla którego prowadzone są badania).

Z punktu widzenia uczestników badań przetwarzanie danych osobowych stwarza ryzyko ujawnienia poufnych informacji, które ich dotyczą, osobom postronnym (np. bliskim, pracodawcom lub władzom). Dlatego przetwarzanie danych osobowych musi być dokładnie zaplanowane i starannie wykonywane. Bezpieczeństwo danych nie może być zagrożone, np. przez niedbałe przechowywanie lub niezabezpieczenie transferów cyfrowych.

Najważniejsze pojęcia

-+Anonimizacja danych

Nieodwracalne usunięcie powiązań między osobą fizyczną a dotyczącymi jej danymi osobowymi. Uniemożliwia to zidentyfikowanie osoby fizycznej. Dane zanonimizowane nie są już danymi osobowymi. Anonimizacja odnosi się do różnych technik i narzędzi stosowanych w celu osiągnięcia anonimowości.

-+Pseudonimizacja danych

Odwracalne przetwarzanie danych osobowych, tak aby nie można było ich przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji.

Pseudonimizacja odnosi się do usunięcia lub zastąpienia identyfikatorów pseudonimami lub kodami, które są przechowywane oddzielnie i chronione za pomocą środków technicznych i organizacyjnych. Dane pozostają spseudonimizowane tak długo, jak długo istnieją dodatkowe informacje identyfikujące.

-+Dezidentyfikacja

Usunięcie lub edycja informacji identyfikujących w zbiorze danych w celu uniemożliwienia identyfikacji konkretnych przypadków. Dezidentyfikacja często odnosi się do procesu usuwania lub zasłaniania bezpośrednich identyfikatorów.

-+Dezanonimizacja

Ponowna identyfikacja danych, które zostały sklasyfikowane jako zanonimizowane, przez powiązanie ich z informacjami pochodzącymi z innych źródeł. Jeżeli zanonimizowane dane zostaną zdezanonimizowane, oznacza to, że na początku nie były one w pełni anonimowe, nastąpił postęp technologiczny lub więcej informacji na temat osób fizycznych stało się dostępnych gdzie indziej. Dlatego dobrą praktyką jest okresowa ponowna ocena solidności anonimizacji (tzw. ocena ryzyka rezydualnego).

-+Szczególne kategorie danych osobowych

Dane osobowe określone w RODO, które ujawniają pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych, informacje dotyczące zdrowia albo życia seksualnego lub orientacji seksualnej. Te szczególne kategorie obejmują również dane genetyczne i biometryczne, służące do identyfikacji osoby fizycznej.

-+Zasada minimalizacji

Należy zbierać tylko minimalną ilość danych osobowych niezbędnych do realizacji zadania (np. badań). Nie wolno gromadzić danych osobowych tylko na wypadek zaistnienia potrzeby ich wykorzystania w przyszłości. Musi istnieć jasno określony cel gromadzenia danych osobowych.

-+Zasada ograniczenia przechowywania

Dane osobowe, które nie są już potrzebne do realizacji zadania, powinny zostać usunięte tak szybko, jak to możliwe. Na przykład imiona i nazwiska, adresy i inne podobne identyfikatory powinny być usuwane natychmiast po tym, jak przestaną być potrzebne do celów przetwarzania. Jeżeli do łączenia danych wykorzystano numery ubezpieczenia społecznego, również należy je usunąć, gdy nie są już potrzebne. Ograniczenie przechowywania zmniejsza ryzyko związane z przetwarzaniem danych osobowych.

Kiedy dane są zanonimizowane, a kiedy spseudonimizowane?

Dane są zanonimizowane, jeżeli charakterystyczne atrybuty (np. kombinacje niektórych identyfikatorów pośrednich) dotyczą więcej niż jednej osoby, której nie można zidentyfikować przy dołożeniu należytych starań.

RODO definiuje dane zanonimizowane w sposób funkcjonalny, jako część czynności:

Aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania, należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby (w tym wyodrębnienie wpisów dotyczących tej samej osoby), w stosunku do których istnieje uzasadnione prawdopodobieństwo, iż zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. Aby stwierdzić, czy dany sposób może być z uzasadnionym prawdopodobieństwem wykorzystany do zidentyfikowania danej osoby, należy wziąć pod uwagę wszelkie obiektywne czynniki, takie jak koszt i czas potrzebne do jej zidentyfikowania, oraz uwzględnić technologię dostępną w momencie przetwarzania danych, jak i postęp technologiczny (motyw 26 RODO).

Gdy dane są zanonimizowane, nie jest możliwe zidentyfikowanie poszczególnych uczestników badań lub osób trzecich na podstawie pośrednich identyfikatorów lub przez powiązanie danych z informacjami dostępnymi w innym miejscu. Do zanonimizowanego zbioru danych nie można dodać nowych danych dotyczących tych samych uczestników badań. Aby dane można było uznać za zanonimizowane, anonimizacja musi być nieodwracalna.

Marcin Kuźniak

OFERTA PROMOCYJNA

Czas na profesjonalne
wsparcie RODO

Zastanawiasz się, jak skutecznie zarządzać ochroną danych na co dzień? Podczas krótkiej rozmowy, poznasz ofertę i otrzymasz rabat

WYBIERZ TERMIN ROZMOWY

Dane spseudonimizowane nie pozwalają na identyfikację osoby, której te dane dotyczą, bez użycia oddzielnie przechowywanych informacji dodatkowych. Gdy dane są spseudonimizowane, unikatowe zapisy zastępuje się spójnymi wartościami pochodzącymi z wartości pierwotnych lub niezależnymi od nich, tak aby nie można było już zidentyfikować konkretnych osób, których dane dotyczą. Ponadto informacje o pierwotnych wartościach i technikach użytych do stworzenia pseudonimów powinny być przechowywane przy pomocy środków organizacyjnych i technicznych oddzielnie od danych spseudonimizowanych. Środki organizacyjne odnoszą się do ochrony środowiska fizycznego i udokumentowanej kontroli dostępu. Z kolei środki techniczne obejmują np. bezpieczne przechowywanie i szyfrowanie danych.

Dane nie są spseudonimizowane, jeżeli konkretną osobę, której dane dotyczą, można zidentyfikować na podstawie wyłącznie tych danych – bez dodatkowych informacji. Może się to zdarzyć, gdy identyfikatory pośrednie i unikatowe zapisy umożliwiają identyfikację, nawet jeśli identyfikatory bezpośrednie, np. numery ubezpieczenia społecznego, są przechowywane oddzielnie i bezpiecznie. Pseudonimizacja jest nieskuteczna w przypadku, gdy osoba postronna jest w stanie określić pierwotne wartości na podstawie pseudonimów. Może się tak zdarzyć, gdy oryginalne identyfikatory zostaną zasłonięte tylko częściowo. Przykładowo: „Jan Kowalski” zostanie zmienione na „Jxx Kxxxxxx” lub numer ubezpieczenia społecznego „123456-789E” zostanie zmieniony na „123456-XXXX”, Przy pseudonimizacji należy podjąć takie środki, aby osoby postronne nie miały możliwości ustalenia spseudonimizowanych danych osobowych.

Dane spseudonimizowane stają się danymi zanonimizowanymi, gdy zostaną zniszczone oddzielnie przechowywane informacje identyfikujące (klucz deszyfrujący, dane osobowe i informacje o technikach stosowanych do pseudonimizacji danych). Jeśli nie można pozbyć się oddzielnie przechowywanych danych osobowych, to można dokonać anonimizacji danych spseudonimizowanych przez zniszczenie klucza deszyfrującego i informacji o procesach pseudonimizacji oraz przez ponowne uporządkowanie danych, np. według nowych, losowych identyfikatorów spraw. Dane są zanonimizowane wtedy, gdy nie można ich już powiązać z pierwotnymi danymi osobowymi przy dołożeniu należytych starań.

Na przykład dane z badań longitudinalnych pozostają możliwe do zidentyfikowania tak długo, jak długo grupa badawcza ma klucz deszyfrujący do danych osobowych uczestników badań. Dane nie staną się zanonimizowane, nawet jeśli klucz deszyfrujący zostanie zakodowany dwukrotnie („podwójne kodowanie”). Kodowanie i podwójne kodowanie, a także ogólnie pseudonimizacja są jednak użytecznymi gwarancjami zapobiegającymi wykorzystaniu identyfikatorów w analizach. Kodowanie i podwójne kodowanie są często stosowane w naukach medycznych.

Minimalizacja, czyli jak zbierać tylko minimalną ilość niezbędnych danych osobowych

Zasadniczo, aby ograniczyć potrzebę późniejszej anonimizacji, należy unikać gromadzenia danych, które są zbędne czy zbyt szczegółowe. O tym, jakie informacje podstawowe o uczestnikach badania są potrzebne i jak bardzo muszą być one szczegółowe, należy pomyśleć już na etapie planowania zbierania danych. Sposób sformułowania pytań może wpłynąć na poziom szczegółowości odpowiedzi. Kontrolowanie zebranych danych jest łatwiejsze w badaniach ilościowych w porównaniu z badaniami jakościowymi ze względu na możliwość stosowania skategoryzowanych wariantów odpowiedzi.

Należy pamiętać, że RODO zabrania zbierania niepotrzebnych danych osobowych. W przypadku szczególnych kategorii danych osobowych planowanie ich zbierania wymaga specjalnej rozwagi.

Poniżej podano kilka wskazówek dotyczących zbiorów danych ilościowych i jakościowych z uwzględnieniem zasady minimalizacji danych.

Zbiory danych ilościowych

  • Nie należy zbierać danych o czymś, co jest wyjątkowe w danej populacji. Przy pozyskiwaniu informacji dotyczących rzadkiego tematu należy je kategoryzować lub generalizować, aby uniknąć unikalnych obserwacji. Do kategoryzowania zmiennych powinno się wykorzystywać istniejące klasyfikacje społeczne.
  • Żeby zminimalizować ilość danych osobowych, należy używać pytań zamkniętych, aby było możliwe kontrolowanie treści odpowiedzi. Jeśli jednak muszą być użyte pytania otwarte, to powinny być sformułowane tak, aby także można było kontrolować uzyskane dane. Nie należy używać pytań otwartych do zbierania informacji podstawowych, takich jak wykształcenie czy zawód. W takim przypadku lepiej podać skategoryzowane alternatywne odpowiedzi do wyboru. Warto rozważyć, czy informacje, które uzyskano za pomocą pytania otwartego, będą przydatne do przyszłych badań, a także zastanowić się nad możliwością ich wykorzystania. Na przykład odpowiedzi otwarte, typu „inne, proszę określić”, często dostarczają unikalnych lub rzadkich informacji, które mogą być wykorzystane do identyfikacji respondentów.
  • Za pomocą skategoryzowanych wariantów można pozyskiwać m.in. następujące informacje: zawód, dochód, status zatrudnienia, poziom wykształcenia, narodowość, liczba dzieci. Wszystkie wartości nie zawsze muszą mieć kategorie – można skategoryzować tylko wartości skrajne (np. liczba dzieci: 0; 1; 2; 3; 4 i powyżej).

Też wolisz profilaktykę niż leczenie?

Zbiory danych jakościowych

  • Jeśli jest to możliwe ze względu na specyfikę danego badania, przed zebraniem danych (np. przed wywiadem) można przypomnieć uczestnikom, że powinni unikać podawania imion, nazwisk, dokładnych dat, nazw miejsc pracy lub szczegółowych informacji dotyczących osób trzecich.
  • Warto się dokładnie zastanowić, jakie informacje podstawowe mają być pozyskane od uczestników badania i jak je zebrać. Informacje podstawowe można zebrać z wykorzystaniem ustrukturyzowanego formularza – jest to dobry sposób na uniknięcie swobodnego przedstawiania się rozmówców, kiedy często podawane są identyfikatory. Przy kategoryzacji informacji podstawowych należy wykorzystać istniejące klasyfikacje społeczne.
  • Podczas gromadzenia danych (np. podczas wywiadu) nie należy zadawać pytań precyzujących, które prawie na pewno dadzą odpowiedzi wymagające zastosowania rygorystycznych środków anonimizacji (nie: „Czy mógłbyś powiedzieć, gdzie pracowali twoi rodzice?”).

Zasady anonimizacji

W międzynarodowej literaturze przedmiotu anonimizacja jest definiowana jako szerokie i ogólne pojęcie obejmujące różne podejścia, takie jak kontrola dostępu i anonimizacja statystyczna. Zgodnie z definicją w RODO kontrola dostępu jest uznawana za zabezpieczenie, ale nie za anonimizację jako taką. Chodzi tutaj o środki anonimizacji, ktore są ukierunkowane na dane i których celem jest usunięcie ze zbioru danych wszystkich informacji mogących umożliwić identyfikację osób.

Nie ma jednej techniki anonimizacji odpowiedniej do wszystkich rodzajów danych. Anonimizacja powinna być zawsze planowana indywidualnie, z uwzględnieniem cech danych, środowiska i użyteczności.

Cechy danych odnoszą się do wieku i wrażliwości danych, liczby osób, których dane dotyczą, jak również tego, jak bardzo szczegółowa jest zawartość danych. Środowisko danych dotyczy kontekstu, w którym dane są wykorzystywane: kto, kiedy i gdzie korzysta z danych oraz jakie zewnętrzne źródła danych są dostępne. Środowisko danych obejmuje również fizyczne przechowywanie danych. Należy rozważyć, w jaki sposób można zrównoważyć zachowanie użyteczności danych z koniecznością przeprowadzenia anonimizacji, tak aby po anonimizacji dane pozostały jak najbardziej użyteczne w badaniach statystycznych lub jakościowych.

Należy dokładnie zaplanować anonimizację oraz udokumentować wszystkie istotne jej techniki i procesy wraz z podaniem uzasadnienia. O anonimizacji należy pomyśleć już w trakcie zbierania danych, ponieważ staranne planowanie znacznie ograniczy zasoby potrzebne do anonimizacji. Badacze powinni wcześniej rozważyć następujące czynniki dotyczące anonimizacji:

  • zapewnienie gromadzenia danych zgodnie z zasadą minimalizacji danych,
  • zadecydowanie, kto planuje i przeprowadza anonimizację oraz w którym momencie.

Planowanie anonimizacji

Plan anonimizacji powinien zawierać opis środków anonimizacji oraz ocenę ryzyka ujawnienia danych osób, których dane dotyczą. Plan anonimizacji funkcjonuje również jako dokumentacja sposobu przetwarzania danych. Informacja ta jest istotna w odniesieniu np. do współpracowników w ramach wspólnego projektu badawczego lub archiwizacji zbioru danych w celu ponownego wykorzystania. RODO wymaga dokumentowania decyzji związanych z przetwarzaniem danych osobowych. Sporządzanie planu anonimizacji można rozpocząć już w trakcie gromadzenia danych.

Plan anonimizacji powinien zawierać następujące informacje: twórca(-cy) planu, osoba(-by) przeprowadzająca(-ce) anonimizację, cechy danych mające wpływ na anonimizację, ocena ryzyka ujawnienia danych osobowych respondentów oraz zastosowane techniki anonimizacji wraz z uzasadnieniem ich zastosowania. Można też zawszeć ocenę możliwości identyfikacji osób w danych po anonimizacji i potrzebę oceny ryzyka rezydualnego w przyszłości.

Pierwszym krokiem w anonimizacji, omówionym w dalszej części artykułu, jest stworzenie wykresu cech danych.

  1. Populacja i dobór próby

Jaka była populacja docelowa badania i jak przeprowadzono dobór próby? Ile osób należących do populacji zostało włączonych do próby? Co wiadomo było wcześniej o populacji (np. dystrybucja płci i wieku)? Czy populacja docelowa posiada rzadką cechę?

Cezary Lutyński

OFERTA PROMOCYJNA

Czas na zewnętrznego
Inspektora Ochrony Danych

Zastanawiasz się, jak profesjonalnie zadbać o zgodność z RODO? Podczas krótkiej rozmowy, poznasz ofertę i otrzymasz rabat

WYBIERZ TERMIN ROZMOWY

Uzyskanie wiedzy na temat badanej populacji jest celem zbierania danych, a metoda doboru próby wskazuje, w jaki sposób jednostki obserwacji są włączane do danych. Planując anonimizację, należy najpierw rozważyć, czy elementy populacji i metoda doboru próby mogą ujawnić wyjątkowe lub unikalne informacje o uczestnikach badania. Populacja może być jasno określona i możliwa do zidentyfikowania z zewnątrz, jak np. radni Warszawy w 2009 roku, lub może być losową grupą niedającą się określić z zewnątrz, jak np. Polacy, którzy doświadczyli molestowania seksualnego. Istotna jest wielkość populacji, ponieważ im mniejsza populacja lub im rzadsze obserwowane zjawisko, tym większa możliwość udanej identyfikacji pojedynczej osoby.

Mając na uwadze specyfikę populacji i dobór próby, należy się zastanowić, jak losową przynależność do tej populacji i fakt bycia wybranym do próby można odnieść do większej skali, np. do populacji danego obszaru.

  • próba populacji ogółem – zaproszenie do udziału w badaniu jest wysyłane do wszystkich osób należących do populacji docelowej, np. do wszystkich rodziców dzieci w wieku poniżej jednego roku życia urodzonych przedwcześnie w Finlandii lub do wszystkich dorosłych mieszkańców określonej gminy. Ponieważ uwzględniane są wszystkie osoby należące do populacji docelowej, można wcześniej ustalić, że dana osoba będzie wzięta pod uwagę w badaniach;
  • próba losowa – do próby wybierana jest tylko część osób należących do populacji, np. co 50 osoba, przez co zmniejsza się prawdopodobieństwo tego, że dane osoby należącej do populacji docelowej znajdą się w zbiorze, niż gdyby była badano populację ogółem;
  • samodobierająca się próba – nie można z góry określić, kto weźmie udział w badaniu, bo uczestnicy przystępują do niego np. poprzez kliknięcie w link w Internecie. Badania z samodobierającą się próbą zwykle są skierowane do osób, które są powiązane z obserwowanym zjawiskiem (np. mają doświadczenia związane z zarządzaniem organizacją lub z usługami zdrowotnymi). Dlatego też charakter tego zjawiska wpływa na to, z jakim prawdopodobieństwem można stwierdzić, że ktoś znajdzie się w badanej grupie.

Niezależnie od badanej populacji lub metody doboru próby zawsze ważne jest sprawdzenie tego, jakie rodzaje bezpośrednich lub pośrednich identyfikatorów zawierają dane, oraz tego, czy istnieją jakieś wyjątkowe lub niepowtarzalne obserwacje.

Należy również zwrócić uwagę na wskaźnik odpowiedzi, ponieważ pokazuje on prawdopodobieństwo uwzględnienia konkretnej osoby w badanej grupie. Jest to szczególnie ważne przy ocenie anonimowości danych całej populacji. Im wyższy wskaźnik odpowiedzi, tym większe prawdopodobieństwo uwzględnienia konkretnej osoby.

Informacje o sposobie gromadzenia danych, tj. kryteria doboru próby i selekcji, nie powinny ujawniać tożsamości uczestników badań. Takie ryzyko jest szczególnie zauważalne, jeśli badacz dobiera uczestników z własnego kręgu społecznego metodą kuli śnieżnej lub z obszaru o małej liczbie mieszkańców.

  1. Zawartość danych

W związku z anonimizacją danych pojawiają się następujące pytania:

  • Jakie rodzaje bezpośrednich i pośrednich identyfikatorów zawierają dane? Jakie kombinacje informacji w zbiorze danych mogą być wykorzystane do identyfikacji osoby?

Należy zestawić informacje, które mogłyby posłużyć do identyfikacji osoby. Identyfikacja może być możliwa na podstawie identyfikatora bezpośredniego albo przez połączenie identyfikatorów pośrednich z innymi identyfikatorami pośrednimi lub z informacjami dostępnymi np. w Internecie. Można nawet spróbować samodzielnie zidentyfikować osoby, których dane dotyczą, i sprawdzić, czy jest to możliwe dzięki połączeniu różnych rodzajów informacji. Należy pamiętać, że identyfikatory mogą pojawić się również w innych miejscach niż poszczególne zmienne danych ilościowych lub informacje podstawowe przekazywane w wywiadzie jakościowym. W zbiorze danych ilościowych identyfikatory można znaleźć we wszystkich odpowiedziach otwartych, a zbiór danych jakościowych może zawierać identyfikatory prawie wszędzie.

Bezpłatna wiedza o RODO - korzystaj do woli!

Pierwszym sposobem anonimizacji jest zazwyczaj usunięcie z danych bezpośrednich i silnych pośrednich identyfikatorów (patrz tabela typów identyfikatorów na końcu artykułu). Jednak usunięcie bezpośrednich i silnych pośrednich identyfikatorów rzadko wystarcza do tego, by dane stały się zanonimizowane. Liczba identyfikatorów pośrednich i poziom ich szczegółowości mają wpływ na wybór anonimizacji. Zmienne, które zawierają informacje o osobach, powinny być zawsze badane we wzajemnych relacjach. Wystarczy połączenie zaledwie kilku zmiennych podstawowych, aby możliwa była identyfikacja osoby. Na przykład połączenie informacji o płci, wieku, miejscu zamieszkania i dochodach może ujawnić tożsamość osób o wysokich dochodach mieszkających w małej gminie.

  • Czy zbiór danych zawiera informacje dotyczące osób trzecich? Czy można zidentyfikować te osoby na podstawie informacji zawartych w zbiorze danych?

Podczas anonimizacji należy uwzględnić pojawiające się w zbiorze danych informacje dotyczące osób trzecich. W niektórych przypadkach tożsamość respondenta można ustalić na podstawie informacji o osobie trzeciej, a w innych przypadkach to tożsamość osoby trzeciej można ustalić na podstawie informacji o respondencie. Dane osób publicznych, o których mówi się na poziomie ogólnym, nie muszą być zanonimizowane. W przypadku gdy nie ma pewności, czy trzeba ukryć nazwisko osoby publicznej wśród innych danych, należy ocenić, czy informacje zawarte w zbiorze danych są powszechnie dostępne i czy ich pozostawienie leży w interesie społecznym.

Przykład

Nigdy nie byliśmy zbyt religijni, mimo że moja ciotka była jedną z pierwszych kobiet, które otrzymały święcenia kapłańskie w Finlandii.

Z jednej strony informacja o tym, że ciotka respondenta była jednym z pierwszych pastorów płci żeńskiej, może zwiększyć ryzyko ujawnienia tożsamości respondenta, ponieważ informacje o pierwszych pastorach płci żeńskiej są powszechnie dostępne. Z drugiej strony pierwsza ordynacja obejmowała 94 pastorów płci żeńskiej, co jest stosunkowo dużą liczbą. To, czy informacja powinna być ukryta, czy nie, zależy od innych informacji podstawowych dotyczących uczestnika badania.

Przykład

Gdy spacerowałem po mieście, często wpadałem na posłankę Satu Hassi i czasem nawet zamieniałem z nią kilka słów.

Nazwisko posłanki można pozostawić w zbiorze danych, jeśli nie zostaną ujawnione informacje, które mają charakter prywatny, a ewentualne ujawnienie nazwy miasta nie zagraża anonimowości respondenta. Na podstawie publicznie dostępnych informacji można ustalić, że miasto, o którym tu mowa, to albo Tampere, które jest miejscem zamieszkania posłanki, albo Helsinki, gdzie pracuje.

  • Czy dane zawierają wyjątkowe lub niepowtarzalne obserwacje?

Wyjątkowość obserwacji opiera się na pojedynczej albo skumulowanej informacji o respondencie. Obserwacja jest wyjątkowa, jeśli częstotliwość jej występowania w populacji jest niewielka. Wyjątkowe informacje muszą zostać zanonimizowane, zwłaszcza jeśli respondent może zostać zidentyfikowany z użyciem informacji z innych źródeł.

O uczestnikach badań uzyskuje się wiele rodzajów zróżnicowanych informacji, takich jak: posiadanie ojczyma, posiadanie psa o imieniu Peppi, chorowanie na depresję, pisanie bloga lub wyczynowe uprawianie sportu. Biorąc pod uwagę informacje uzyskane od uczestników badania, należy ocenić, czy dana informacja jest powszechna, czy też jest wyjątkowa w danej populacji.

RODO.
Wsparcie się przydaje

Sam ustal zakres wspracia, aby zapewnić organizacji pełną zgodność z RODO przy optymalnych kosztach.
ZAMÓW OFERTĘ
Jeśli z populacji Polski zostanie wylosowana próba licząca 2000 respondentów, to obserwacje dotyczące posiadania ojczyma lub chorowania na depresję nie będą wyjątkowe w odniesieniu do populacji docelowej, tj. całej fińskiej populacji. Bardziej wyjątkowe jest posiadanie psa o imieniu Peppi, wyczynowe uprawianie sportu oraz prowadzenie bloga. W zależności od innych dostępnych informacji na temat badanych osób może zaistnieć konieczność zanonimizowania wspomnianych obserwacji. Jeśli populacja jest jasno określoną grupą osób, jak np. uczniowie małej szkoły podstawowej, to obserwacje dotyczące posiadania ojczyma, nie mówiąc już o prowadzeniu bloga czy posiadaniu psa o imieniu Peppi, z dużym prawdopodobieństwem pozwolą na identyfikację osoby.

Chorowanie na depresję jest przykładem obserwacji, która zwykle nie wymaga anonimizacji, ponieważ jest z natury niewidoczna. Innymi słowy, niekoniecznie fakt, że ktoś choruje na depresję, jest zauważalny dla osób postronnych (takimi informacjami zwykle dzielą się tylko osoby sobie najbliższe). Obserwacja dotycząca depresji może jednak umożliwić identyfikację osoby, jeśli zostanie ona o to zapytana np. w ankiecie w miejscu pracy, a jednocześnie będzie wiadomo, że przebywała przez długi czas na zwolnieniu lekarskim.

Tak więc informacje wyjątkowe nie stwarzają automatycznie ryzyka ujawnienia danej osoby, ponieważ nie zawsze są one publicznie dostępne

Przykład

Zbiór danych na poziomie populacji ujawnia, że jeden respondent cierpi na spektrofobię, czyli uporczywy lęk przed lustrami. Obserwacja jest wyjątkowa, ale niekoniecznie umożliwiająca identyfikację. Powiązanie jej z konkretną osobą jest trudne, ponieważ informacje o osobach cierpiących na spektrofobię nie są publicznie dostępne.

Wyjątkowe informacje w badaniach na poziomie populacji mogą dotyczyć np. Rzadkiego zawodu lub specjalistycznego stanowiska w organizacji. Do informacji wyjątkowych można zaliczyć również informacje o posiadaniu wysokich dochodów lub dużego majątku, stwierdzonych chorobach, rywalizowaniu w konkretnej dyscyplinie sportowej, uprawianiu niezwykłego hobby czy udziale w wydarzeniu, które znalazło się w mediach.

W przypadku danych na poziomie populacji anonimowość można skutecznie zwiększyć dzięki generalizowaniu informacji dotyczących miejsca zamieszkania. Na przykład „golf” jako odpowiedź na pytanie o posiadane hobby nie jest wyjątkową obserwacją na poziomie populacji. Jednak w odniesieniu do osoby grającej w golfa, która mieszka w województwie mazowieckim i pracuje jako dyrektor szkoły, będzie to z dużym prawdopodobieństwem wyjątkowa obserwacja. Możliwe, że w tym regionie w golfa gra tylko kilku dyrektorów. O swoim hobby, czyli o golfie, osoba ta mogła też wspomnieć w wywiadzie dla lokalnej gazety.

W niektórych przypadkach obserwowane zjawisko jest samo w sobie wyjątkowe, dlatego trzeba zapewnić wystarczającą liczebność populacji docelowej, z której wybiera się próbę. Na przykład przy badaniu zawodowych sportowców rywalizujących w sportach zimowych zasięg regionalny tego badania ma znaczenie dla anonimowości. Trzeba pamiętać, że liczba sportowców jest różna w poszczególnych gminach, regionach, a nawet krajach. Jeśli chodzi o wyjątkowe zjawiska, to im większy region geograficzny badania, tym bardziej anonimowe dane.

W praktyce wartości, które każdy z respondentów podaje w badaniu ilościowym, jak również zbiory danych jakościowych mogą tworzyć unikalne zestawy informacji, które nie istnieją nigdzie indziej na świecie. Jeśli informacje były dostępne z zewnątrz, to można było zidentyfikować osoby. W badaniach sondażowych trudno jest jednak tworzyć powiązania między osobami a ich opiniami i postawami, ponieważ respondenci często zapominają o udzielanych odpowiedziach. Ponadto gdy ludzie opisują w wywiadzie jakieś wydarzenie z przeszłości, np. sprzed roku, to mogą tę historię odtworzyć zupełnie inaczej. Istotna jest więc ocena, czy możliwa jest identyfikacja osoby przez powiązanie różnych rodzajów informacji w ramach zbioru danych lub powiązanie danych z informacjami dostępnymi w innych źródłach.

  • Czy informacje zawarte w zbiorze danych są wrażliwe?

Informacje w zbiorze danych są wrażliwe, jeżeli zawierają określone w przepisach o ochronie danych osobowych kategorie danych osobowych dotyczących pochodzenia rasowego lub etnicznego, poglądów politycznych, przekonań religijnych lub światopoglądowych, przynależności do związków zawodowych, zdrowia, życia seksualnego lub orientacji seksualnej, danych genetycznych lub biometrycznych, służących do identyfikacji osoby fizycznej. Inne informacje również mogą być wrażliwe ze względu na swój charakter. Wrażliwość zbieranych informacji można ocenić np. dzięki rozważeniu, czy dane zjawisko stanowi tabu lub jak bardzo ujawnienie informacji mogłoby skutkować szkodą dla osoby, organizacji lub innej jednostki obserwacji.

Przykłady innych rodzajów informacji wrażliwych to opisy zdarzeń kryminalnych (np. dotyczących przemocy domowej), szczegółowe opisy życia prywatnego osób trzecich lub tajemnice handlowe.

  1. Wiek zbioru danych

Wiek zbioru danych ma wpływ na potrzebę zanonimizowania danych. Im starsze dane, tym trudniej jest zidentyfikować poszczególne osoby, ponieważ informacje zmieniają się w czasie.

E-learning RODO to już standrad!

  1. Informacje dostępne w innych źródłach

W celu zapewnienia skutecznej anonimizacji informacje zawarte w zbiorze danych powinny być rozpatrywane łącznie z informacjami dostępnymi w innych źródłach. Dane muszą być przetwarzane w taki sposób, aby nie można było zidentyfikować żadnej osoby nawet przy wykorzystaniu informacji uzyskanych z innych źródeł.

Informacje w zbiorze danych powinny być rozpatrywane w odniesieniu do czterech różnych typów informacji:

  1. informacje i dane badawcze dotyczące tej samej populacji docelowej dostępne w innym miejscu,
  2. informacje dostępne publicznie (np. rejestry publiczne, media społecznościowe),
  3. wiedza lokalna (jak wyglądają miejsca zamieszkania i co dzieje się w okolicy),
  4. informacje osobiste o innych osobach (co wiem np. o moich sąsiadach).

Im bardziej prawdopodobne jest, że informacje są powszechnie znane lub dostępne gdzie indziej, tym bardziej kontrolowane muszą być informacje zawarte w zbiorach danych. Poniżej przedstawiono przykłady różnych zbiorów danych i źródeł informacji, które można z nimi powiązać w celu identyfikacji respondentów.

  1. Dane pozwalające na badanie ścieżek kariery Finów. Zewnętrzne informacje o karierze zawodowej Finów są dostępne w Internecie, np. na LinkedIn, w serwisach społecznościowych, takich jak Facebook, oraz na stronach internetowych organizacji.
  2. Dane badające wzorce odżywiania Finów. Informacje zewnętrzne nie są łatwo dostępne, chociaż badanie tego, co jada dana osoba, może dostarczyć dość szczegółowych informacji o jej codziennym życiu. Istotną rzeczą do przemyślenia jest to, w jaki sposób możliwe byłoby uzyskanie informacji dotyczących wzorców odżywiania się różnych osób.
  3. Dane badające relacje sąsiedzkie wśród Finów i mieszkańców Tanzanii. Należy zastanowić się nad różnicami kulturowymi między Finlandią a Tanzanią. Do jakiego stopnia ludzie zapoznają się ze swoimi sąsiadami? Interakcje Finów z sąsiadami mogą być wręcz minimalne, natomiast w Tanzanii – bardziej aktywne. Zatem anonimizacja danych dotyczących Tanzańczyków wymagałaby prawdopodobnie większego wysiłku niż anonimizacja danych dotyczących Finów.

Jeżeli na podstawie danych zostały już opublikowane raporty lub publikacje, należy rozważyć, jak szczegółowe są informacje o danych, które zostały podane w tych źródłach.

Przykład

Na potrzeby analiz wielopoziomowych w przypadku jednego zbioru danych ilościowych badacze zdecydowali się na anonimizację zmiennej oznaczającej gminę zamieszkania w ten sposób, że w zbiorze danych usunęli nazwy gmin, a pozostawili wartość wskazującą na liczbę mieszkańców (1; 2; 3…). Potem zauważyli, że w publikacji wydanej wcześniej na podstawie tych samych danych podano liczbę respondentów z różnych gmin. Zatem anonimizacja nie powiodła się, ponieważ nazwy gmin mogły zostać zdeanonimizowane na podstawie liczby respondentów dla każdej z wartości.

Podsumowując, niebagatelne znaczenie w anonimizacji mają informacje pozyskane z zewnętrznych źródeł. Latanya Sweeney (2000) odkryła w swoich badaniach, że 87% Amerykanów może być jednoznacznie zidentyfikowanych na podstawie daty urodzenia, płci i 5-cyfrowego kodu ZIP, który pojawia się na listach rejestracji wyborców, zawierających osobiste informacje o osobach, które głosowały, a także informacje wskazujące na region, z którego te osoby pochodzą. Podobnie ponad połowa populacji USA (53%) może być jednoznacznie identyfikowana na podstawie płci, daty urodzenia i miejsca zamieszkania, tj. miasta, miejscowości lub gminy.

  1. Użyteczność a anonimowość

Anonimizacja zawsze zmniejsza ilość informacji w zbiorze danych. Stopień anonimizacji wpływa na użyteczność zbioru danych i dokładność wyników. W idealnej sytuacji wprowadza się do danych tylko możliwie małe zmiany, unikając edycji zmiennych, które są najbardziej istotne dla badań.

Diagnoza zgodności RODO.
Zrób to sam

Wykorzystaj elastyczne narzędzie do inwentaryzacji, audytu, przeprowadzenia DPIA oraz analizy ryzyka.
POZNAJ DR RODO
Skuteczna anonimizacja wymaga od osoby przetwarzającej dane rozpoznania, które informacje są istotne dla obecnych i przyszłych badań, a które mają mniejsze znaczenie. Całkowite usunięcie wartości z identyfikatorami powinno być przeprowadzone tylko w przypadku mniej istotnych informacji. Czasami usunięcie zmiennych o charakterze otwartym ze zbioru danych ilościowych drastycznie zmniejsza ilość wyjątkowych lub unikalnych informacji w zbiorze danych. Zmienne numeryczne lub kategoryczne są zazwyczaj łatwiejsze do przetworzenia i wykorzystania w badaniach ilościowych niż odpowiedzi otwarte. Istotne zmienne, takie jak wiek, często muszą być edytowane, aby zapewnić anonimowość.

Jeśli w zbiorze danych mają pozostać informacje dotyczące miejsca zamieszkania, to inne informacje podstawowe muszą zostać zanonimizowane. Oznacza to, że takie dane jak zawód, miejsce pracy, wykształcenie, wiek itp. mogą wymagać generalizacji do poziomu uniemożliwiającego identyfikację. Jeśli istotne jest pozostawienie informacji dotyczących zawodu i wieku badanego, informacje dotyczące miejsca zamieszkania powinny pozostać na wyższym stopniu ogólności (zamiast nazwy gminy można wskazać główny region i/lub rodzaj gminy).

Ocena odporności anonimizacji

Anonimizacja nie jest nauką ścisłą, więc określenie wystarczającego poziomu anonimizacji może czasem okazać się problematyczne. Można jednak wykorzystać poniższe pytania do oceny, czy wybrana technika anonimizacji pozwala na uzyskanie rzetelnego wyniku. Jeśli odpowiedź na dwa pierwsze pytania jest negatywna i istnieje bardzo mała szansa na wnioskowanie, to anonimowość danych jest prawidłowa.

  1. Wyodrębnienie konkretnej osoby fizycznej: Czy po anonimizacji nadal możliwe jest wyodrębnienie jakiejkolwiek konkretnej osoby fizycznej ze zbioru danych?
  2. Możliwość tworzenia powiązań: Czy możliwe jest powiązanie zapisów dotyczących konkretnej osoby fizycznej z innym zbiorem danych lub informacjami ze źródeł zewnętrznych i zidentyfikowanie tej osoby w ten sposób?
  3. Wnioskowanie: Czy można wywnioskować, że pewne informacje dotyczą konkretnej osoby fizycznej? Czy można wnioskować o pierwotnych wartościach zmienionych lub usuniętych?
Uwaga

Ze względu na stale rosnący zakres publicznie dostępnych informacji ważne jest, aby regularnie oceniać, czy raz zanonimizowany zbiór danych nadal taki pozostaje (ocena ryzyka rezydualnego).

Anonimizacja danych ilościowych

Poniżej przedstawiono praktyczne wskazówki dotyczące anonimizacji danych ilościowych:

  1. Wykorzystaj składnię polecenia w swoim oprogramowaniu statystycznym do anonimizacji danych.
  2. Dokonaj anonimizacji zmiennych numerycznych i kategorycznych, a następnie zmiennych o charakterze otwartym. Strategia anonimizacji zmiennych numerycznych będzie często taka sama także dla zmiennych o charakterze otwartym.
  3. Zaznacz anonimizację w zmiennych otwartych za pomocą nawiasów kwadratowych.
  4. Utrzymuj jak największą konsekwencję w anonimizowaniu serii danych, aby ułatwić badania porównawcze.
  5. Po zakończonej anonimizacji usuń oryginalne pliki z danymi, jak również wszelkie informacje dotyczące anonimizacji, odpowiedzi otwartych w składni polecenia lub innych plikach, które ujawniłyby pierwotne informacje.
  6. Zweryfikuj materiały podstawowe pod kątem danych osobowych – mogą one zawierać identyfikatory, które muszą zostać usunięte lub zanonimizowane (informacje kontaktowe uczestników badań, dane podane w kwestionariuszach papierowych itp.).

Anonimizując dane ilościowe, chcemy wyeliminować wyjątkowe obserwacje, które mogą zwiększyć ryzyko ujawnienia. Dlatego zaleca się zbadanie związku między rzadkimi lub unikalnymi obserwacjami a identyfikatorami pośrednimi. Zwykle badacz powinien skontrolować wszystkie zmienne zawierające identyfikatory pośrednie lub, w idealnym przypadku, wszystkie zmienne w danych. Można szukać rzadkich lub unikalnych zapisów, np. badając kategorie i dystrybucję częstotliwości zmiennych z pośrednimi identyfikatorami. Zmienne tabulowane krzyżowo mogą być również przydatne w poszukiwaniu wyjątkowych zapisów i rekordów. Jeśli w danych występują zmienne ciągłe, warto je przekodować na zmienne kategoryczne w celu oceny ryzyka ujawnienia. Do zmiennych ciągłych zaliczamy np. wiek czy dochód, gdy na kontinuum mogą przybrać dowolną realną wartość.

Przy tabulowaniu krzyżowym zmiennych warto pamiętać, że kategorie z niewielką liczbą obserwacji nie zawsze muszą stanowić informacje identyfikujące. Przykładowo jeśli badanie jest przeprowadzane w pięciu szkołach o mniej więcej tej samej liczbie uczniów, a tylko czterech uczniów z jednej ze szkół udzieli odpowiedzi, to te cztery obserwacje nie stanowią automatycznie informacji identyfikującej tylko ze względu na niewielką częstotliwość. Wynika to z faktu, że potencjalna liczba respondentów była równie duża jak w pozostałych szkołach. Sytuacja byłaby inna, gdyby ta szkoła miała znacznie mniej uczniów niż pozostałe.

Techniki anonimizacji

Techniki anonimizacji danych ilościowych można podzielić na dwie kategorie: uogólnianie i randomizację. Gdy dane są uogólniane, informacje są nieodwracalnie usuwane lub atrybuty osób, których dane dotyczą, są osłabiane przez (ponowną) kategoryzację lub generalizację wartości, tj. modyfikację ich skali lub rzędu wielkości. Techniki randomizacji są stosowane w celu dodania zakłóceń do danych, aby zwiększyć niepewność obserwacji. Skuteczna anonimizacja wymaga zwykle zastosowania kilku technik anonimizacji, a także wyważenia anonimowości danych i ich użyteczności.

Kiedy ostatnio robiłeś analizę ryzyka?

Wszystkie techniki anonimizacji mają swoje zalety i ograniczenia, dlatego należy zapoznać się z ich wpływem na jakość i użyteczność danych. Kategoryzacja zmiennych umożliwia zatrzymanie informacji w zbiorze danych i wykorzystanie ich za pomocą określonych metod badawczych. Kategoryzacja zmniejsza użyteczność danych, ale tylko nieznacznie. W kontekście anonimowości problematyczne jest natomiast to, że podmiot po przekodowaniu nadal może być powiązany z konkretną kategorią. Ponadto kategoryzacja wszystkich wartości zmiennej może utrudnić określenie zależności między zmiennymi i uniemożliwić zastosowanie niektórych technik analizy danych przeznaczonych dla zmiennych ciągłych.

Randomizacja może być przydatna, gdy w danych jest stosunkowo niewiele rzadkich obserwacji (poniżej jednego procenta). Przed zastosowaniem randomizacji należy jednak dokładnie ocenić wpływ konkretnej techniki na jakość danych. Może ona bowiem mieć istotny wpływ np. na dystrybucję częstotliwości zmiennych oraz analizy korelacji i przyczynowości. Te z kolei wpływają na wyniki badań. Chociaż niektórzy badacze uważają, że różne techniki randomizacji zakłócają dane, to są one często przydatne w anonimizacji.

W kolejnych punktach przedstawiono najczęściej spotykane techniki uogólniania i randomizacji. Techniki uogólniania obejmują wykluczenie, kategoryzację i genetalizację informacji, wykorzystanie próbek zamiast całych danych oraz k-anonimizację i l-dywersyfikację. Techniki randomizacji zaciemniają dokładne wartości zmiennych przez mnożenie i permutację.

Techniki uogólniania i randomizacji:

  1. usuwanie zmiennych, wartości i jednostek obserwacji,
  2. przekodowanie wartości zmiennej,
  3. edytowanie odpowiedzi w zmiennych otwartych,
  4. k-anonimizacja i l-dywersyfikacja,
  5. dodanie zakłóceń,
  6. permutacja.
  1. Usuwanie zmiennych, wartości i jednostek obserwacji

W przypadku identyfikatorów bezpośrednich lub pośrednich usunięcie zmiennej jest najprostszym i najbardziej oczywistym sposobem zmniejszenia ryzyka identyfikacji. Oczywiście zmienne zawierające identyfikatory pośrednie również można w razie potrzeby usunąć. Na przykład jeśli młodzi uczestnicy badania dotyczącego zgłaszanych przez nich przestępstw są pytani o to, do jakiej szkoły uczęszczają, zmienna ta może stanowić ryzyko ujawnienia w przypadku, gdy zostanie połączona z innymi zmiennymi podstawowymi. Wówczas należy usunąć zmienną „szkoła”.

Czasami konieczne jest również usunięcie zmiennych o charakterze otwartym, aby zapobiec ujawnieniu. Częstą praktyką jest to, że informacje w zmiennej otwartej są dostępne w danych w innej skategoryzowanej zmiennej. Na przykład jeśli istnieje zmienna skategoryzowana dotycząca rodzaju instytucji edukacyjnej, usuwana jest zmienna otwarta zestawiająca nazwy instytucji edukacyjnych uczestników. Jeśli dokładne informacje w zmiennej otwartej są kluczowe dla badań, jednym z możliwych rozwiązań jest odłączenie zmiennej od danych, czyli przeniesienie jej do osobnego pliku. Następnie można mniej dokładnie określić zmienne podstawowe potrzebne do analizy i wtedy dołączyć je do pliku. Jeśli powiązanie zawartości zmiennej otwartej z danymi pierwotnymi stanowi ryzyko ujawnienia, należy zredagować i zorganizować oddzielny plik w sposób uniemożliwiający powiązanie.

Usuwanie poszczególnych wartości z zapisów zawierających identyfikatory pośrednie może być uzasadnione, jeżeli wartość stwarza ryzyko ujawnienia, tzn. jest wyjątkowa lub rzadka. Taką wartością może być np. wyjątkowo wysoki dochód lub rzadki zawód, jak minister (członek rządu). Podczas usuwania poszczególnych wartości należy rozważyć, czy usunięte informacje mogą zostać wywnioskowane przez potencjalnych atakujących. Na przykład dane pochodzące z badania populacji całkowitej zebrane w zakładzie pracy X zawierają nazwy stanowisk wszystkich pracowników, ale jedno stanowisko zajmują tylko dwie osoby. Przekodowanie tej wartości jako brakujących danych nie byłoby dobrym rozwiązaniem w zakresie anonimizacji, ponieważ stosunkowo łatwo jest ustalić oryginalną nazwę stanowiska. Zamiast usuwania wartości lepszym rozwiązaniem byłaby generalizacja nazw stanowisk lub połączenie niektórych kategorii.

Cały podmiot danych (dane dotyczące osoby fizycznej, respondenta) może zostać usunięty, jeżeli nie jest możliwe usunięcie w inny sposób informacji identyfikujących osobę fizyczną. W niektórych sytuacjach jest to lepsze rozwiązanie niż stosowanie technik ograniczających na wszystkich danych tylko w celu depersonalizacji jednego podmiotu danych.

  1. Przekodowanie wartości zmiennej

Przekodowanie wartości zmiennej jest lepszym rozwiązaniem niż zwykłe usunięcie zmiennej. Na przykład zamiast uwzględniać nazwy szkół, można przekodować zmienną „szkoła” na szersze kategorie, takie jak „gimnazjum”, „szkoła średnia”, „szkoła zawodowa” itp. Można również kategoryzować identyfikatory, takie jak dokładny wiek, gmina zamieszkania i zawód. Przykładowo można zapisywać rok urodzenia zamiast dnia, miesiąca i roku lub przekodować tę informację na kategorie zawierające grupy wiekowe o rozpiętości od 3 do 5 lat.

Zmienne zawierające szczegółowe informacje geograficzne, takie jak kody pocztowe, mogą być agregowane ze zmiennych pięciocyfrowych na dwu- lub trzycyfrowe. Zmienna określająca gminę zamieszkania respondenta może być zagregowana na dwie różne zmienne: region/województwo i typ gminy (miejska, półmiejska, wiejska itp.). Jest to sposób na zminimalizowanie ryzyka identyfikacji bez utraty ogólnych informacji istotnych dla badań. W kategoryzacji zmiennych pomocne są klasyfikacje społeczne i regionalne sporządzone przez Statistics Finland.

Jednym ze sposobów zmniejszenia ryzyka ujawnienia jest ograniczenie górnego i dolnego zakresu zmiennej ciągłej, aby wykluczyć wartości odstające. Ta technika anonimizacji jest zwykle stosowana w przypadku zmiennych dotyczących dochodów. Najwyższe dochody mogą być kodowane od góry, czyli zakodowane do nowej kategorii (np. „60 000 euro lub więcej”), natomiast pozostałe odpowiedzi dotyczące dochodów są zachowane jako wartości rzeczywiste. W ten sam sposób najmniejsze obserwowane wartości mogą być kodowane od dołu.

Pracodawca, rekruter, kandydat.
RODO w HR.

Szkolenie RODO w HR rozwiewa wszystkie wątpliwości w zakresie ochrony danych kadrowych.
SPRAWDŹ TERMINY
Kategoryzacja lub generalizowanie zmiennych może znacznie zmniejszyć możliwość wyciągania wniosków statystycznych. Dobrym sposobem na zachowanie równowagi między użytecznością danych a ryzykiem ujawnienia jest uznaniowe przekodowanie niektórych wartości zmiennej na szersze kategorie. Jeśli dystrybucja częstotliwości mieści się w przedziale od 1 do 20, a większość przypadków mieści się w wartościach 1–12, dobrym pomysłem może być pozostawienie bez zmian wartości poniżej 10 i połączenie wyższych wartości w szersze kategorie, takie jak 13–15 i 16–20. Należy jednak zwrócić uwagę na wpływ tej techniki na średnią zmiennej, a także na korelacje między różnymi zmiennymi.

Zmienne kategoryczne muszą zostać zanonimizowane, jeżeli jedna kategoria lub więcej kategorii stanowi ryzyko identyfikacji osoby fizycznej. Kategoria możliwa do zidentyfikowania jest łączona z inną kategorią lub wieloma kategoriami. Aby ułatwić wykorzystanie kategorii w analizach, należy w miarę możliwości dokonać kategoryzacji według jakiegoś czynnika łączącego. Na przykład jeżeli kategoria oznaczona jako „związek partnerski” wymaga anonimizacji w zmiennej określającej stan cywilny, należy ją połączyć z kategorią „małżeństwo”, ponieważ kategorie „związek partnerski” i „małżeństwo” są bardziej podobne i bardziej przydatne w analizach, niż gdyby „związek partnerski” został skategoryzowany razem z kategoriami „wdowa (wdowiec)” lub „kawaler, który nigdy nie był żonaty”. Dopuszczalne jest również przekodowanie kategorii możliwych do zidentyfikowania jako „brak”, ale powinno się to robić tylko wtedy, gdy zmienna ma już wystarczająco dużo brakujących obserwacji, aby uniknąć możliwości wydedukowania przekodowania kategorii.

Innym sposobem na usunięcie identyfikatorów jest kategoryzacja odpowiedzi otwartych. Technika ta dobrze funkcjonuje w przypadku pytań otwartych zbierających informacje podstawowe, takie jak miejsce zamieszkania, wykształcenie, instytucja edukacyjna, miejsce pracy itp. Przykładowo ankieta przeprowadzona wśród lekarzy może zawierać otwarte pytanie dotyczące specjalizacji. W połączeniu z innymi zmiennymi podstawowymi zmienna ta może prowadzić do identyfikacji lekarzy specjalizujących się w więcej niż jednej dziedzinie. Jednym z rozwiązań jest zakodowanie zmiennej otwartej tak, aby miała szerszą kategorię: „dwie dziedziny specjalizacji lub więcej”.

Można również zmienić odpowiedzi otwarte na zmienną dychotomiczną („odpowiedział – nie odpowiedział”), jeżeli mogłyby one prowadzić do ryzyka ujawnienia w powiązaniu z innymi zmiennymi podstawowymi. Jest to wygodne w przypadku zmiennych głównie ilościowych, gdy większość odpowiedzi została sklasyfikowana, a osobna kategoria otwarta: „inne, proszę określić” – utworzona dla odpowiedzi, które nie należą do żadnej z wyróżnionych klas. Na przykład aby się dowiedzieć, jaki jest język ojczysty uczestnika, mogą być użyte opcje odpowiedzi: 1) fiński; 2) szwedzki; 3) inny, proszę określić.

Przykład

Przy pytaniu o wyznanie w badaniu sformułowano następujące odpowiedzi: 1) ewangelicko-luterańskie; 2) prawosławne; 3) inne, proszę określić. Otwarte odpowiedzi udzielone w przypadku wyboru ostatniej opcji mogą stanowić ryzyko identyfikacji w powiązaniu z innymi zmiennymi podstawowymi. Dobrym rozwiązaniem jest usunięcie odpowiedzi otwartych i pozostawienie jedynie informacji o tym, czy respondent wybrał tę opcję, czy nie.

  1. Edytowanie odpowiedzi w zmiennych otwartych

Odpowiedzi na pytania otwarte respondenci formułują własnymi słowami, dlatego czasami zawierają one identyfikatory, które mogą odnosić się do samych respondentów lub do osób trzecich. Informacje zawarte w odpowiedziach otwartych nie ulegają zdecydowanemu pogorszeniu w przypadku usunięcia identyfikatorów (imion, numerów telefonów, adresów e-mail itp.). Jeśli chodzi o inne potencjalnie identyfikujące informacje w zmiennych otwartych, ryzyko ujawnienia należy oceniać indywidualnie, biorąc pod uwagę temat badania i dostępne zmienne podstawowe.

Zanonimizowane nazwiska, słowa i fragmenty w zbiorze danych można oznaczyć nawiasami kwadratowymi. Terminy pierwotne mogą być zastąpione bardziej ogólnymi terminami w nawiasach kwadratowych lub po prostu oznaczone jako [usunięto identyfikator]. Przy anonimizacji odpowiedzi otwartych należy rozważyć, czy pierwotna wartość zanonimizowanych informacji może być łatwo ustalona ze względu na ich wyjątkowy charakter.

Przykład

W ankiecie zebranej od wszystkich nauczycieli w Anytown Elementary jedna nauczycielka wskazała, że pracuje w jedynym w szkole oddziale specjalnym o nazwie Appletree, który zatrudnia tylko trzech pracowników. Ponieważ w oddziale jest bardzo mało nauczycieli, informacja ta ma charakter identyfikacyjny, dlatego powinna zostać usunięta, np. w taki sposób: [identyfikator usunięty]. Samo zanonimizowanie danych o oddziale specjalnym w następujący sposób: [oddział specjalny Y z Anytown Elementary usunięty], nie jest wystarczające. Wynika to z faktu, że łatwo można wywnioskować, jaki to jest oddział specjalny, ze względu na jego unikalność. Wszystkie dodatkowe informacje w odpowiedziach otwartych ujawniające, że nauczycielka pracuje w oddziale specjalnym, również powinny zostać usunięte.

Dalsze wskazówki dotyczące anonimizacji zmiennych o charakterze otwartym znajdują się w części „Anonimizacja danych jakościowych’.

  1. K-anonimizacja i l-dywersyfikacja

Istnieją statystyczne metody anonimizacji służące do oceny ryzyka ujawnienia, które pomagają badaczowi uzyskać szerszą perspektywę przy zapewnianiu anonimowości zebranych danych i uzasadnić podjęte decyzje. Jednymi z najbardziej znanych są k-anonimizacja i l-dywersyfikacja. Mogą być one stosowane np. wtedy, gdy dane są zbierane z kompletnej populacji i istnieją atrybuty, które umożliwiają pośrednią identyfikację osób lub skupisk osób. Do takich danych należą chociażby dane pacjentów. K-anonimizacja i l-dywersyfikacja mogą być stosowane także w celu zapewnienia skutecznej anonimizacji po zastosowaniu innych technik anonimizacji. W sieci dostępne są darmowe narzędzia do anonimizacji, takie jak ARX i µ-ARGUS.

K-anonimizacja jest próbą połączenia najlepszych statystycznych podejść do anonimizacji. Ma na celu uniemożliwienie identyfikacji podmiotu danych przez utworzenie grupy co najmniej k zapisów o tych samych atrybutach. Innymi słowy, w każdej wartości zmiennej powinno być co najmniej k zapisów. Na przykład gdy zbiór danych zawiera informacje dotyczące jednego mężczyzny w wieku ponad stu lat z Tampere, powinny one zostać zgrupowane z innymi danymi, aby nie wskazywały na jedyną osobę posiadającą te cechy. Jeśli zbiór danych zawiera informacje o innych mężczyznach w wieku powyżej 90 lat z Tampere, to dane dotyczące stulatka mogłyby być wśród nich zgrupowane. Nie ma dokładnej wartości dla k i należy ją ustalać indywidualnie. Czasami k dwóch jednostek danych może być wystarczające, ale preferowane są co najmniej trzy. Niektórzy naukowcy twierdzą, że k powinno zawierać od 5 do10 danych.

Praca dobryymi narzędziami RODO - to nie praca!

Problem z k-anonimizacją polega na tym, że nie zapobiega ona możliwości wywnioskowania przez atakującego, o jaki wrażliwy atrybut chodzi, jeśli wszystkim osobom z k-anonimizowanej grupy jest przypisana ta sama wartość atrybutu. Oznacza to, że k-anonimizacja zapobiega ujawnieniu tożsamości, ale nie zapobiega ujawnieniu atrybutów – i wtedy przydatna staje się l-dywersyfikacja. L-dywersyfikacja zapewnia istnienie w grupie podmiotów danych o identycznych atrybutach co najmniej l wartości dla wrażliwego atrybutu. Innymi słowy, między wartościami powinna być wystarczająca zmienność, aby atakujący nie mógł wywnioskować, jaki rodzaj wrażliwych informacji zawiera dana wartość. Należy zauważyć, że l-dywersyfikacja sama z siebie nie jest techniką dezidentyfikacji, ale zapobiega możliwości odkrywania tego, jakie wrażliwe informacje dotyczą danej osoby, jeśli zostanie ona ponownie zidentyfikowana.

Przykład l-dywersyfikacji:

Dane zebrane od wszystkich pacjentów stacjonarnych kliniki zaburzeń odżywiania zawierają wrażliwe informacje o tym, czy respondent próbował popełnić samobójstwo w ciągu ostatnich dwóch lat (tak/nie). Respondenci są k-anonimizowani na grupy co najmniej trzech osób pod względem pewnych atrybutów pośrednio identyfikujących (grupa wiekowa, płeć, miejscowość zamieszkania). Technika ta nazywana jest czasem 3-anonimowością. Po zanalizowaniu wrażliwych informacji dotyczących prób samobójczych staje się jasne, że wszyscy respondenci płci męskiej w wieku od 25 do 34 lat z Tampere próbowali popełnić samobójstwo w ciągu ostatnich dwóch lat. Dlatego jeśli atakujący zna tożsamość jakiegokolwiek mężczyzny w wieku od 25 do 34 lat z Tampere, który był pacjentem kliniki podczas badania, będzie dla niego od razu oczywiste, że osoba ta próbowała popełnić samobójstwo. Aby osiągnąć l-dywersyfikację (np. l = 2), w grupie powinny znaleźć się zarówno osoby, które próbowały popełnić samobójstwo, jak i te, które tego nie zrobiły. W grupie l-zdywersyfikowanej automatyczne określenie próby samobójczej na podstawie grupy nie jest możliwe. Termin 2-dywersyfikacja jest czasem używany w sytuacji opisanej powyżej, gdy atrybut wrażliwy ma dwie odrębne wartości. Ponieważ w przykładzie nie osiągnięto l-dywersyfikacji, jedną z opcji byłoby generalizowanie zmiennych podstawowych (np. zamiast „gmina zamieszkania” – „region zamieszkania”).

Z kolei t-bliskość można wykorzystać, gdy ważne jest to, aby dane były jak najbardziej zbliżone do oryginału. T-bliskość jest osiągnięta wtedy, gdy w każdej klasie równoważności jest co najmniej l różnych wartości, a każda wartość jest reprezentowana tyle razy, ile trzeba, aby odzwierciedlić początkową dystrybucję każdego atrybutu.

  1. Dodanie zakłóceń

Dodawanie zakłóceń odnosi się do modyfikowania atrybutów w danych w taki sposób, aby były mniej dokładne, w celu zwiększenia niepewności co do dokładnych wartości obserwacji. Zakłócenia mogą być dodawane na różne sposoby. Na przykład wartości atrybutu „wiek” mogą być wyrażone z dokładnością do +/-2 lat. Obserwator danych założy, że wartości są dokładne, choć są takie tylko do pewnego stopnia. Zakłócenie można również dodać dzięki pomnożeniu pierwotnych wartości przez liczbę losową lub dzięki przekształceniu skategoryzowanych wartości w inne wartości na podstawie wcześniej ustalonych prawdopodobieństw. Przykładem tego ostatniego działania byłoby przekształcenie informacji zebranych od 15% mieszkańców Karelii Północnej w dane o mieszkańcach regionu Kainuu. Dodatkowo możliwe do zidentyfikowania wartości zmiennych ciągłych mogą być zagregowane w średnie grupowe. Należy jednak zadbać o to, aby każda grupa otrzymała wystarczającą liczbę obserwacji. Na przykład dokładne koszty leków dla pacjentów z chorobami rzadkimi można zastąpić średnimi kosztami leków dla pacjentów z tymi chorobami.

  1. Permutacja

Permutacja odnosi się do zamiany wartości zmiennych zawierających identyfikatory pośrednie z jednego zapisu na drugi. W wyniku zamiany wartości między podmiotami danych wariancja i dystrybucja zmiennej nie ulegną zmianie, ale utracone zostaną korelacje między zmienną a wartościami innych zmiennych dla danej osoby. W związku z tym permutacja powinna być stosowana tylko w przypadku zmiennych, które nie są silnie ze sobą powiązane. Permutacja nie daje silnej gwarancji, jeśli dwa atrybuty lub więcej mają związek logiczny i są permutowane niezależnie. Wynika to z tego, że atakujący może być w stanie określić permutowane atrybuty i odwrócić permutację. Na przykład gdy dwa atrybuty, takie jak dochód i status zawodowy, mają silny związek logiczny i jeden z nich musi zostać zanonimizowany, należy rozważyć zastosowanie jakiejś innej techniki anonimizacji – zamiast lub oprócz permutacji. Informacje zanonimizowane przy użyciu permutacji mogą być określone na podstawie korelacji, a to zwiększa ryzyko dezanonimizacji.

Anonimizacja danych jakościowych

Poniżej przedstawiono praktyczne wskazówki dotyczące anonimizacji danych jakościowych:

  1. Na etapie planowania eksperymentuj z anonimizacją, zwłaszcza spróbuj przetworzyć najpierw kilka plików.
  2. Wykonaj kopię zapasową plików przeznaczonych do anonimizacji i zanonimizuj skopiowane pliki. W ten sposób można naprawić ewentualne błędy w anonimizacji.
  3. Udokumentuj proces anonimizacji za pomocą dokumentu roboczego, który powinien zawierać np. aliasy stosowane dla nazwisk osób, a także kategoryzacje, które wymagają spójności. Przykład: wywiad 1: Szymon = Mateusz, Helsinki = [gmina 1].
  4. Użyj konkretnych znaków, takich jak [nawiasy kwadratowe], do anonimizacji, aby pomóc sobie w śledzeniu, co zostało zmienione, a co nie. Nie używaj wyróżnień tekstu, takich jak kursywa lub kolor, ponieważ te zmiany mogą zniknąć.
  5. Użyj funkcji „znajdź i zamień”, np. w programie Word, aby zmienić nazwy na ich aliasy. Polecenie to jest przydatne również na koniec procesu anonimizacji podczas przeglądania, czy wszystkie nazwiska zostały zanonimizowane. Ostrożnie używaj polecenia „zamień wszystkie”, ponieważ nazwy mogą pojawiać się także jako część innych słów (np. imię „Tim” jest zawarte w angielskim słowie „estime”). W razie potrzeby zaznacz pole „dopasuj wielkość liter”, aby program zastępował tylko ciągi znaków o tej samej wielkości liter („Tim”, a nie „tim”).
  6. Po zakończeniu anonimizacji skasuj oryginalne pliki i listy aliasów. Przejrzyj materiały podstawowe związane z danymi, ponieważ mogą one również zawierać identyfikatory, które muszą zostać usunięte lub zanonimizowane (informacje kontaktowe uczestników badań, dane podane w kwestionariuszach papierowych itp.).
  7. Przy przepisywaniu wywiadów oznaczaj każdą nazwę własną znakiem specjalnym, który nie jest używany w innych miejscach tekstu (np. #). Ułatwi to późniejszą anonimizację nazwisk.

Techniki anonimizacji

Przedstawione techniki anonimizacji mogą być stosowane zarówno do zbiorów danych, jak i do fragmentów danych zawartych w różnego rodzaju publikacjach.

Bezpłatna wiedza o RODO.
Korzystaj do woli!

Webinary, artykuły, poradniki, szkolenia, migawki i pomoc. Witaj w bazie wiedzy ODO 24.
WCHODZĘ W TO
Punktem wyjścia w procesie anonimizacji tekstowego zbioru danych jest usunięcie materiałów podstawowych zawierających identyfikatory, takich jak dane kontaktowe uczestników i formularze z informacjami podstawowymi.

Podczas edytowania lub usuwania informacji identyfikujących należy wyraźnie zaznaczyć zmiany. Można użyć nawiasów kwadratowych: [edytowany tekst] lub podwójnych nawiasów kwadratowych: [[edytowany tekst]].

Zazwyczaj do anonimizacji pojedynczego zbioru danych trzeba zastosować kilka z opisanych niżej technik:

  1. zastępowanie nazwisk osób aliasami (pseudonimami),
  2. kategoryzacja nazw własnych,
  3. zmiana lub usunięcie informacji wrażliwych,
  4. kategoryzacja informacji podstawowych,
  5. zmiana wartości identyfikatorów.
  1. Zastępowanie nazwisk osób aliasami (pseudonimami)

Zmiana nazw własnych na aliasy to najpopularniejsza technika anonimizacji stosowana w przypadku danych jakościowych. Jednak aliasy nie czynią danych anonimowymi, dopóki oryginalne identyfikatory nie zostaną całkowicie usunięte. Zespoły badawcze muszą być konsekwentne w wyborze i stosowaniu aliasów w całym projekcie badawczym. Do prowadzenia listy nazwisk i ich aliasów można wykorzystać plik arkusza kalkulacyjnego dostępny dla wszystkich członków zespołu. Zarówno w zbiorze danych, jak i w opublikowanych fragmentach należy używać tych samych aliasów.

W przypadku anonimizacji nazw własnych zawsze lepszym rozwiązaniem jest stosowanie aliasów niż po prostu całkowite usunięcie nazw lub zastąpienie ich literą lub ciągiem znaków, np. [x] lub [---]. Zastąpienie nazw własnych aliasami pozwala badaczowi zachować wewnętrzną spójność danych. W przypadkach gdy często wymienia się kilka osób, dane mogą stać się niezrozumiałe, jeśli po prostu usunie się nazwy własne.

Użycie aliasu zarówno dla imienia, jak i dla nazwiska może być przydatne do tego, aby transkrypcja przypominała naturalną mowę lub aby oddzielić od siebie dużą liczbę nazw uczestników. Zazwyczaj jednak nazwiska zastępuje się aliasami, a następnie te nazwiska się usuwa. Jeśli osoba jest określana tylko nazwiskiem, alias również powinien być nazwiskiem.

Zbiór danych może zawierać odniesienia do osób, które są publicznie znane ze względu na działalność w polityce, życiu gospodarczym lub innych sferach związanych z pracą. Nazwiska takich osób nie są zmieniane. Należy jednak zastosować alias lub kategoryzację (np. [lokalny polityk]), jeśli odniesienie dotyczy prywatnych spraw danej osoby.

  1. Kategoryzacja nazw własnych

Nazwiska osób, które są wymienione w tekście tylko raz lub dwa razy i które nie mają zasadniczego znaczenia dla zrozumienia treści danych, mogą zostać usunięte ze zbioru danych bez tworzenia aliasów. Nazwiska te można po prostu zastąpić szerszymi kategoriami ([kobieta], [mężczyzna], [siostra], [ojciec], [koleżanka, kobieta], [sąsiad, mężczyzna] itd.). Używanie aliasów nie zawsze jest konieczne także w przypadku innych nazw własnych. Jeśli podmiot danych (w wywiadzie osobistym, wywiadzie grupowym, biografii, piśmie itp.) wskazuje tylko np. jedną szkołę lub miejsce zamieszkania, nazwę tę można zastąpić kategorią, np. [gimnazjum], [miejscowość zamieszkania] lub [osiedle].

Nazwy miejsc pracy lub innych organizacji, które mogą stanowić pośrednie identyfikatory w zbiorze danych, mogą zostać uogólnione przy użyciu klasyfikacji przemysłowej Statistics Finland (odpowiednik Polskiej Klasyfikacji Działalności). Inną możliwością jest po prostu uogólnienie, np. nazwa „Peters & Peters” może zostać zmieniona na [kancelaria prawna], „Tottenham Hotspur” – na [klub piłkarski], a „Pizza Hut” – na [restauracja].

Lokalizacje pojawiające się w tekście mogą zostać uogólnione przez zastąpienie ich atrybutami: [skupisko ludności], [dzielnica miasta], [wieś] itp. Jeśli nie ma pewności, czy dana nazwa miejscowości jest nazwą gminy czy powiatu należącego do gminy, pomocne mogą być katalogi nazw miejscowości lub katalogi gmin.

Jeśli zdecydowano, że gmina zamieszkania uczestników nie zostanie ujawniona, badacze powinni pamiętać o usunięciu identyfikujących informacji geograficznych dotyczących miejsca zamieszkania zarówno z informacji podstawowych, jak i z treści danych tekstowych. Na przykład jeśli uczestnik wspomina, że często chodzi do konkretnie nazwanej restauracji, która znajduje się w niewielkiej odległości od jego domu, to najlepiej zastąpić nazwę restauracji wyrażeniem ogólnym: [restauracja].

  1. Zmiana lub usunięcie informacji wrażliwych

Identyfikujące informacje wrażliwe powinny zostać usunięte, skategoryzowane lub sklasyfikowane. Na przykład nazwę „AIDS” można zmienić na [ciężka długotrwała choroba], a następnie odnosić się do niej jako do [choroby], pod warunkiem że czytelnik jest w stanie wywnioskować z kontekstu, że [choroba] oznacza „ciężką długotrwałą chorobę” wspomnianą wcześniej.

Usunięcie lub uogólnienie danych wrażliwych jest uzasadnione, jeśli są spełnione następujące warunki:

  1. respondent wspomniał o nich jedynie incydentalnie,
  2. informacje te nie są istotne dla tematu,
  3. informacje wrażliwe stanowią ryzyko ujawnienia, np. jeśli badanie koncentruje się na życiu osób z ciężką chorobą, ryzyko ujawnienia można najlepiej zmniejszyć dzięki zastosowaniu innych metod anonimizacji niż zmiana kluczowych informacji.

Ochrona Sygnalistów

  1. Kategoryzacja informacji podstawowych

Podstawowe cechy uczestników, takie jak płeć, wiek, zawód, miejsce pracy, szkoła lub miejsce zamieszkania, są często istotne dla zrozumienia danych. Takie cechy mogą również stanowić ważne informacje kontekstowe dla analizy wtórnej. Szczegółowe informacje podstawowe można zredagować w kategorie podobnie jak identyfikatory pośrednie w danych ilościowych. Pomocne w tym procesie są różne istniejące klasyfikacje, takie jak te stosowane przez krajowe instytuty statystyczne. Jeśli badacze tworzą własne klasyfikacje, powinny one być szczegółowo udokumentowane w opisie danych.

Kategoryzacja jest często lepszym rozwiązaniem niż usuwanie informacji podstawowych.

Przykład l-dywersyfikacji:

Z 44-letnią kobietą mieszkającą w Tampere przeprowadzany jest wywiad na potrzeby badania. Pracuje ona jako specjalista ds. systemów w centrum komputerowym uniwersytetu w Tampere, jest mężatką i ma dwoje dzieci w wieku 9 i 11 lat. Aby zmniejszyć ryzyko identyfikacji, jej podstawowe informacje można skategoryzować w następujący sposób:

  • płeć: kobieta,
  • wiek: 41–45,
  • miejsce pracy: uniwersytet,
  • zawód: specjalista ds. technologii informacyjnych i komunikacyjnych (ICT),
  • skład gospodarstwa domowego: mąż i dwoje dzieci w wieku szkolnym,
  • miejsce zamieszkania: gmina miejska w zachodniej Finlandii.

W powyższym przykładzie miejsce pracy (uczelnia) nie musi być uogólnione: [pracodawca sektora publicznego], ponieważ pozostałe dane źródłowe nie pozwalają na choćby częściową identyfikację. W regionie zachodniej Finlandii znajdują się trzy uniwersytety oraz kilka wydzielonych jednostek innych uczelni.

Rozważając potrzebę kategoryzacji informacji podstawowych, badacze powinni wziąć pod uwagę inne techniki anonimizacji wyjaśnione powyżej, a także przedmiot i treść danych.

  1. Zmiana wartości identyfikatorów

Czasami możliwa jest anonimizacja danych jakościowych przez zakłócenie informacji, podobnie jak wartości atrybutów identyfikujących mogą być zamieniane między zapisami w danych ilościowych. Na przykład dokładna data urodzenia, która jako identyfikator powinna być normalnie usunięta, może być czasem kluczowa dla zrozumienia treści.

Przykład hipotetyczny:

Rozmówczyni urodziła się 31 grudnia 1958 roku. W sylwestra 2005 roku siedziała przy szpitalnym łóżku swojego umierającego dziecka. W wywiadzie szczegółowo opisuje swoje sprzeczne emocje wywołane tym, że w jej umyśle mieszają się obchody Nowego Roku, śmierć dziecka i własne urodziny.

W takim przypadku jak ten usunięcie informacji o sylwestrze ze zbioru danych uniemożliwiłoby zrozumienie treści. Data (sylwester) może być zachowana w zbiorze danych, jeśli rok urodzenia respondenta zostanie zmieniony na inny (rok lub dwa lata wcześniej lub później).

  1. Usuwanie ukrytych metadanych z plików

Podczas anonimizacji należy sprawdzić, czy pliki archiwalne zawierają jakiekolwiek ukryte metadane techniczne, które mogłyby umożliwić identyfikację uczestników badań. Te ukryte metadane składają się np. z informacji o lokalizacji i informacji o właścicielu urządzenia lub profilu użytkownika. Metadane techniczne mogą być zapisywane podczas tworzenia plików, a także podczas ich edycji.

Dane z badań w postaci tekstu lub obrazów mogą składać się z plików stworzonych przez samych uczestników badań. Ryzyko identyfikacji na podstawie metadanych jest w tych przypadkach szczególnie wysokie. Ponieważ dane tekstowe często składają się z plików tekstowych stworzonych i bezpośrednio przekazanych przez uczestników badań, ukryte metadane tych plików odnoszą się wprost do tych uczestników. Dane EXIF obrazów cyfrowych mogą również zawierać bardzo precyzyjne informacje, takie jak dokładne współrzędne miejsca wykonania zdjęcia, a nawet nazwisko fotografującego.

Metadane techniczne można usunąć za pomocą zwykłych edytorów tekstu lub obrazów (np. MS Office, Windows File Explorer, Photoshop, GIMP, Irfanview). Istnieją też programy przeznaczone specjalnie do usuwania danych, takie jak EXIF (np. Easy Exif Delete), dzięki którym usunięcie ukrytych metadanych jest proste. Konkretne instrukcje dotyczące usuwania metadanych technicznych zależą od oprogramowania i jego wersji. Instrukcje można sprawdzić na stronie internetowej używanego programu.

Tabela typów identyfikatorów

Poszczególne rodzaje identyfikatorów zostały wymienione w poniższej tabeli. Informacje, które należą do specjalnych kategorii danych osobowych określonych w RODO, są oznaczone gwiazdką [ * ]. Każdy identyfikator jest charakteryzowany jako: identyfikator bezpośredni, silny identyfikator pośredni lub identyfikator pośredni.

W ostatniej kolumnie odnotowano najprostsze metody postępowania z danym typem identyfikatora. Metody te obejmują usunięcie identyfikatora, zmianę na alias oraz kategoryzację lub klasyfikację.

Niektóre atrybuty mogą być zarówno identyfikatorami pośrednimi, jak i silnymi identyfikatorami pośrednimi. Na przykład „nietypowy zawód” lub „status zawodowy” jest silnym identyfikatorem pośrednim, natomiast „powszechny zawód” jest identyfikatorem pośrednim.

Poniższa tabela nie jest wyczerpująca, ale może stanowić dobrą wskazówkę do rozpoznawania identyfikatorów i anonimizacji danych badawczych.

Typ identyfikatora
Identyfikator bezpośredni
Silny identyfikator pośredni
Identyfikator pośredni
Metoda anonimizacji
Numer ubezpieczenia społecznego
X
 
 
usuń
Pełne imię i nazwisko
X
 
 
usuń/zmień
Adres e-mail
X
X
 
usuń
Numer telefonu
 
X
 
usuń
Kod pocztowy
 
 
X
usuń/skategoryzuj
Dzielnica / część miasta
 
 
X
skategoryzuj
Gmina zamieszkania
 
 
X
skategoryzuj
Region
 
 
X
skategoryzuj
Główny region
 
 
X
 
Typ gminy (miejska, półmiejska, wiejska)
 
 
X
 
Plik dźwiękowy
X
 
 
usuń
Plik wideo przedstawiający osobę (osoby)
X
 
 
usuń
Data/rok urodzenia
 
X
 
skategoryzuj
Wiek
 
 
X
skategoryzuj
Płeć
 
 
X
 
Stan cywilny
 
 
X
 
Skład gospodarstwa domowego
 
 
X
(skategoryzuj)
Zawód
 
(X)
X
skategoryzuj
Branża zatrudnienia
 
 
X
 
Status zatrudnienia
 
 
X
 
Wykształcenie
 
 
X
skategoryzuj
Dziedzina edukacji
 
 
X
 
Język ojczysty
 
 
X
skategoryzuj
Narodowość
 
 
X
(skategoryzuj)
Miejsce pracy / pracodawca
 
(X)
X
skategoryzuj
Numer rejestracyjny pojazdu
 
X
 
usuń
Tytuł publikacji
 
X
 
skategoryzuj
Adres strony internetowej
 
(X)
X
usuń
Numer legitymacji studenckiej
 
X
 
usuń
Numer ubezpieczenia
 
X
 
usuń
Numer rachunku bankowego
 
X
 
usuń
Adres IP
 
X
 
usuń
Informacje dotyczące zdrowia*
 
(X)
X
usuń/skategoryzuj
Grupa etniczna*
 
(X)
X
usuń/skategoryzuj
Karalność
 
 
X
usuń/skategoryzuj
Przynależność do związku zawodowego*
 
 
X
skategoryzuj
Przekonania polityczne lub religijne*
 
 
X
skategoryzuj
Inne stanowisko zaufania publicznego
 
(X)
X
usuń/skategoryzuj
Potrzeba opieki społecznej
 
 
X
usuń/skategoryzuj
Otrzymane usługi i świadczenia z zakresu pomocy społecznej
 
 
X
usuń/skategoryzuj
Orientacja seksualna*
 
 
X
usuń
quiz

Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!

Na podstawie motywu 26 RODO, co należy uwzględnić, aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania?

Czytaj także:

Najczęstsze błędy przy zawieraniu umów powierzenia

„Sami możemy rozwiązać wątpliwości związane z RODO”

Jesteś tego pewien?

Zamów
wsparcie

Administratorem Twoich danych jest ODO 24 sp. z o.o. z siedzibą w Warszawie (03-812) przy ul. Kamionkowskiej 45. Twoje dane są przetwarzane w celu świadczenia usługi biuletyn informacyjny na zasadach określonych w Regulaminie ŚUDE. Więcej informacji na temat procesu przetwarzania danych osobowych oraz przysługujących Ci praw uzyskasz w Polityce prywatności.
Potwierdź swój adres e-mail
Wejdź na swoją skrzynkę pocztową, otwórz wiadomość od ODO 24 i potwierdź adres e-mail, klikając w link.
Jeżeli nie znajdziesz naszej wiadomości - sprawdź w folderze SPAM. Aby w przyszłości to się nie powtórzyło oznacz wiadomość jako pożądaną (klikniknij prawym przyciskiem myszy i wybierz "Oznacz jako wiadomość pożądaną").
Odbierz bezpłatny pakiet 4 poradników
i 4 szkoleń e-learningowych RODO
4x4 - Odbierz bezpłatny pakiet 4 poradników i 4 szkoleń RODO
Administratorem Twoich danych jest ODO 24 sp. z o.o. z siedzibą w Warszawie (03-812) przy ul. Kamionkowskiej 45. Twoje dane są przetwarzane w celu świadczenia usługi biuletyn informacyjny na zasadach określonych w Regulaminie ŚUDE. Więcej informacji na temat procesu przetwarzania danych osobowych oraz przysługujących Ci praw uzyskasz w Polityce prywatności.
Administratorem Twoich danych jest ODO 24 sp. z o. o. >>>