Opinia EROD została wydana w odpowiedzi na następujące pytania irlandzkiego organu nadzorczego:
- kiedy i w jaki sposób model AI można uznać za anonimowy?
- w jaki sposób administratorzy mogą wykazać odpowiedniość prawnie uzasadnionego interesu jako podstawy prawnej w fazach opracowywania i wdrażania modelu AI?
- jakie są konsekwencje niezgodnego z prawem przetwarzania danych osobowych w fazie opracowywania modelu AI dla późniejszego przetwarzania lub działania tego modelu?

Opinia EROD jest skierowana do organów nadzorczych poszczególnych państw członkowskich UE (w Polsce – do Prezesa UODO). W praktyce stanowi jednak wytyczne również dla podmiotów przetwarzających dane osobowe w ramach modeli AI. Dlatego w tym artykule przybliżamy stanowisko EROD w zakresie zgodności takiego przetwarzania z prawem.
Jakich modeli AI dotyczy opinia EROD
Unijny akt o sztucznej inteligencji definiuje system sztucznej inteligencji jako „system maszynowy, który został zaprojektowany do działania z różnym poziomem autonomii po jego wdrożeniu oraz który może wykazywać zdolność adaptacji po jego wdrożeniu, a także który – na potrzeby wyraźnych lub dorozumianych celów – wnioskuje, jak generować na podstawie otrzymanych danych wejściowych wyniki, takie jak predykcje, treści, zalecenia lub decyzje, które mogą wpływać na środowisko fizyczne lub wirtualne” (art. 3 pkt 1 AI Act). Zatem kluczową cechą systemów AI jest ich zdolność do wnioskowania.
Chociaż modele AI są zasadniczymi elementami systemów sztucznej inteligencji, nie stanowią same w sobie tych systemów. Aby model AI mógł stać się systemem AI, należy dodać do niego dodatkowe elementy, np. interfejs użytkownika. Modele AI są zwykle zintegrowane z systemami AI i stanowią ich część. Zakres opinii EROD obejmuje jedynie podzbiór modeli AI, które są wynikiem trenowania takich modeli z wykorzystaniem danych osobowych.
Modele AI a definicja danych osobowych
RODO definiuje dane osobowe jako wszelkie informacje dotyczące zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej (tj. osoby, której dane dotyczą). Aby ustalić, czy dana osoba jest możliwa do zidentyfikowania, należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby, w stosunku do których istnieje uzasadnione prawdopodobieństwo, że zostaną wykorzystane przez administratora lub kogoś innego.
Modele AI, niezależnie od tego, czy są trenowane z wykorzystaniem danych osobowych, czy też nie, zazwyczaj są zaprojektowane do prognozowania lub wyciągania wniosków. Co więcej, modele AI trenowane z wykorzystaniem danych osobowych są często projektowane tak, aby wyciągać wnioski na temat osób innych niż te, których dane osobowe zostały wykorzystane do trenowania. Zdarza się jednak, że niektóre modele AI są specjalnie zaprojektowane do dostarczania danych osobowych dotyczących osób, których dane osobowe zostały wykorzystane do trenowania modelu, lub do udostępniania w jakiś sposób tych danych.
W takich przypadkach modele AI będą z natury zawierać informacje dotyczące zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej, a zatem będą obejmować przetwarzanie danych osobowych. Dotyczy to na przykład modelu generatywnego dostrojonego na podstawie nagrań głosowych danej osoby w celu naśladowania jej głosu.
Badania nad ekstrakcją danych treningowych pokazują, że w pewnych przypadkach możliwe jest wykorzystanie środków, które z dużym prawdopodobieństwem pozwolą na wydobycie danych osobowych z niektórych modeli AI lub po prostu na przypadkowe uzyskanie danych osobowych w wyniku interakcji z modelem AI.
Na podstawie powyższych rozważań EROD wskazuje, że modele AI wytrenowane na danych osobowych nie mogą we wszystkich przypadkach być uznawane za anonimowe. Ocena, czy model AI jest anonimowy, powinna być dokonywana indywidualnie, z uwzględnieniem określonych kryteriów.
Kiedy model AI można uznać za anonimowy
Modele AI zwykle nie zawierają danych, które można bezpośrednio wyodrębnić lub powiązać, lecz parametry reprezentujące probabilistyczne relacje między danymi zawartymi w modelu. Niemniej jednak w realistycznych scenariuszach istnieje ryzyko, że z modelu można wywnioskować konkretne informacje.
Dlatego organ nadzorczy, aby zgodzić się z administratorem, że dany model AI można uznać za anonimowy, powinien sprawdzić co najmniej, czy otrzymał wystarczające dowody na to, że przy użyciu rozsądnych środków:
- wszelkie informacje dotyczące oceny skutków dla ochrony danych, w tym wszelkie oceny i decyzje, w których stwierdzono, że ocena skutków dla ochrony danych nie była konieczna;
- wszelkie porady lub opinie przekazane przez inspektora ochrony danych (w przypadku gdy został on wyznaczony lub powinien zostać wyznaczony);
- informacje na temat środków technicznych i organizacyjnych podjętych podczas projektowania modelu AI w celu zmniejszenia prawdopodobieństwa identyfikacji, w tym modelu zagrożeń i ocen ryzyka, na których opierają się te środki. Informacje te powinny obejmować konkretne środki dla każdego źródła zbiorów danych treningowych, w tym odpowiednie źródłowe adresy URL i opisy podjętych środków (lub już podjętych przez dostawców zbiorów danych stron trzecich);
- środki techniczne i organizacyjne podjęte na wszystkich etapach cyklu życia modelu AI, które przyczyniły się do braku danych osobowych w modelu lub potwierdziły ten brak;
- dokumentację wykazującą teoretyczną odporność modelu AI na techniki ponownej identyfikacji, a także środki kontrolne zaprojektowane w celu ograniczenia lub oceny skuteczności i wpływu ataków (takich jak regurgitacja, eksfiltracja itp.). Może to obejmować w szczególności:
- stosunek ilości danych treningowych do liczby parametrów w modelu, w tym analizę wpływu,
- wskaźniki prawdopodobieństwa ponownej identyfikacji oparte na aktualnym stanie wiedzy,
- raporty dotyczące sposobu testowania modelu (przez kogo, kiedy, w jaki sposób i w jakim zakresie),
- wyniki testów;
- dokumentację przekazaną administratorowi wdrażającemu (lub administratorom wdrażającym) model AI lub osobom, których dane dotyczą, w szczególności dokumentację dotyczącą środków podjętych, aby zmniejszyć prawdopodobieństwo identyfikacji, oraz dotyczącą ewentualnych ryzyk resztkowych.
Prawnie uzasadniony interes jako podstawa prawna przetwarzania danych
RODO nie ustanawia żadnej hierarchii między różnymi podstawami prawnymi określonymi w art. 6 ust. 1. W celu ustalenia, czy przetwarzanie danych osobowych może opierać się na art. 6 ust. 1 lit. f RODO, organy nadzorcze powinny sprawdzić, czy administratorzy dokładnie ocenili i udokumentowali, czy spełnione są łącznie trzy następujące warunki:
- administrator lub strona trzecia realizują prawnie uzasadniony interes,
- przetwarzanie jest niezbędne do realizacji prawnie uzasadnionego interesu,
- prawnie uzasadniony interes nie jest podrzędny wobec interesów lub podstawowych praw i wolności osób, których dane dotyczą.
Warunek 1: istnienie interesu
Interes administratora danych lub strony trzeciej oznacza szerszy interes lub korzyść, jakie mogą oni odnieść w związku z zaangażowaniem się w określoną czynność przetwarzania. Interes można uznać za prawnie uzasadniony, jeżeli spełnione są łącznie następujące trzy kryteria:
- interes jest zgodny z prawem,
- interes jest jasno i precyzyjnie sformułowany,
- interes jest rzeczywisty i obecny, a nie spekulacyjny.
Przykładami uzasadnionych interesów są: opracowanie usługi wirtualnego konsultanta udzielającemu użytkownikom pomocy, rozwój systemu sztucznej inteligencji w celu wykrywania nieuczciwych treści lub zachowań oraz poprawa wykrywania zagrożeń w systemie informatycznym.
Warunek 2: ustalenie, czy przetwarzanie danych osobowych jest niezbędne do realizacji interesu
Test konieczności polega na ustaleniu, czy:
- czynność przetwarzania pozwoli na realizację celu,
- nie istnieje mniej inwazyjny sposób realizacji tego celu.
Zamierzoną ilość danych osobowych zaangażowanych w model AI należy ocenić w odniesieniu do mniej inwazyjnych alternatyw, które mogą być racjonalnie dostępne, aby równie skutecznie osiągnąć cel realizowanego prawnie uzasadnionego interesu. Jeżeli osiągnięcie celu jest możliwe również za pomocą modelu AI, który nie wiąże się z przetwarzaniem danych osobowych, należy uznać, że przetwarzanie danych osobowych nie jest konieczne.
Warunek 3: wyważenie interesów
Trzecim etapem oceny prawnie uzasadnionego interesu jest „wyważenie” (zwane również w opinii EROD „testem równowagi"). Etap ten polega na zidentyfikowaniu i opisaniu różnych przeciwstawnych praw i interesów, które są zaangażowane, tj. z jednej strony interesów, podstawowych praw i wolności osób, których dane dotyczą, a z drugiej strony interesów administratora lub strony trzeciej. Następnie należy rozważyć szczególne okoliczności sprawy, aby wykazać, że prawnie uzasadniony interes jest odpowiednią podstawą prawną rozpatrywanych czynności przetwarzania.
Czym są interesy osób, których dane dotyczą

Praca dobrymi narzędziami RODO to nie praca!
Prawnie uzasadniony interes a ocena wpływu przetwarzania
Wpływ przetwarzania na osoby, których dane dotyczą, może zależeć od:
- charakteru danych przetwarzanych przez modele,
- kontekstu przetwarzania,
- dalszych konsekwencji, jakie może mieć przetwarzanie.
W odniesieniu do charakteru przetwarzanych danych należy przypomnieć, że oprócz szczególnych kategorii danych osobowych oraz danych dotyczących wyroków skazujących i naruszeń prawa, które są objęte dodatkową ochroną na mocy art. 9 i 10 RODO, przetwarzanie niektórych innych kategorii danych osobowych może mieć poważne konsekwencje dla osób, których dane dotyczą. W tym kontekście przetwarzanie niektórych rodzajów danych osobowych ujawniających wysoce prywatne informacje (np. dane finansowe lub dane dotyczące lokalizacji) w celu opracowania i wdrożenia modelu AI należy uznać za mogące mieć poważny wpływ na osoby, których dane dotyczą.
W odniesieniu do kontekstu przetwarzania należy najpierw zidentyfikować elementy, które mogą stwarzać ryzyko dla osób, których dane dotyczą (np. sposób, w jaki model został opracowany, sposób, w jaki model może zostać wdrożony, lub to, czy środki bezpieczeństwa stosowane w celu ochrony danych osobowych są odpowiednie). Konieczna jest również ocena wagi tych zagrożeń dla osób, których dane dotyczą. Przykładowo wykorzystanie web scrapingu w fazie opracowywania modelu AI może prowadzić – przy braku wystarczających zabezpieczeń – do znaczącego wpływu na osoby fizyczne ze względu na dużą ilość gromadzonych danych, dużą liczbę osób, których dane dotyczą, oraz masowe gromadzenie danych osobowych.
Przy ocenie wpływu przetwarzania na osoby, których dane dotyczą, należy również wziąć pod uwagę dalsze konsekwencje, jakie może mieć przetwarzanie. Analiza możliwych dalszych konsekwencji przetwarzania powinna uwzględniać także prawdopodobieństwo ich zmaterializowania się. Na przykład organy nadzorcze mogą rozważyć, czy wdrożono środki umożliwiające uniknięcie niewłaściwego wykorzystania modelu AI. W przypadku modeli AI, które mogą być wdrażane do różnych celów, takich jak generatywna sztuczna inteligencja, może to obejmować kontrole ograniczające w jak największym stopniu ich wykorzystanie do szkodliwych praktyk, takich jak tworzenie deepfake’ów.
Prawnie uzasadniony interes a rozsądne oczekiwania osób, których dane dotyczą
Zgodnie z motywem 47 RODO stwierdzenie istnienia prawnie uzasadnionego interesu wymagałoby przeprowadzenia starannej oceny, w tym ustalenia w czasie i w kontekście gromadzenia danych osobowych, czy osoba, której dane dotyczą, może oczekiwać, że może nastąpić przetwarzanie danych w tym celu. Interesy i podstawowe prawa osoby, której dane dotyczą, mogą przeważać nad interesem administratora w szczególności wtedy, gdy dane osobowe są przetwarzane w sytuacji, w której osoby, których dane dotyczą, nie oczekują dalszego przetwarzania. Na przykład sam fakt, że informacje dotyczące fazy opracowywania modelu AI są zawarte w polityce prywatności administratora, niekoniecznie oznacza, że osoby, których dane dotyczą, mogą rozsądnie oczekiwać, że ich dane osobowe zostaną użyte w tym celu.
Prawnie uzasadniony interes a środki łagodzące ryzyko
Jeżeli interesy, prawa i wolności osób, których dane dotyczą, wydają się nadrzędne wobec prawnie uzasadnionych interesów realizowanych przez administratora lub stronę trzecią, administrator może rozważyć wprowadzenie środków łagodzących ryzyko w celu ograniczenia wpływu przetwarzania na te osoby. Środki łagodzące ryzyko to zabezpieczenia, które powinny być dostosowane do okoliczności sprawy i zależeć od różnych czynników, w tym od zamierzonego zastosowania modelu AI. Takie środki miałyby na celu zapewnienie tego, by nie było interesów nadrzędnych osób, których dane dotyczą nad interesami administratora lub osoby trzeciej, tak aby administrator mógł powoływać się na tę podstawę prawną.
Środkami łagodzącymi ryzyko mogą być np. pseudonimizacja, środki mające na celu maskowanie danych osobowych lub zastępowanie ich fałszywymi danymi osobowymi w zestawie treningowym, przestrzeganie rozsądnego okresu między zebraniem treningowego zbioru danych a jego wykorzystaniem, a w kontekście web scrapingu – zapewnienie niegromadzenia niektórych kategorii danych lub wyłączenia niektórych źródeł z gromadzenia danych (może to obejmować niektóre strony internetowe, które są szczególnie inwazyjne ze względu na wrażliwość ich tematyki).
Możliwy wpływ niezgodnego z prawem przetwarzania przy opracowywaniu modelu AI na zgodność z prawem późniejszego przetwarzania lub działania modelu AI
Warto przypomnieć, że w przypadku stwierdzenia naruszenia organy nadzorcze mogą nałożyć środki naprawcze, takie jak nakazanie administratorom, z uwzględnieniem okoliczności każdego przypadku, podjęcia działań w celu usunięcia niezgodności z prawem pierwotnego przetwarzania. Środki te mogą obejmować na przykład nałożenie administracyjnej kary pieniężnej, nałożenie tymczasowego ograniczenia przetwarzania, nakazanie usunięcia części zbioru danych, które były przetwarzane niezgodnie z prawem, lub jeżeli nie jest to możliwe, w zależności od okoliczności faktycznych i z uwzględnieniem proporcjonalności środka, nakazanie usunięcia całego zbioru danych wykorzystanego do opracowania modelu AI lub usunięcia samego modelu AI.
EROD nakreśliła trzy scenariusze przedstawiające możliwy wpływ niezgodnego z prawem przetwarzania w ramach opracowywania modelu AI na zgodność z prawem późniejszego przetwarzania lub działania modelu AI.
Scenariusz 1:
Administrator niezgodnie z prawem przetwarza dane osobowe w celu opracowywania modelu AI, przy czym dane osobowe są przechowywane w modelu, a następnie są przetwarzane przez tego samego administratora (np. w kontekście wdrażania modelu). To, czy fazy opracowywania i wdrażania wiążą się z odrębnymi celami (a zatem stanowią odrębne czynności przetwarzania), oraz zakres, w jakim brak podstawy prawnej początkowej czynności przetwarzania wpływa na zgodność z prawem późniejszego przetwarzania, należy oceniać indywidualnie dla każdego przypadku, w zależności od kontekstu sprawy.
Scenariusz 2:
Administrator niezgodnie z prawem przetwarza dane osobowe w celu opracowywania modelu AI, przy czym dane osobowe są przechowywane w modelu i przetwarzane przez innego administratora w kontekście wdrażania modelu. Ustalenie ról przypisanych tym różnym podmiotom w ramach ochrony danych jest niezbędnym krokiem do określenia, które obowiązki wynikające z RODO mają zastosowanie i kto jest za nie odpowiedzialny. Ponadto przy ocenie wynikających z RODO obowiązków każdej ze stron należy uwzględnić sytuacje współadministrowania. Organy nadzorcze powinny wziąć pod uwagę, czy administrator wdrażający model przeprowadził odpowiednią ocenę w ramach swoich obowiązków w zakresie zasady rozliczalności i w celu wykazania zgodności z RODO. W odniesieniu do ewentualnego wpływu niezgodności z prawem pierwotnego przetwarzania na późniejsze przetwarzanie prowadzone przez innego administratora taka ocena powinna być przeprowadzana przez organy nadzorcze indywidualnie dla każdego przypadku.
Scenariusz 3:
Administrator niezgodnie z prawem przetwarza dane osobowe w celu opracowywania modelu AI, a następnie zapewnia anonimizację modelu, zanim ten sam lub inny administrator rozpocznie dalsze przetwarzanie danych osobowych w kontekście wdrażania modelu. Organy nadzorcze są właściwe i mają uprawnienia do interweniowania w odniesieniu do przetwarzania związanego z anonimizacją modelu, a także do przetwarzania prowadzonego w fazie opracowywania. W związku z tym organy nadzorcze mogą, w zależności od konkretnych okoliczności sprawy, nałożyć środki naprawcze na to początkowe przetwarzanie.
Podsumowanie
Modele AI trenowane z wykorzystaniem danych osobowych podlegają w pełni regulacjom RODO. Choć wymogi te mogą stanowić istotne wyzwanie dla rozwoju takich technologii, ich nadrzędnym celem jest ochrona praw i wolności osób fizycznych. Przepisy mają zapobiegać nadużyciom związanym z wykorzystywaniem danych osobowych na etapie trenowania modeli sztucznej inteligencji. Czy przyjęte mechanizmy okażą się skuteczne w praktyce? Odpowiedź na to pytanie przyniesie czas.
Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!
Zgodnie z opinią 28/2024 Europejskiej Rady Ochrony Danych (EROD), kiedy model AI można uznać za anonimowy w kontekście przetwarzania danych osobowych?