Artykuł powstał na podstawie wytycznych organu nadzorczego ds. ochrony danych osobowych w Badenii-Wirtembergii, który jako jeden z pierwszych w Europie szczegółowo odniósł się do zastosowania RODO w kontekście sztucznej inteligencji.
Czy model AI przetwarza dane osobowe
Na wstępie warto zaznaczyć, że RODO nie zawiera odrębnych regulacji odnoszących się wyłącznie do systemów sztucznej inteligencji. Jednak definicja danych osobowych zawarta w tym rozporządzeniu znajduje pełne zastosowanie również w kontekście AI. Dane osobowe to wszelkie informacje dotyczące osoby zidentyfikowanej lub możliwej do zidentyfikowania.

Ocena, czy konkretna osoba jest możliwa do zidentyfikowania, wymaga uwzględnienia wszystkich rozsądnie prawdopodobnych sposobów identyfikacji – również tych pośrednich, takich jak łączenie danych z różnych źródeł. Przy tej analizie istotne są czynniki obiektywne, jak koszt, czas, dostępna technologia oraz tempo jej rozwoju. Warto też pamiętać, że do identyfikacji nie jest konieczne, aby wszystkie dane znajdowały się w rękach jednego podmiotu. To rozróżnienie ma kluczowe znaczenie – dopiero gdy stwierdzimy, że przetwarzane informacje stanowią dane osobowe, zaczynają obowiązywać przepisy RODO. Stąd pojawia się zasadnicze pytanie, czy (i w jakim zakresie) model sztucznej inteligencji – zarówno obecnie, jak i w przyszłości – umożliwia identyfikację konkretnych osób fizycznych.
Dostawcy modeli AI w szczególności powinni zbadać, czy osoby trzecie lub w tym przypadku – użytkownicy mogą otrzymywać dane osobowe jako dane wyjściowe, np. dzięki stosowaniu pewnych podpowiedzi wejściowych. W tym celu należy wziąć pod uwagę jednak racjonalnie oczekiwane podpowiedzi wejściowe. Przykładowo: jest różnica między zapytaniem „Kim jest [imię]?” a zapytaniem „Kim jest [imię], urodzony [data urodzenia] w [miejsce urodzenia], zamieszkały w [miasto], oskarżony o popełnienie [data]?”. To, czy niektórym podpowiedziom wejściowym można skutecznie zapobiec, np. za pomocą środków technicznych i organizacyjnych, należy badać indywidualnie dla każdego przypadku.
Przy ocenie, czy model może przetwarzać dane osobowe, trzeba też wziąć pod uwagę potencjalne „ataki modelowe” – sytuacje, gdy ktoś metodą inwersji modelu próbuje uzyskać informacje o danych szkoleniowych bezpośrednio z wyników uczenia się modelu. Ocena musi jednak również uwzględniać to, czy takie ataki modelowe są w ogóle prawdopodobne.
Niemiecki organ nadzorczy zwraca też uwagę na kwestię fikcyjności informacji o osobach fizycznych. W tym przypadku konieczne byłoby zbadanie, jakie środki techniczne i organizacyjne są wymagane, aby zapobiec nieprawdziwym stwierdzeniom dotyczącym możliwych do zidentyfikowania (rzeczywistych) osób.
Fazy przetwarzania danych osobowych przez AI
Ponieważ termin „przetwarzanie” w art. 4 pkt 2 RODO obejmuje prawie każdy proces związany z danymi osobowymi, operacje przetwarzania istotne w świetle prawa o ochronie danych w kontekście AI mogą być odpowiednio zróżnicowane. Poniżej przedstawiamy pięć przykładowych etapów przetwarzania:
-
Gromadzenie danych treningowych dla sztucznej inteligencji
Gromadzenie, generowanie, strukturyzowanie lub kategoryzowanie danych jest procesem, który regularnie występuje na początku aplikacji sztucznej inteligencji. Może to wynikać z niezależnego gromadzenia danych osobowych, takich jak tworzenie danych obrazu za pomocą kamery, a także pobieranie danych z publicznie dostępnych źródeł, w szczególności z Internetu.
-
Przetwarzanie danych na potrzeby szkolenia sztucznej inteligencji
Kolejnym etapem przetwarzania może być produkcja lub rozwój systemu sztucznej inteligencji. W tym przypadku dane osobowe są przetwarzane w celu wstępnego szkolenia systemu AI. Ulepszanie systemu AI, w przypadku którego przetwarzane są dalsze lub wielokrotnie te same dane osobowe w celu podniesienia jakości jego wyników, również mieści się w pojęciu przetwarzania.
-
Dostarczanie aplikacji sztucznej inteligencji
To, czy dostarczanie systemów sztucznej inteligencji szkolonych z wykorzystaniem danych osobowych stanowi przetwarzanie danych osobowych, wymaga indywidualnej oceny. Zależy od tego, w jakim stopniu dane szkoleniowe można uznać za nadal „zawarte” w systemie AI (ponieważ są one dalej przetwarzane, gdy AI jest używana). Równocześnie dane osobowe gromadzone podczas użytkowania AI mogą być dalej przetwarzane przez system, w szczególności w ramach dalszego szkolenia modelu. Takie przetwarzanie wymagałoby odrębnej podstawy prawnej.
-
Wykorzystanie aplikacji sztucznej inteligencji
W przypadku przetwarzania danych osobowych przez wiele podmiotów wymagana jest odrębna podstawa prawna dla każdego stosunku prawnego. Oznacza to, że procesy w tej fazie przetwarzania muszą być oceniane z perspektywy zarówno dostawcy modelu, jak i użytkownika.
-
Wykorzystanie wyników sztucznej inteligencji
Wreszcie: dane wyjściowe AI również mogą stanowić przetwarzanie danych osobowych. Dotyczy to na przykład przypadków, w których obrazy prawdziwych osób są tworzone za pomocą generatora obrazów AI. Może też dochodzić do sytuacji, gdy wygenerowanie wyjściowo danych osobowych wynika z działania firmy korzystającej z AI (np. kiedy firma dostarcza projekt dokumentu zawierający dane adresowe, wykonywana jest na nim operacja zlecona AI, a wyniki są dalej przechowywane przez model). Wówczas podstawa prawna musi odnosić się do faktu, że wynik AI jest powiązany z osobą fizyczną lub stanowi dane osobowe oraz że powstaje nowe przetwarzanie z nowym ryzykiem dla praw i wolności osób fizycznych.
Kto odpowiada za zgodność z przepisami o ochronie danych
Dla stwierdzenia, kto jest odpowiedzialny za zapewnienie podstawy prawnej przetwarzania, kluczowe jest wcześniejsze ustalenie, kto w danym przetwarzaniu jest administratorem danych, kto – ewentualnym współadministratorem, a kto – podmiotem przetwarzającym. Kto decyduje o celach i sposobach przetwarzania, ten jest administratorem danych. Gdy robi to wraz z innym podmiotem, razem są oni współadministratorami i wówczas wspólnie odpowiadają za zapewnienie podstawy prawnej przetwarzania wynikającej z art. 6 RODO.
Warto pamiętać, że uzupełniające się decyzje również mogą prowadzić do współadministrowania, jeśli każda z nich ma znaczący wpływ na określenie celów i środków przetwarzania. Innym ważnym kryterium współadministrowania jest to, że przetwarzanie nie byłoby możliwe bez zaangażowania obu stron – w tym sensie, że operacje przetwarzania każdej ze stron są nierozerwalnie ze sobą powiązane. Współadministrowanie byłoby możliwe, np. jeśli zbiory danych z dwóch firm byłyby wykorzystywane do szkolenia wspólnego systemu sztucznej inteligencji.
Natomiast gdy podmiot przetwarza dane osobowe jedynie na polecenie innego podmiotu lub innych podmiotów, to jest on tzw. procesorem (podmiotem przetwarzającym), a nie „właścicielem” danych, a więc nie leżą po jego stronie obowiązki wynikające z art. 6 RODO. Przykładem odrębnego administrowania jest sytuacja, gdy jeden podmiot dostarcza drugiemu podmiotowi – twórcy AI dane osobowe, o których dalszym wykorzystaniu (celach i sposobach) decyduje właśnie ten twórca AI.
Z procesorem będziemy mieli do czynienia w zakresie, w jakim system sztucznej inteligencji jest szkolony z wykorzystaniem danych osobowych zgodnie z instrukcjami administratora i wyłącznie do celów wskazanych przez administratora. Ponadto powierzenie przetwarzania wchodziłoby w grę, gdyby administrator korzystał z istniejącego systemu AI udostępnionego mu online przez dostawcę usług w chmurze, np. w celu diagnostyki. W tym przypadku jednak granica powierzenia przetwarzania procesorowi zostaje przekroczona, jeśli dane osobowe wprowadzone do systemu AI przynoszą również korzyści w postaci ulepszenia aplikacji, a zatem przetwarzanie służy również własnym celom procesora (tu: dostawcy usług w chmurze).
Możliwe podstawy prawne przetwarzania danych: zgoda
Zgoda na przetwarzanie danych osobowych, o której mowa w art. 6 ust. 1 lit. a RODO, dla swojej ważności wymaga spełnienia określonych warunków. Musi być dobrowolnym, konkretnym, świadomym i jednoznacznym okazaniem woli, że dana osoba zgadza się na dane przetwarzanie. W kontekście AI największym wyzwaniem byłoby zapewnienie konkretności. Aby zgoda była wystarczająco konkretna, należy m.in. określić, które dane są przetwarzane, w jakich celach i przez kogo, jaki jest rodzaj przetwarzania danych i kim są odbiorcy. Jednak skoro już nawet eksperci mają trudności ze zrozumieniem systemów sztucznej inteligencji i ich procesów przetwarzania danych, ponieważ są one coraz bardziej złożone i oparte na skomplikowanej architekturze (np. w przypadku korzystania z głębokich sieci neuronowych), to jak w takim razie można tego oczekiwać od przeciętnego człowieka, który ma wyrazić świadomą zgodę.

Diagnoza zgodności RODO.
Zrób to sam
Możliwe podstawy prawne przetwarzania danych: wykonanie umowy
Jak stanowi art. 6 ust. 1 lit. b RODO, przetwarzanie jest zgodne z prawem, gdy jest niezbędne do wykonania umowy, której stroną jest osoba, której dane dotyczą, lub do podjęcia działań na żądanie osoby, której dane dotyczą, przed zawarciem umowy. Nie wystarczy zatem, że przetwarzanie jest jedynie wspomniane w umowie lub że jest przydatne do jej wykonania.
Należy jeszcze raz podkreślić, że osoba, której dane są przetwarzane za pomocą AI, musiałaby być stroną umowy, aby można było opierać się na przesłance z art. 6 ust. 1 lit. b RODO. Oznacza to, że strony, które produkują, dostarczają lub wykorzystują system AI, nie mogą zawrzeć umowy, która legitymizuje przetwarzanie danych osobowych osób trzecich. Gdyby jednak dana osoba zleciła stworzenie generatora mowy AI, który jest szkolony przy użyciu jej głosu, wykonanie umowy wydaje się możliwą podstawą prawną przetwarzania wymaganych do tego danych głosowych.
Możliwe podstawy prawne przetwarzania danych: wypełnienie obowiązku prawnego
Przetwarzanie może być zgodne z prawem również wtedy, gdy jest niezbędne do wypełnienia obowiązku prawnego ciążącego na administratorze – na podstawie art. 6 ust. 1 lit. c RODO. Wówczas istnieje bowiem konieczność przetwarzania danych i administrator danych zasadniczo nie ma pola manewru. Ta podstawa prawna oferuje jednak ograniczony zakres zastosowania w kontekście systemów sztucznej inteligencji.
Możliwe podstawy prawne przetwarzania danych: ochrona żywotnych interesów
Aby możliwe było zastosowanie podstawy prawnej, o której mowa w art. 6 ust. 1 lit. d RODO, musi zachodzić konieczność ochrony żywotnych interesów osoby, której dane dotyczą, lub innej osoby fizycznej. Podstawa ta ma zastosowanie wyłącznie do sytuacji nadzwyczajnych, w celu ochrony zdrowia lub życia, w sytuacjach kryzysowych, takich jak klęski żywiołowe, epidemie czy wypadki. Obecnie trudno sobie wyobrazić sytuację, w której szkolenie systemu AI miałoby chronić czyjeś żywotne interesy.
Zmiana celu przetwarzania
Przepis art. 6 ust. 4 RODO reguluje przypadek dalszego przetwarzania danych osobowych w przypadku zmiany celu na inny niż ten, dla którego dane osobowe zostały pierwotnie zebrane. Przepis ten jest szczególnie ważny w przypadku szkolenia systemów sztucznej inteligencji, jeśli podstawowe dane szkoleniowe zostały wcześniej zebrane w innym celu (np. wykonania umowy) i mają być teraz wykorzystywane do szkolenia. Ocena dopuszczalności takiego przetwarzania wymaga na przykład zbadania, czy dalsze wykorzystanie danych odpowiada uzasadnionym oczekiwaniom osoby, której dane dotyczą. Zgodnie z RODO, aby ustalić, czy przetwarzanie w innym celu jest zgodne z celem, w którym dane osobowe zostały pierwotnie zebrane, administrator bierze pod uwagę m.in.:
- wszelkie związki między celami, w których zebrano dane osobowe, a celami zamierzonego dalszego przetwarzania,
- kontekst, w którym zebrano dane osobowe, w szczególności relację między osobami, których dane dotyczą, a administratorem,
- charakter danych osobowych, w szczególności czy przetwarzane są szczególne kategorie danych osobowych lub dane osobowe dotyczące wyroków skazujących i naruszeń prawa,
- ewentualne konsekwencje zamierzonego dalszego przetwarzania dla osób, których dane dotyczą,
- istnienie odpowiednich zabezpieczeń, w tym ewentualnie szyfrowania lub pseudonimizacji.
Z kolei unijny akt w sprawie sztucznej inteligencji w art. 59 przewiduje możliwość dalszego przetwarzania danych osobowych na potrzeby opracowywania w interesie publicznym określonych systemów AI w ramach piaskownicy regulacyjnej w zakresie AI, a więc przykładowo w obszarze bezpieczeństwa publicznego i zdrowia publicznego, wysokiego poziomu ochrony środowiska, zrównoważonego rozwoju energetycznego, bezpieczeństwa systemów transportowych oraz infrastruktury krytycznej i sieci, wydajności i jakości administracji publicznej i usług publicznych.
Zgodnie z motywem 50 RODO dalsze przetwarzanie do celów m.in. badań naukowych powinno być uznawane za operacje przetwarzania zgodne z prawem i z pierwotnymi celami. Warto wspomnieć, że unijne rozporządzenie w sprawie europejskiej przestrzeni danych dotyczących zdrowia terminem „badania naukowe” obejmuje również działalność innowacyjną, w tym szkolenie algorytmów sztucznej inteligencji wykorzystywanych w opiece zdrowotnej lub opiece nad osobami fizycznymi. Takie badania muszą jednak przynosić długoterminową korzyść społeczną, która musi zostać udowodniona, a zastosowana metoda naukowa musi być identyfikowalna lub zrozumiała dla procesu zdobywania wiedzy.
Możliwe podstawy prawne przetwarzania danych: uzasadniony interes
Zgodnie z art. 6 ust. 1 lit. f RODO przetwarzanie danych osobowych jest zgodne z prawem, jeżeli jest niezbędne do celów wynikających z prawnie uzasadnionych interesów realizowanych przez administratora lub przez stronę trzecią, z wyjątkiem sytuacji, w których nadrzędny charakter wobec tych interesów mają interesy lub podstawowe prawa i wolności osoby, której dane dotyczą, wymagające ochrony danych osobowych, w szczególności gdy osoba, której dane dotyczą, jest dzieckiem. Wskazana podstawa prawna w praktyce ma największe znaczenie w obszarze przetwarzania danych przez systemy sztucznej inteligencji, oferuje bowiem pewien stopień elastyczności, jeśli chodzi o jej interpretację.
Zgodnie z orzecznictwem ETS przetwarzanie danych osobowych na podstawie art. 6 ust. 1 lit. f RODO jest możliwe pod trzema łącznymi warunkami:
- Po stronie administratora (lub osoby trzeciej) faktycznie istnieje jakiś uzasadniony interes, przy czym jest on rozumiany szeroko – może on obejmować każdy prawny, ekonomiczny lub niematerialny interes. Musi zostać on precyzyjnie określony. Uzasadnionym interesem może być sam rozwój systemów sztucznej inteligencji, możliwość rozwijania produktów, np. pojazdów autonomicznych, opracowanie nowych systemów i funkcjonalności dla użytkowników usługi czy opracowanie systemu sztucznej inteligencji do wykrywania nieuczciwych treści lub zachowań (należy wziąć jednak pod uwagę zakazane praktyki, o których mowa w art. 5 unijnego aktu w sprawie sztucznej inteligencji).
- Zachodzi konieczność przetwarzania danych, tzn. nie da się zrealizować uzasadnionego interesu inaczej, jak przetwarzając dane osobowe (a dokładniej – właśnie takie, a nie inne dane).
- Po kompleksowym wyważeniu interesów zostanie stwierdzone, że interesy lub podstawowe prawa i wolności osób, których dane dotyczą, nie przeważają nad uzasadnionym interesem administratora lub strony trzeciej. Ważenie interesów wymaga wzięcia pod uwagę szeregu czynników zależnych od okoliczności sprawy, takich jak zakres danego przetwarzania i jego wpływ na osoby, których dane dotyczą, liczba tych osób, wrażliwość przetwarzanych danych (np. o preferencjach politycznych), a w kontekście AI – poziom szczegółowości i zakres danych szkoleniowych (faza szkolenia), wpływ przetwarzania danych na osoby, których dane dotyczą (wszystkie fazy), wybór metody uczenia maszynowego (metody ML) na podstawie określonych cech, np. w odniesieniu do intensywności przetwarzania danych i przejrzystości metody (fazy szkolenia, dostarczania, wykorzystania i wyników), odporność procesu uczenia maszynowego na manipulacje (wdrożenie, wykorzystanie, faza wyników), wdrożenie dodatkowych środków technicznych i organizacyjnych (wszystkie etapy).

E-learning RODO to już standard!
- to, jakie konkretne korzyści ogólnie oferuje dany model,
- to, czy dany LLM powinien być swobodnie dostępny dla ogółu społeczeństwa (open source) i czy ryzykowne zastosowania są w miarę możliwości wykluczone,
- fakt, że rozwój dużych modeli językowych opartych na bardzo dużych zbiorach danych szkoleniowych zazwyczaj nie wiąże się z ukierunkowanym przetwarzaniem danych osobowych lub identyfikacją konkretnej osoby,
- potencjalny brak możliwości wyjaśnienia, przejrzystości i funkcjonalności dużego modelu językowego oraz związaną z tym utratę kontroli przez zainteresowane osoby,
- fakt, że przetwarzanie dużych zbiorów danych szkoleniowych w celu opracowania modelu językowego może wiązać się z niższym prawdopodobieństwem identyfikacji osób.
Drugi przykład podany przez niemiecki organ nadzorczy dotyczy ważenia interesów w ramach rozwoju systemów wspomagania kierowcy opartych na sztucznej inteligencji. Rozwój takich systemów może wymagać przetwarzania danych osobowych w postaci danych szkoleniowych (zwłaszcza obrazu) z rzeczywistego ruchu drogowego. W ramach ważenia powinno się wziąć pod uwagę m.in.:
- konstytucyjnie chronione interesy użytkowników dróg (np. przechodniów), polegające na możliwości niezauważonego poruszania się w przestrzeni publicznej,
- to, czy dane osoby w ogóle aktywnie uczestniczą w ruchu drogowym, czy też znajdują się jedynie w pobliżu obszarów ruchu drogowego (np. na zewnątrz lokali gastronomicznych, gdzie nie mogą się spodziewać przetwarzania danych),
- fakt, że funkcje jazdy, które mają zostać opracowane, służą przede wszystkim poprawie bezpieczeństwa drogowego, a tym samym dobru wspólnemu,
- skuteczne środki techniczne i organizacyjne, takie jak pseudonimizacja lub anonimizacja danych osobowych, które mogą znacznie zmniejszyć wagę ingerencji.
Przetwarzanie szczególnych kategorii danych osobowych
Ze zwiększonymi wymogami w zakresie ochrony wiąże się przetwarzanie szczególnych kategorii danych osobowych (tj. danych ujawniających pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych oraz danych genetycznych, danych biometrycznych w celu jednoznacznego zidentyfikowania osoby fizycznej lub danych dotyczących zdrowia, seksualności lub orientacji seksualnej). W ramach szkolenia systemu AI i korzystania z niego kluczowe jest ustalenie, czy dane szczególnych kategorii można uzyskać z całokształtu danych osobowych dotyczących danej osoby. Wyjątki od zakazu przetwarzania szczególnych kategorii danych osobowych wynikają z podstaw prawnych określonych w art. 9 ust. 2–4 RODO, które należy interpretować wąsko.
O przetwarzaniu szczególnych kategorii danych stanowi art. 10 ust. 5 unijnego aktu w sprawie sztucznej inteligencji. Przepis ten przewiduje możliwość przetwarzania takich danych wyłącznie w celu badania pod kątem ewentualnej stronniczości, która może mieć wpływ na zdrowie i bezpieczeństwo osób, negatywnie wpływać na prawa podstawowe lub prowadzić do dyskryminacji zakazanej na mocy prawa Unii, zwłaszcza w przypadku gdy dane wyjściowe wpływają na dane wejściowe wykorzystywane na potrzeby przyszłych operacji. Przetwarzanie może również służyć ewentualnemu korygowaniu takiej zidentyfikowanej stronniczości. Nawet wtedy muszą być jednak spełnione określone warunki przetwarzania danych, np. warunek, że nie jest możliwe skuteczne wykrywanie i korygowanie stronniczości przez przetwarzanie innych danych, w tym danych syntetycznych lub zanonimizowanych.
Podsumowanie
Przetwarzanie danych osobowych z wykorzystaniem sztucznej inteligencji podlega w pełni przepisom RODO. Dlatego – tak jak w przypadku każdego innego rodzaju przetwarzania – kluczowe jest ustalenie, czy (a jeśli tak, to na jakim etapie) mamy do czynienia z danymi osobowymi, czyli informacjami pozwalającymi zidentyfikować konkretną osobę, także pośrednio. Jeśli odpowiedź na to pytanie jest twierdząca, konieczne staje się określenie, kto pełni funkcję administratora danych – a więc kto decyduje o celach i sposobach ich przetwarzania. Trzecim krokiem jest wskazanie odpowiedniej podstawy prawnej przetwarzania – zgodnie z art. 6 lub art. 9 RODO. Dopiero po rozstrzygnięciu tych trzech kluczowych kwestii możliwe jest skuteczne wdrożenie pozostałych obowiązków wynikających z przepisów o ochronie danych osobowych.
Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!
Dlaczego w kontekście systemów sztucznej inteligencji zgoda rzadko stanowi odpowiednią podstawę prawną przetwarzania danych osobowych w dużych zbiorach szkoleniowych?