Wytyczne CNIL dotyczą systemów AI, których zastosowanie operacyjne w fazie wdrażania zostało określone już na etapie rozwoju, lub systemów sztucznej inteligencji ogólnego przeznaczenia, na przykład wykorzystujących modele „fundamentalne”, ze względu na ich zdolność do ponownego wykorzystania i dostosowania do różnych zastosowań i przypadków użycia.

Wytyczne dotyczą również wszystkich systemów AI określonych powyżej niezależnie od tego, czy uczenie się odbywa się „raz na zawsze” czy w sposób ciągły. W przypadku systemów uczenia się w sposób ciągły dane zebrane podczas wdrażania systemu są ponownie wykorzystywane do iteracyjnego ulepszania systemu. Wreszcie wytyczne dotyczą przetwarzania polegającego na szkoleniu lub dostosowywaniu istniejących modeli AI, o ile wiąże się to z danymi osobowymi. W wielu przypadkach opracowanie systemu sztucznej inteligencji będzie opierać się na dostosowaniu wstępnie wytrenowanych modeli (fine-tuning) lub uczeniu się przez transfer (transfer learning). CNIL uważa, że ta faza stanowi drugą fazę rozwoju, odrębną od tej, która umożliwiła utworzenie pierwotnego modelu.
RODO ma zastosowanie do ponownego wykorzystywania baz danych przez administratora lub podmiot przetwarzający dane z siedzibą w Unii Europejskiej, jeżeli przetwarzanie odbywa się w ramach działalności jednego z jego zakładów na terytorium Unii, nawet jeśli bazy te zostały utworzone poza Unią i zawierają dane osobowe osób nieprzebywających na terytorium Unii. RODO ma zastosowanie również do wykorzystania modeli szkolonych poza Unią Europejską przez administratora danych lub podmiot przetwarzający dane z siedzibą w Unii Europejskiej, o ile zawierają one dane osobowe, a przetwarzanie odbywa się w ramach działalności jednego z jego zakładów na terytorium Unii.
Krok 1: Określenie celu (finalnego) systemu sztucznej inteligencji
Jasno określony cel pozwala na wyznaczenie zakresu i ograniczenie danych osobowych, które będą wykorzystywane do celów szkoleniowych, tak aby nie przechowywać ani nie przetwarzać zbędnych danych. Cel ten musi być ustalony już na etapie definiowania projektu.
Czasami pojawia się zarzut, że wymóg określenia celu jest niezgodny ze szkoleniem sztucznej inteligencji, która może rozwinąć nieprzewidziane cechy. CNIL uważa, że tak nie jest i że wymóg określenia celu musi być dostosowany do kontekstu sztucznej inteligencji, ale nie może „zniknąć”.
CNIL wyróżnia trzy typowe sytuacje:
-
Dokładnie określone zastosowanie operacyjne
Przykład: Organizacja tworzy bazę danych zawierającą zdjęcia pociągów w ruchu – tj. z obecnymi w nich osobami – w celu wyszkolenia algorytmu do pomiaru natężenia ruchu i frekwencji pociągów na peronach dworców. Cel fazy rozwoju jest określony, wyraźny i uzasadniony w odniesieniu do zidentyfikowanego zastosowania operacyjnego.
-
Systemy AI ogólnego przeznaczenia
Przykład: Organizacja może stworzyć bazę danych do szkolenia modelu klasyfikacji obrazów (osób, pojazdów, żywności itp.) i udostępnić ją publicznie, bez przewidywania konkretnego zastosowania operacyjnego podczas opracowywania modelu. Nie można definiować celu w sposób zbyt ogólny (np. opracowanie i udoskonalenie systemu AI). Należy być bardziej precyzyjnym i odnieść się do „rodzaju” opracowywanego systemu (np. opracowanie dużego modelu językowego lub systemu AI generującego obrazy, filmy, dźwięki, kody itp.) oraz do funkcjonalności i możliwości technicznych.
-
Systemy AI opracowywane do celów badań naukowych
Przykład: Za realizację celów badań naukowych można uznać opracowanie systemu sztucznej inteligencji służącego do weryfikacji koncepcji mającej wykazać solidność uczenia maszynowego, które wymaga mniejszej ilości danych szkoleniowych, w ramach udokumentowanego podejścia naukowego przewidzianego do publikacji.
Krok 2: Określenie swojego zakresu odpowiedzialności
Określenie zakresu odpowiedzialności polega na ustaleniu, czy i w jakim zakresie jest się administratorem danych (na którym ciąży gros obowiązków wskazanych w RODO) czy „tylko” podmiotem przetwarzającym (na którym ciąży tych obowiązków znacznie mniej). Na przykład:
- Jeśli jesteś dostawcą, który zainicjował opracowanie systemu AI, i tworzysz bazę danych szkoleniowych na podstawie danych wybranych na własny rachunek, możesz zostać uznany za administratora danych.
- Jeśli tworzysz bazę danych szkoleniowych dla systemu AI wraz z innymi administratorami danych w celu, który wspólnie ustaliliście, możesz zostać uznany za współadministratora danych.
- Jeśli jesteś dostawcą systemu sztucznej inteligencji, możesz być podmiotem przetwarzającym w przypadku, gdy opracowujesz system na zlecenie jednego ze swoich klientów. Klient będzie administratorem, jeśli określi cel, a także środki i techniki, które należy zastosować. Jednak jeśli klient poda Ci tylko cel do osiągnięcia, a to Ty projektujesz system AI, możesz zostać uznany za administratora danych.
Krok 3: Określ podstawę prawną, która uprawnia Cię do przetwarzania danych osobowych
Mowa o podstawach prawnych wskazanych w art. 6 ust. 1 RODO. Zadanie to leży po stronie administratora/współadministratora danych, stąd tak ważne jest, aby właściwie ustalić swój status (krok 2).
Jeśli zbierasz dane bezpośrednio od osób i mogą one zaakceptować ich przetwarzanie lub odrzucić bez ponoszenia szkody (np. rezygnacji z usługi), zgoda jest zwykle najbardziej odpowiednią podstawą prawną. W praktyce uzyskanie zgody jest jednak często niemożliwe. Na przykład w przypadku gromadzenia danych dostępnych online lub ponownego wykorzystania otwartej bazy danych (open source), bez bezpośredniego kontaktu z osobami, których dane dotyczą, zazwyczaj bardziej odpowiednie jest powołanie się na prawnie uzasadniony interes. Oczywiście wówczas należy przeprowadzić tzw. test uzasadnionego interesu, aby móc wykazać, że oparcie się na takiej podstawie prawnej przetwarzania było uzasadnione (o czym mowa niżej). Podstawy prawne umowy i obowiązku prawnego mogą być wykorzystane w bardziej wyjątkowych przypadkach, jeśli wykażesz, w jaki sposób przetwarzanie danych jest niezbędne do wykonania umowy lub działań przed zawarciem umowy lub do wypełnienia obowiązku prawnego (wystarczająco precyzyjnego), któremu podlegasz.
Uzasadniony interes jest jedną z najczęściej stosowanych podstaw prawnych rozwoju systemów AI, zwłaszcza przez podmioty prywatne. Interes ten odpowiada korzyściom, jakie administrator danych lub osoby trzecie czerpią z rozwoju systemu AI. Wykorzystanie uzasadnionego interesu podlega trzem warunkom:
- interes musi być zgodny z prawem (w tym z innymi przepisami niż RODO) oraz określony w sposób wystarczająco jasny i precyzyjny,
- interes nie może być osiągnięty za pomocą środków mniej inwazyjnych dla prywatności,
- administrator danych musi rozważyć oczekiwane z jego punktu widzenia korzyści wynikające z przetwarzania danych oraz wpływ na osoby, których dane dotyczą.
Wykorzystanie danych nie powinno być zaskoczeniem dla osób, których te dane dotyczą. Jeśli chcesz powołać się na podstawę prawną w postaci prawnie uzasadnionego interesu w celu przetwarzania danych, musisz wziąć pod uwagę kilka czynników:
- w przypadku danych zebranych od osób – relację między Tobą a daną osobą, kontekst, charakter usługi oraz fakt, że przetwarzanie danych dotyczy wyłącznie usługi świadczonej na rzecz danej osoby lub służy poprawie jakości usługi jako całości,
- w przypadku ponownego wykorzystania danych opublikowanych w Internecie – publiczny charakter danych, kontekst i charakter stron internetowych będących źródłem danych (sieci społecznościowe, fora internetowe, strony internetowe udostępniające zbiory danych itp.), rodzaj publikacji lub relację między osobą, której dane dotyczą, a organizacją. Przetwarzanie danych nie będzie zgodne z uzasadnionymi oczekiwaniami osób, jeśli z gromadzenia danych nie wykluczy się stron, które nałożyły ograniczenia (warunki użytkowania, pliki robots.txt, CAPTCHA).
Uwaga: osoby mogą być świadome, że niektóre dane, które publikują w Internecie, mogą być przeglądane, gromadzone i ponownie wykorzystywane przez osoby trzecie. Nie mogą jednak oczekiwać tego we wszystkich sytuacjach i w odniesieniu do wszystkich rodzajów danych ich dotyczących, które są dostępne w Internecie.
Oparcie przetwarzania na prawnie uzasadnionym interesie może wymagać zastosowania dodatkowych środków zabezpieczających, takich jak:
- sporządzenie domyślnej listy wykluczonych witryn zawierających szczególnie wrażliwe dane (fora dotyczące zdrowia itp.),
- wykluczenie witryn, które sprzeciwiają się zbieraniu ich treści za pomocą środków technicznych lub prawnych (np. ogólnych warunków użytkowania),
- ograniczenie gromadzenia danych do informacji ogólnodostępnych (bez konieczności tworzenia konta), o których publicznym charakterze osoby są świadome,
- poinformowanie osób w jak najszerszym zakresie (w artykułach online, na kontach w mediach społecznościowych itp.),
- przewidzenie prawa do sprzeciwu – i to jeszcze przed gromadzeniem danych – z rozsądnym terminem przed rozpoczęciem szkolenia modelu,
- anonimizacja lub pseudonimizacja danych bezpośrednio po ich zebraniu oraz zapobieganie wszelkim powiązaniom danych na podstawie identyfikatorów osób.
Krok 4: Sprawdź, czy możesz ponownie wykorzystać niektóre dane osobowe
Jeśli planujesz ponowne wykorzystanie bazy danych zawierającej dane osobowe, upewnij się, że jest to zgodne z prawem. Zakres dopuszczalnego wykorzystania zależy od sposobu gromadzenia i źródła danych. Zasady mogą różnić się w zależności od konkretnej sytuacji:
-
Ponowne wykorzystanie danych zebranych samodzielnie
Jeśli nie przewidziano ponownego wykorzystania danych ani nie poinformowano o nim osób, których dane dotyczą, należy sprawdzić, czy nowe wykorzystanie jest zgodne z pierwotnym celem. Wyjątkiem jest sytuacja, gdy osoby, których dane dotyczą, wyraziły zgodę lub gdy takie wykorzystanie odbędzie się na podstawie konkretnego przepisu prawa. Aby przeprowadzić „test zgodności”, należy zweryfikować:
- związek między pierwotnym celem a celem utworzenia bazy danych do uczenia się systemu AI,
- kontekst, w jakim dane osobowe zostały zebrane,
- rodzaj i charakter danych,
- ewentualne konsekwencje dla osób, których dane dotyczą,
- istnienie odpowiednich gwarancji (np. pseudonimizacja danych).
-
Ponowne wykorzystanie danych dostępnych publicznie (open source)
W takim przypadku należy sprawdzić, czy nie wykorzystuje się ponownie bazy danych, której utworzenie było ewidentnie niezgodne z prawem (np. pochodziło z wycieku danych). CNIL zaleca sprawdzenie i udokumentowanie, czy:
- opis bazy danych zawiera informację o jej źródle,
- tworzenie lub rozpowszechnianie bazy danych nie wynika w sposób oczywisty z przestępstwa ani nie było przedmiotem wyroku skazującego lub publicznej sankcji ze strony właściwego organu, które pociągały za sobą usunięcie danych lub zakaz ich wykorzystywania,
- nie ma żadnych oczywistych wątpliwości co do legalności bazy danych (w szczególności przez potwierdzenie, że warunki gromadzenia danych są wystarczająco udokumentowane),
- baza danych nie zawiera danych szczególnych kategorii ani danych dotyczących przestępstw.
-
Ponowne wykorzystanie danych uzyskanych od osób trzecich (pośredników danych, brokerów danych itp.)
W przypadku danych uzyskanych od osób trzecich, które udostępniają dane osobowe (czasami za wynagrodzeniem), można wyróżnić dwa scenariusze:
- jeśli osoba trzecia zebrała dane w celu stworzenia bazy danych do nauki systemu AI, to musi zapewnić zgodność z RODO przetwarzania i przekazywania danych,
- jeśli osoba trzecia nie gromadziła początkowo danych w tym celu, to musi zagwarantować, że przekazywanie tych danych służy celowi zgodnemu z celem, który uzasadniał ich gromadzenie.
Krok 5: Ograniczanie ilości wykorzystywanych danych osobowych
Należy wybierać takie rozwiązania techniczne, które pozwalają osiągnąć zamierzony (lub podobny) rezultat przy użyciu jak najmniejszej ilości danych osobowych. Zdaniem CNIL w szczególności nie należy systematycznie stosować głębokiego uczenia się. Wybór stosowanego protokołu uczenia się może na przykład umożliwić ograniczenie dostępu do danych wyłącznie do upoważnionych osób lub zapewnienie dostępu wyłącznie do danych zaszyfrowanych. Aby upewnić się, że zebrane dane są adekwatne do realizowanych celów, CNIL zaleca wykonanie następujących działań:
-
Oczyszczanie danych
Pozwala stworzyć wysokiej jakości bazę danych szkoleniowych, a tym samym wzmocnić integralność i trafność danych przez zmniejszenie niespójności oraz obniżenie kosztów szkolenia.
-
Identyfikacja odpowiednich danych
Ma na celu optymalizację wydajności systemu przy jednoczesnym uniknięciu niedouczenia i nadmiernego uczenia się. W praktyce pozwala upewnić się, że niektóre klasy lub kategorie, które są niepotrzebne dla danego zadania, nie są reprezentowane, że proporcje między różnymi klasami zainteresowania są dobrze zrównoważone itp. Procedura ta ma również na celu identyfikację danych nieistotnych dla uczenia się (które następnie należy usunąć z bazy).
-
Wdrożenie środków mających na celu uwzględnienie zasad ochrony danych osobowych już na etapie projektowania
Pozwala na zastosowanie przekształceń danych (takich jak środki uogólnienia i/lub randomizacji, anonimizacja danych) w celu ograniczenia wpływu na osoby fizyczne.
-
Monitorowanie i aktualizacja danych
Środki minimalizacji mogą z czasem stać się nieaktualne. Zebrane dane mogą stracić swój dokładny, istotny, adekwatny i ograniczony charakter z powodu ewentualnego odchylenia danych, ich aktualizacji lub rozwoju technik. Należy zatem przeprowadzać regularną analizę w celu monitorowania utworzonej bazy danych.
-
Dokumentacja danych wykorzystanych do opracowania systemu sztucznej inteligencji
Pozwala zapewnić identyfikowalność wykorzystanych zbiorów danych, co może być utrudnione ze względu na ich duży rozmiar. Dokumentacja ta musi być aktualizowana zgodnie ze zmianami wprowadzanymi w bazie danych (CNIL udostępnił wzór takiej dokumentacji).
Krok 6: Określenie okresu przechowywania
W fazie rozwoju przechowywanie danych musi być wcześniej zaplanowane i monitorowane w czasie. Osoby, których dane dotyczą, muszą być poinformowane o okresie przechowywania danych.
Kiedy ostatnio
robiłeś analizę ryzyka?
Przechowywanie danych szkoleniowych może umożliwić przeprowadzanie audytów i ułatwić pomiar niektórych błędów. W takich przypadkach przedłużone przechowywanie danych może być uzasadnione, chyba że wystarczające jest przechowywanie ogólnych informacji o danych.
Krok 7: Poinformowanie osób
Obowiązek informacyjny z art. 13 i 14 RODO dotyczy danych gromadzonych od osób, których dane dotyczą, bezpośrednio (w ramach świadczenia usługi, umowy o świadczenie usług z podmiotami działającymi dobrowolnie itp.) lub pośrednio, w szczególności przez zbieranie danych (web scraping). Należy zadbać o to, aby informacje były zwięzłe i jasne. Zaleca się szczegółowe opisanie, na przykład za pomocą schematów, sposobu wykorzystania danych podczas uczenia się, działania opracowanego systemu sztucznej inteligencji, a także rozróżnienia między bazą danych uczenia się, modelem sztucznej inteligencji a wynikami modelu. Informacje muszą być przekazywane indywidualnie, ale RODO przewiduje dwa wyjątki:
- wszystkie informacje dotyczące przetwarzania zostały już przekazane osobie, której dane dotyczą (np. przez stronę trzecią),
- przekazanie tych informacji wymagałoby nieproporcjonalnego wysiłku, biorąc pod uwagę nakład pracy (ze względu na brak możliwości kontaktu, wiek danych itp.) oraz stopień naruszenia prywatności. W szczególności przekazywanie indywidualnych informacji jest niewspółmiernie trudne w przypadku gromadzenia danych pseudonimizowanych za pomocą scrapingu (web scrapingu), ponieważ znalezienie sposobów skontaktowania się z osobami może wymagać zebrania dodatkowych lub bardziej identyfikujących danych. Dlatego w takich sytuacjach wystarczy opublikować pełną informację ogólną na swojej stronie internetowej.
Ponadto należy uwzględnić następujące kwestie szczególne:
- Informacje dotyczące źródeł stanowią szczególną trudność. Jeśli liczba przetwarzanych źródeł jest niewielka, co do zasady należy podać dokładną tożsamość źródeł, zwłaszcza w przypadku zbierania danych z ograniczonej liczby stron internetowych. Jeśli jednak korzystasz z bardzo wielu źródeł, możesz wskazać tylko kategorie źródeł, w szczególności nazwy kilku głównych lub typowych źródeł.
- W przypadku gdy model lub system sztucznej inteligencji podlega przepisom RODO, CNIL zaleca określenie charakteru ryzyka związanego z pozyskiwaniem danych osobowych z bazy szkoleniowej wyłącznie przez manipulowanie modelem sztucznej inteligencji, środków podjętych w celu ograniczenia tego ryzyka oraz mechanizmów odwoławczych na wypadek jego wystąpienia.
Krok 8: Zapewnienie wykonywania praw osób, których dane dotyczą
Osoby fizyczne muszą mieć możliwość wykonywania swoich praw (prawa dostępu, sprostowania, usunięcia, ograniczenia, przenoszenia) w odniesieniu do bazy danych szkoleniowej i samego modelu sztucznej inteligencji, jeśli nie jest on uznawany za anonimowy.
W niektórych przypadkach można wykazać, że nie jest możliwe zidentyfikowanie osób w modelu. Obecny stan wiedzy technicznej na ogół nie pozwala na identyfikację wszystkich danych osobowych przechowywanych przez model sztucznej inteligencji w odniesieniu do konkretnej osoby. Osoby mogą jednak podać dodatkowe dane osobowe, aby ułatwić ich odnalezienie w bazie danych lub w modelu (np. zdjęcie lub pseudonim). CNIL zaleca przewidywanie takich trudności i informowanie osób o dodatkowych informacjach, które mogą pomóc administratorom w poszukiwaniach.
W ramach realizacji prawa dostępu odpowiedź udzielona przez administratora powinna zawierać w szczególności informacje umożliwiające identyfikację konkretnych odbiorców danych, a gdy dane nie zostały zebrane bezpośrednio od osób – również informacje pozwalające ustalić pochodzenie tych danych (np. brokerzy danych). Prawo dostępu umożliwia uzyskanie wszelkich „dostępnych” informacji dotyczących źródła danych. Jeśli administrator zidentyfikuje osobę, której dane dotyczą, i stwierdzi, że jej dane zostały zapisane przez model, musi poinformować o tym tę osobę – przekazać jej wyniki swoich badań. Jeśli nie można sprawdzić, czy dane zostały zapisane, ale nie można tego również wykluczyć (ze względu na obecne ograniczenia techniczne i naukowe), CNIL zaleca poinformowanie osób, że nie da się wykluczyć, że model zapisał dane szkoleniowe, które ich dotyczą. W takim przypadku należy przekazać dodatkowe informacje: odbiorcy modelu, okres przechowywania danych lub kryteria pozwalające go określić, prawa, które można wykonywać w odniesieniu do modelu, oraz pochodzenie modelu, jeśli nie jest się jego twórcą.
Osoby fizyczne mają pod pewnymi warunkami prawo do sprostowania swoich danych, ich usunięcia i sprzeciwu wobec ich przetwarzania z powodów, które są dla nich istotne, zarówno w bazie danych szkoleniowej, jak i w modelu. Domyślnie wykonywanie praw do modelu wymaga jego ponownego przeszkolenia, o ile nadal dysponuje się danymi szkoleniowymi. W przypadku wykazania, że ponowne szkolenie jest nieproporcjonalne, zaleca się wdrożenie innych rodzajów środków, takich jak filtry stosowane w systemie sztucznej inteligencji, które hermetyzują model.
Ponadto RODO przewiduje, że organizacja powiadamia każdego odbiorcę, któremu przekazano dane osobowe, o wszelkich sprostowaniach lub o usunięciu danych, chyba że takie powiadomienie okaże się niemożliwe lub wymaga nieproporcjonalnego wysiłku. Wykorzystanie interfejsów API lub środków umożliwiających śledzenie pobrań może ułatwić takie powiadomienie.
Krok 9: Zabezpieczenie systemu sztucznej inteligencji
W celu zabezpieczenia systemu sztucznej inteligencji CNIL rekomenduje podjęcie następujących działań:
- w zakresie zapewnienia poufności i integralności danych szkoleniowych – weryfikację wiarygodności, jakości i integralności źródeł danych szkoleniowych, rejestrowanie zbiorów danych i zarządzanie ich wersjami, w miarę możliwości korzystanie z danych fikcyjnych lub syntetycznych, szyfrowanie kopii zapasowych i komunikacji, kontrolę dostępu do danych, które nie są udostępniane w formie otwartej, anonimizację lub pseudonimizację danych, oddzielanie wrażliwych zbiorów danych,
- w zakresie zapewnienia wydajności i integralności systemu AI – uwzględnienie ochrony danych przy projektowaniu systemu, z dążeniem do minimalizacji, korzystanie ze sprawdzonych narzędzi programistycznych, bibliotek i wstępnie wyszkolonych modeli (należy zwrócić szczególną uwagę na obecność backdoorów w systemie), preferowanie sprawdzonych formatów importu i tworzenia kopii zapasowych, korzystanie z kontrolowanego, powtarzalnego i łatwego do wdrożenia środowiska programistycznego, dokumentowanie projektu systemu i jego działania, niezbędnego sprzętu oraz wdrożonych środków ochrony, przeprowadzanie audytów bezpieczeństwa (wewnętrznych lub realizowanych przez strony trzecie), w szczególności przez wykonywanie typowych ataków na system AI,
- w zakresie przewidywania działania systemu AI – poinformowanie użytkownika o ograniczeniach systemu w przewidywanych kontekstach użytkowania, przekazywanie informacji umożliwiających użytkownikowi interpretację wyników, przewidzenie możliwości zatrzymania systemu, kontrolowanie danych wyjściowych systemu za pomocą filtrów czy uczenia się przez wzmocnienie na podstawie informacji zwrotnej od człowieka.
Krok 10: Analiza statusu modelu sztucznej inteligencji
Model sztucznej inteligencji jest statystycznym odwzorowaniem cech bazy, która posłużyła do jego szkolenia. W niektórych przypadkach reprezentacja ta jest na tyle szczegółowa, że prowadzi do ujawnienia danych szkoleniowych. Modele AI szkolone na danych osobowych należy w większości przypadków uznać za podlegające przepisom RODO. Aby ustalić, czy dany model podlega przepisom RODO (i czy można go zatem uznać za anonimowy), należy przeprowadzić analizę jego statusu. Ma ona na celu wyodrębnienie danych osobowych przy użyciu środków, które można racjonalnie zastosować, w szczególności testów ataków polegających na ponownej identyfikacji.
W ustaleniu konieczności przeprowadzenia ataków ponownej identyfikacji danych szkoleniowych w modelu mogą pomóc następujące wskaźniki:
- dotyczące danych szkoleniowych – dane mają charakter identyfikacyjny i precyzyjny, są niejednorodne, rzadkie lub powielone w zbiorze danych,
- dotyczące architektury modelu – istnieje wysoki stosunek liczby parametrów do objętości danych szkoleniowych, co wskazuje na ryzyko nadmiernego uczenia się lub brak gwarancji poufności podczas uczenia się (poufność różnicowa lub prywatność różnicowa itp.),
- dotyczące funkcjonalności i zastosowań modelu – celem jest odtworzenie danych podobnych do danych szkoleniowych (np. generowanie treści w przypadku sztucznej inteligencji generatywnej) lub przeprowadzono skuteczne ataki ponownej identyfikacji na podobnych modelach.
Jeśli analiza statusu modelu wykazała, że nie można go uznać za anonimowy, można zmniejszyć prawdopodobieństwo ponownej identyfikacji osób.
Krok 11: Przestrzeganie zasad RODO podczas fazy adnotacji
Adnotacja polega na przypisaniu każdemu elementowi danych opisu, zwanego „etykietą” lub „oznaczeniem”, który posłuży jako wartość referencyjna (ground truth) dla modelu uczącego się przetwarzać, klasyfikować lub rozróżniać dane na podstawie tych informacji (np. kolor skóry w postaci wartości pikseli). Adnotacje muszą być dokładne, obiektywne i jeśli to możliwe – aktualne. Adnotacje powinny również ograniczać się do tego, co jest niezbędne do szkolenia modelu.
Przeprowadzenie oceny wpływu na ochronę danych (DPIA)
CNIL zaleca przeprowadzenie DPIA (art. 35 RODO) zwłaszcza wtedy, gdy spełnione są dwa z poniższych kryteriów:
- gromadzone są dane wrażliwe,
- gromadzone są dane osobowe na dużą skalę,
- gromadzone są dane osób szczególnie wrażliwych (osób niepełnoletnich, niepełnosprawnych itp.),
- zbiory danych są krzyżowane lub łączone,
- wdrażane są nowe rozwiązania technologiczne lub stosowane są innowacyjne rozwiązania.
CNIL uważa, że w przypadku opracowywania systemów wysokiego ryzyka objętych europejskim rozporządzeniem w sprawie sztucznej inteligencji i dotyczących danych osobowych przeprowadzenie oceny wpływu na ochronę danych jest co do zasady konieczne.
Uwaga: przeprowadzenie DPIA może opierać się na dokumentacji wymaganej przez rozporządzenie w sprawie sztucznej inteligencji, pod warunkiem że zawiera ona elementy przewidziane w art. 35 RODO.
Przetwarzanie danych osobowych z wykorzystaniem systemów sztucznej inteligencji wiąże się ze szczególnymi zagrożeniami. Należy wziąć pod uwagę:
- ryzyko związane z poufnością danych, które mogą zostać wyodrębnione z systemu AI,
- ryzyko dla osób, których dane dotyczą, związane z niewłaściwym wykorzystaniem danych zawartych w bazie szkoleniowej (przez pracowników mających do niej dostęp lub w przypadku naruszenia bezpieczeństwa danych),
- ryzyko automatycznej dyskryminacji spowodowanej stronniczością systemu AI wprowadzoną podczas jego opracowywania,
- ryzyko tworzenia fałszywych treści dotyczących rzeczywistych osób, zwłaszcza w przypadku generatywnych systemów AI,
- ryzyko automatycznego podejmowania decyzji, gdy użytkownik systemu nie jest w stanie sprawdzić jego działania w rzeczywistych warunkach lub podjąć decyzji sprzecznej z wynikami systemu bez ponoszenia negatywnych konsekwencji (np. z powodu presji ze strony przełożonych),
- ryzyko utraty kontroli przez użytkowników nad ich danymi dostępnymi online,
- ryzyko związane ze znanymi atakami charakterystycznymi dla systemów sztucznej inteligencji (np. ataki typu data poisoning).
Po określeniu poziomu ryzyka DPIA musi przewidzieć zestaw środków mających na celu jego ograniczenie i utrzymanie na akceptowalnym poziomie (np. szyfrowanie homomorficzne, wykorzystanie danych syntetycznych, uczenie federacyjne, fikcyjne ataki).
Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!
Który z poniższych czynników CNIL wskazuje jako szczególnie ważny przy ocenie możliwości ponownego wykorzystania danych osobowych do trenowania systemu AI?
