Jak zgodnie z RODO korzystać z ChatGPT

Korzystanie z ChatGPT, jak w przypadku każdej nowej technologii, zawsze budzi obawy o bezpieczeństwo danych przetwarzanych za jego pośrednictwem. W tym artykule wskażemy, na co zwrócić uwagę podczas używania ChatGPT i podobnych technologii, aby zapewnić zgodność z RODO i nie ujawnić tajemnic przedsiębiorstwa.

Poniższy artykuł powstał na bazie zaleceń Narodowego Centrum Cyberbezpieczeństwa Wielkiej Brytanii – NCSC oraz poradnika brytyjskiego organu nadzorczego – ICO.

Czym jest ChatGPT

ChatGPT to chatbot wykorzystujący sztuczną inteligencję, opracowany przez OpenAI (amerykański start-up technologiczny). Opiera się na GPT-3 – modelu językowym wydanym w 2020 roku, który wykorzystuje głębokie uczenie do generowania tekstu naśladującego tekst ludzki. Bazowa technologia dużych modeli językowych – LLM (Large Language Models) istnieje jednak znacznie dłużej.

LLM to model, w którym algorytm został wytrenowany na ogromnej ilości danych tekstowych, zazwyczaj pochodzących z otwartego internetu, a więc obejmujących strony internetowe, oraz – w zależności od konkretnego modelu – innych źródeł, takich jak badania naukowe, książki czy wpisy w mediach społecznościowych. Obejmuje on tak dużą ilość danych, że nie jest możliwe odfiltrowanie wszystkich obraźliwych lub niepoprawnych treści przy pobieraniu (a zatem treści kontrowersyjne prawdopodobnie również zostaną w nim uwzględnione).

Algorytmy analizują zależności między różnymi słowami i przekształcają to w model prawdopodobieństwa. Można wtedy dać algorytmowi „podpowiedź”, np. zadać mu pytanie, a on udzieli odpowiedzi na podstawie relacji słów w swoim modelu.

Zazwyczaj dane w modelu są statyczne po jego wytrenowaniu, chociaż można je udoskonalać przez dostrajanie (czyli trenowanie na dodatkowych danych) i rozszerzanie podpowiedzi (czyli dostarczanie informacji kontekstowych dotyczących pytania). Przykładem rozszerzenia podpowiedzi może być:

Biorąc pod uwagę poniższe informacje, jak opisałbyś…

Następnie do podpowiedzi/zapytania kopiowane są potencjalnie duże ilości tekstu (lub całe dokumenty).

LLM w skuteczny sposób umożliwia użytkownikom zadawanie pytań, tak jak w przypadku prowadzenia rozmowy z chatbotem. Inne przykłady LLM, które niedawno się pojawiły, to m.in. zapowiadane usługi – Bard przez firmę Google oraz LLaMa (dla prac naukowych) przez firmę Meta.

ChatGPT niewątpliwie imponuje umiejętnością generowania ogromnego zakresu przekonujących treści w wielu językach: ludzkich i komputerowych. Jednak nie jest to magiczne narzędzie ani sztuczna inteligencja ogólna. Języki te mają bowiem kilka poważnych wad, m.in.:

mogą się mylić i „zmyślać”, czyli podawać nieprawidłowe/nieprawdziwe fakty,
mogą być stronnicze, a często są naiwne lub bezkrytyczne (np. przy udzielaniu odpowiedzi na pytania naprowadzające),
wymagają ogromnych zasobów obliczeniowych i ogromnych danych do trenowania od podstaw,
mogą być nakłaniane do tworzenia toksycznych treści i są podatne na wstrzykiwanie kodu, czyli ataki typu injection.

Czy ChatGPT ujawnia informacje, które są do niego wprowadzane

Powszechną obawą jest to, że ChatGPT może „uczyć się” z podpowiedzi i oferować te informacje innym, którzy pytają o podobne rzeczy. Jest to pewien powód do niepokoju, ale jego źródło tkwi gdzie indziej, niż wielu sądzi. Obecnie (w chwili pisania tego tekstu) ChatGPT jest trenowany, a następnie wynikowy model jest odpytywany. ChatGPT nie dodaje automatycznie informacji z zapytań do swojego modelu, aby inni mogli o nie pytać. To znaczy, że umieszczenie informacji w zapytaniu nie spowoduje włączenia tych danych do ChatGPT.

Jednak trzeba mieć na uwadze, że zapytanie będzie widoczne dla dostawcy ChatGPT (czyli firmy OpenAI). Zapytania te są przechowywane i prawie na pewno zostaną w pewnym momencie wykorzystane do rozwoju usługi lub modelu ChatGPT. Może to oznaczać, że dostawca ChatGPT (lub jego partnerzy/wykonawcy) jest w stanie czytać zapytania i może je w taki czy inny sposób włączyć do przyszłych wersji. W związku z tym decyzja o zadaniu wrażliwego pytania zawsze musi być poprzedzona dokładnym sczytaniem warunków użytkowania oraz polityki prywatności.

Pytanie może być wrażliwe ze względu na zawarte w nim dane (np. gdy dotyczy zdrowia lub związku) lub ze względu na to, kto (i kiedy) je zadaje (przykładem może być zapytanie dyrektora generalnego o to, jak najlepiej zwolnić pracownika – taka sytuacja już się wydarzyła). Należy również pamiętać, że dochodzi do agregacji informacji w wielu zapytaniach przy użyciu tego samego loginu.

Innym ryzykiem, które wzrasta wraz z ilością organizacji produkujących programy ChatGPT, jest to, że zapytania przechowywane online mogą zostać wykradzione, wyciec lub, co bardziej prawdopodobne, zostać przypadkowo udostępnione publicznie. Będzie to szczególnie niebezpieczne w przypadku zapytań obejmujących informacje potencjalnie umożliwiające identyfikację użytkownika. Kolejne ryzyko polega na tym, że operator programu ChatGPT może zostać przejęty przez organizację mającą inne podejście do prywatności niż to, które obowiązywało w momencie wprowadzania danych przez użytkowników.

W związku z tym zalecamy, aby:

nie podawać informacji wrażliwych w zapytaniach do publicznych LLM,
nie wysyłać do publicznych LLM zapytań, które w razie ich upublicznienia mogłyby doprowadzić do powstania problemów.

Ujawnienie tajemnic przedsiębiorstwa to poważne wykroczenie. Jeśli chcesz wiedzieć, co zrobić, by działać zgodnie z RODO, umów się na bezpłatną konsultację z Marcinem Kuźniakiem i dowiedz się, jakie masz jeszcze możliwości.

Czy wprowadzanie poufnych informacji do ChatGPT jest bezpiecznie

Ponieważ wokół technologii ChatGPT narosło wiele kontrowersji i emocji, organizacje mogą się zastanawiać, czy wykorzystywać ją do zautomatyzowania pewnych zadań biznesowych. Takie działania mogą wiązać się z przekazywaniem informacji wrażliwych przez dostrojenie lub rozszerzenie podpowiedzi. O ile więc nie zaleca się używania do celów biznesowych modeli LLM udostępnionych publicznie, o tyle będzie można rozważyć korzystanie z „prywatnych LLM”. Takie modele mogłyby być oferowane przez dostawcę chmury (na przykład) lub w całości znajdować się na prywatnym serwerze internetowym.

W przypadku modeli LLM dostarczanych w chmurze warunki użytkowania i polityka prywatności ponownie stają się kwestią kluczową (tak samo jak w odniesieniu do udostępnionego publicznie bota ChatGPT), ale jest bardziej prawdopodobne, że będą dopasowane do istniejących warunków świadczenia usługi w chmurze. Organizacje muszą zrozumieć, w jaki sposób zarządza się danymi, które będą wykorzystywane do dostrajania lub rozszerzania podpowiedzi. Czy dane będą dostępne dla badaczy lub partnerów dostawcy? Jeśli tak, to w jakiej formie? Czy będą udostępniane w oderwaniu od innych organizacji czy w agregacji z nimi? W jakich warunkach pracownik dostawcy będzie mógł przeglądać zapytania?
LLM na prywatnych serwerach internetowych prawdopodobnie będą bardzo drogie. Jednak po przeprowadzeniu oceny bezpieczeństwa mogą okazać się odpowiednie do obsługi danych organizacyjnych.

Jak ChatGPT ułatwia życie cyberprzestępcom

Przeprowadzono i opisano już kilka eksperymentów pokazujących, jak ChatGPT może pomóc w pisaniu złośliwego oprogramowania. Obawy dotyczą tego, że ChatGPT może zostać wykorzystany przez kogoś mającego złe zamiary (ale niewystarczające umiejętności) do stworzenia narzędzi, których bez tego modelu nie byłby w stanie wdrożyć.

Obecnie bolączką jest to, że ChatGPT generuje odpowiedzi, które wydają się przekonujące (niezależnie od tego, czy są poprawne), i nadaje się bardziej do rozwiązywania prostych zadań niż złożonych. Oznacza to, że ChatGPT jest przydatny dla ekspertów, którzy mogą zatwierdzić dane wyjściowe i zaoszczędzić w ten sposób czas. W przypadku bardziej złożonych zadań ekspertowi łatwiej jest stworzyć złośliwe oprogramowanie od podstaw, niż poświęcać czas na poprawianie tego, co wyprodukował ChatGPT. Jednak ekspert zdolny do stworzenia wysoce wydajnego złośliwego oprogramowania prawdopodobnie będzie w stanie nakłonić ChatGPT do napisania właśnie takiego oprogramowania. Proporcje między wykorzystaniem bota ChatGPT do stworzenia złośliwego oprogramowania od podstaw a zatwierdzeniem złośliwego oprogramowania stworzonego przez ChatGPT będą zmieniały się w miarę doskonalenia tej technologii.

ChatGPT może być również pytany o doradztwo w zakresie problemów technicznych. Istnieje ryzyko, że przestępcy będą wykorzystywać ChatGPT do pomocy w cyberatakach w zakresie przekraczającym ich możliwości, w szczególności po uzyskaniu przez nich dostępu do sieci. Na przykład jeśli napastnik usiłuje eskalować uprawnienia lub znaleźć dane, może zapytać ChatGPT i otrzymać odpowiedź przypominającą wynik wyszukiwania, ale z szerszym kontekstem. Odpowiedzi te mogą z jednej strony pomóc przestępcom w przeprowadzeniu ataków, których nie byliby w stanie wykonać w inny sposób, a z drugiej – sugerować działania, które przyspieszą wykrycie sprawców. Tak czy inaczej, zapytania napastnika zostaną prawdopodobnie zapisane i zachowane przez operatorów ChatGPT.

Ponieważ ChatGPT wyróżnia się replikowaniem stylu pisania na żądanie, istnieje ryzyko, że przestępcy wykorzystają go do napisania przekonujących maili phishingowych, w tym w wielu językach. Może to pomóc napastnikom mającym duże możliwości techniczne, ale nieznającym języków, w tworzeniu przekonujących maili phishingowych (lub prowadzeniu inżynierii społecznej) w języku ojczystym osób, które staną się ich celem.

Podsumowując, w najbliższym czasie być może zaobserwujemy:

wysyłanie bardziej przekonujących maili phishingowych, będących wynikiem użycia bota ChatGPT,
testowanie przez napastników technik, których wcześniej nie znali.

Jest również niskie ryzyko, że mniej wykwalifikowany napastnik napisze wysoce zdolne złośliwe oprogramowanie.

Na co powinni zwrócić uwagę twórcy LLM w kontekście RODO

Firmy opracowujące lub wykorzystujące modele LLM powinny od samego początku rozważyć swoje obowiązki w zakresie ochrony danych, w tym przyjąć podejście zakładające ochronę danych w fazie projektowania i domyślną ochronę danych. Jest to wymóg bezpośrednio wskazany w art. 25 RODO.

Przepisy o ochronie danych nadal mają zastosowanie, gdy przetwarzane dane osobowe pochodzą z publicznie dostępnych źródeł. Dlatego jeśli opracowujesz model LLM, który przetwarza dane osobowe, lub używasz takiej technologii, musisz zadać sobie następujące pytania:

Jaką posiadasz podstawę prawną do przetwarzania danych osobowych? Jeśli przetwarzasz dane osobowe, musisz wskazać odpowiednią podstawę prawną, taką jak np. zgoda osoby, której dane dotyczą, lub uzasadniony interes.
Czy jesteś administratorem, współadministratorem lub podmiotem przetwarzającym? Jeśli opracowujesz LLM z wykorzystaniem danych osobowych, jako administrator danych masz określone obowiązki.
Czy masz przygotowaną ocenę skutków dla ochrony danych (DPIA)? Przed rozpoczęciem przetwarzania danych osobowych musisz ocenić i ograniczyć wszelkie zagrożenia związane z ochroną danych w ramach procesu DPIA. Twoja ocena skutków dla ochrony danych powinna być aktualizowana w miarę ewolucji procesu przetwarzania i skutków, które z niego wynikają.
Jak zapewnisz obowiązek informacyjny? Musisz przekazać osobom, których dane dotyczą, informacje o przetwarzaniu ich danych, chyba że zastosowanie ma określony wyjątek z art. 14 RODO.
Jak zabezpieczysz przetwarzane dane? Oprócz ryzyka związanego z wyciekiem danych osobowych należy wziąć pod uwagę odwrócenie pseudonimizacji oraz inne formy wrogich ataków i ograniczyć ryzyko wystąpienia takich działań.
Jak ograniczysz zbędne przetwarzanie? Musisz zbierać tylko te dane, które są odpowiednie do osiągnięcia określonego celu. Dane powinny być ograniczone do tego, co niezbędne.
W jaki sposób zastosujesz się do indywidualnych żądań dotyczących praw? Musisz być w stanie odpowiedzieć na żądania osób, których dane przetwarzasz, dotyczące dostępu, sprostowania lub usunięcia tych danych, a także dotyczące innych praw do informacji.
Czy wykorzystasz generatywną sztuczną inteligencję do podejmowania zautomatyzowanych decyzji? Jeśli tak – i mają one skutki prawne lub podobnie istotne (np. dotyczą poważnych diagnoz zdrowotnych) – osoby fizyczne mają dalsze prawa na mocy art. 22 RODO.

Dlaczego włoski organ nadzorczy zakazał korzystania z modelu ChatGPT

Po ujawnieniu wycieku rozmów oraz informacji o płatnościach subskrybentów ChatGPT włoski organ nadzorczy (Garante) nakazał ograniczenie przetwarzania danych dotyczących użytkowników tej usługi we Włoszech.

W swoim postanowieniu włoski organ nadzorczy podkreślił, że użytkownikom i podmiotom danych, których dane są gromadzone przez OpenAI, nie są przekazywane żadne informacje wymagane przez RODO. Co ważniejsze, wydaje się, że nie ma podstawy prawnej do masowego gromadzenia i przetwarzania danych osobowych w celu trenowania algorytmów, na których opiera się platforma.

Jak potwierdzają dotychczasowe testy, informacje udostępnione przez ChatGPT nie zawsze odpowiadają faktycznym okolicznościom, przez co przetwarzane są niedokładne dane osobowe.

Włoski organ nadzorczy wskazał również, że brak jakiegokolwiek mechanizmu weryfikacji wieku naraża dzieci na otrzymywanie odpowiedzi absolutnie nieodpowiednich do ich wieku i świadomości, mimo że zgodnie z regulaminem OpenAI usługa jest rzekomo skierowana do użytkowników powyżej 13 roku życia.

Firma OpenAI nie ma siedziby w UE, jednak wyznaczyła przedstawiciela w Europejskim Obszarze Gospodarczym. Będzie musiała w ciągu 20 dni powiadomić włoski organ nadzoru o środkach wdrożonych w celu wykonania nakazu. W przeciwnym razie może zostać nałożona na nią grzywna w wysokości do 20 milionów euro lub 4% całkowitego rocznego światowego obrotu.

Podsumowanie

To ekscytujący czas dla osób zainteresowanych technologią ChatGPT. Tak jak w przypadku wszystkich rozwiązań technologicznych znajdą się zarówno tacy, którzy chętnie będą korzystać z modeli LLM i sprawdzać, co mają do zaoferowania, jak i tacy, którzy być może nigdy ich nie użyją.

Niewątpliwie istnieją zagrożenia związane z nieskrępowanym korzystaniem z publicznych LLM, co opisaliśmy powyżej. Osoby fizyczne i organizacje powinny bardzo ostrożnie wybierać dane, które decydują się przekazywać w podpowiedziach. Należy zadbać o to, żeby ci, którzy chcą eksperymentować z ChatGPT, mieli taką możliwość, ale w sposób, który nie naraża danych organizacyjnych na ryzyko.

quiz

Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!

Czy ChatGPT może być wykorzystany w Twojej firmie?

Jak zgodnie z RODO korzystać z ChatGPT

Czym jest ChatGPT

Czy ChatGPT ujawnia informacje, które są do niego wprowadzane

Czy wprowadzanie poufnych informacji do ChatGPT jest bezpiecznie

Jak ChatGPT ułatwia życie cyberprzestępcom

Na co powinni zwrócić uwagę twórcy LLM w kontekście RODO

Dlaczego włoski organ nadzorczy zakazał korzystania z modelu ChatGPT

Podsumowanie

Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!

Czytaj także:

29 lipca 2025

Jak rozpoznać operacje przetwarzania danych zgodnie z RODO

15 lipca 2025

Bezpieczeństwo dużych baz danych – obowiązki wg RODO

2 lipca 2025

RODO a AI: Nowe wytyczne EROD dla twórców modeli

Szkolenia

RODO od podstaw
(8h) online

Jak zgodnie z RODO korzystać z ChatGPT

Czym jest ChatGPT

Czy ChatGPT ujawnia informacje, które są do niego wprowadzane

Czy wprowadzanie poufnych informacji do ChatGPT jest bezpiecznie

Jak ChatGPT ułatwia życie cyberprzestępcom

Migracje, chmury, systemy.RODO w IT.

Na co powinni zwrócić uwagę twórcy LLM w kontekście RODO

Dlaczego włoski organ nadzorczy zakazał korzystania z modelu ChatGPT

Podsumowanie

Sprawdź co pamiętasz - za poprawną odpowiedź nagroda!

Czytaj także:

29 lipca 2025

Jak rozpoznać operacje przetwarzania danych zgodnie z RODO

15 lipca 2025

Bezpieczeństwo dużych baz danych – obowiązki wg RODO

2 lipca 2025

RODO a AI: Nowe wytyczne EROD dla twórców modeli

Szkolenia

RODO od podstaw (8h) online

Każdy czytelnik naszego biuletunu otrzymuje pakiet 4 bezpłatnych poradników i 4 mikroszkoleń RODO.

Wysłaliśmy do Ciebie wiadomość.

Wysłaliśmy do Ciebie wiadomość.

Migracje, chmury, systemy.
RODO w IT.

RODO od podstaw
(8h) online