Home » AGH 2025/26 » Etyczne projektowanie narzędzi generowania obrazu i wideo – jakie ograniczenia powinny być wbudowane w modele

Etyczne projektowanie narzędzi generowania obrazu i wideo – jakie ograniczenia powinny być wbudowane w modele

By Mikołaj Maślak and Władysław Nieć in AGH 2025/26 on 17 maja, 2026

Spread the love

Od koszmaru do realizmu

Możliwości generowania obrazów i wideo uległy znaczącej poprawie w ciągu ostatnich kilku lat. Doskonałym odzwierciedleniem tego tempa jest ewolucja tzw. „testu spaghetti”. Pierwszy znany filmik przedstawiający Willa Smitha jedzącego spaghetti został utworzony w marcu 2023 roku przy użyciu modelu ModelScope. W momencie, w którym powstał, stał się gigantycznym viralowym memem – wygenerowane wideo było estetycznym koszmarem, twarz aktora nienaturalnie morfowała, palce i sztućce przenikały się w surrealistyczny sposób. Wkrótce jednak ta krótka animacja urosła do rangi nieformalnego standardu porównawczego prezentującego postęp w tej technologii. Porównanie filmiku z 2023 do dzisiejszych możliwości z 2026 roku pokazuje bezprecedensowy skok jakościowy, który dokonał się w zaledwie trzy lata. Współczesne modele generatywne (takie jak Seedance 2.0 który można zobaczyć na drugim obrazku) są w stanie wygenerować realistycznie wyglądające wysokiej rozdzielczości nagrania, które ciężko rozpoznać jako AI gołym okiem.

Ten błyskawiczny postęp technologiczny niesie za sobą głębokie konsekwencje etyczne. Skoro sztuczna inteligencja potrafi dziś bez trudu oszukać ludzkie oko, tworząc przekonujące nagrania dowolnych osób w dowolnych sytuacjach, tradycyjna moderacja oparta wyłącznie na zgłoszeniach użytkowników staje się bezużyteczna. Kluczowe wyzwanie przenosi się na poziom samych modeli – jakie zabezpieczenia i ograniczenia techniczne muszą zostać w nie wbudowane aby zapobiec nadużyciom? Co należy zrobić aby uniemożliwić modelom generownia treści nieetycznych i niemoralnych?

Etyczne problemy treści generatywnych

Najważniejsza debata etyczna wokół syntetycznych mediów dotyczy produkcji sztucznej pornografii dziecięcej (AIG-CSAM) oraz niekonsensualnych wizerunków intymnych (AIG-NCII). Niektórzy deweloperzy i użytkownicy forów internetowych ulegają niebezpiecznej iluzji, twierdząc, że generowanie takich materiałów jest „pozbawione ofiar”, ponieważ podczas procesu generacji nie ucierpiał fizycznie żaden człowiek, a utworzone obrazy są jedynie fikcyjne.

To stanowisko jest całkowicie błędne i ignoruje szereg realnych szkód społecznych i psychologicznych. Jak wykazuje literatura naukowa, syntetyczne CSAM powoduje głębokie konsekwencje :

Rewiktymizację znanych ofiar, których twarze i cechy fizyczne są bezprawnie przenoszone i dopasowywane do nowych, syntetycznych obrazów przemocy seksualnej.
Ułatwianie procederu szantażu i wymuszeń (sextortion), w tym cyber-groomingu, gdzie przestępcy mogą w czasie rzeczywistym generować przekonujące materiały w celu manipulowania nieletnimi.
Desensytyzację użytkowników, która drastycznie obniża próg oporu psychologicznego przed poszukiwaniem rzeczywistych, niefabrykowanych materiałów przedstawiających krzywdę dzieci.
Normalizację i legitymizację wyzysku, co drastycznie utrudnia pracę organom ścigania poprzez zalewanie baz danych milionami fałszywych materiałow, zabierając zasoby niezbędne do ratowania prawdziwych ofiar

Dezinformacja i kryzys zaufania publicznego

Obok treści kryminalnych, najpoważniejszym zagrożeniem płynącym z fotorealistycznego AI jest masowa, zautomatyzowana dezinformacja. Narzędzia generatywne stały się bronią asymetryczną w wojnach informacyjnych i kampaniach politycznych. Najbardziej destrukcyjnym efektem dezinformacji AI nie jest to, że ludzie wierzą w fałszywe obrazy, ale to, że przestają wierzyć w te prawdziwe. Autentyczne nagrania dokumentujące nadużycia władzy czy zbrodnie wojenne mogą być dziś łatwo wypierane przez sprawców jako „manipulacja AI”.

Przykład irańskiej propagandy używającej AI lego animacji: https://youtu.be/mZ5Gl5LaVC8?si=VL4Loab4EIYMq_0c

Prawa autorskie i kryzys własności intelektualnej

Szybki rozwój modeli obrazu i wideo odbył się kosztem masowego naruszenia praw autorskich. Modele generatywne były i wciąż bywają trenowane na miliardach plików pobranych z sieci (web scraping) bez zgody, wiedzy i jakiejkolwiek rekompensaty finansowej dla oryginalnych twórców. Choć problem dotyka milionów twórców na całym świecie, w praktyce na walkę prawną mogą pozwolić sobie wyłącznie wielkie korporacje medialne czy potężne studia filmowe.

Zjawisko, w którym modele AI bezbłędnie naśladują i generują obrazy w ściśle określonej estetyce, stanowi ogromne zagrożenie dla artystów. Kiedy ich unikatowy styl jest masowo powielany, gwałtownie traci na swojej wyjątkowości i wartości rynkowej. Najbardziej znanym przykładem tego zjawiska stało się japońskie studio animacji Ghibli, którego unikatowa malarska estetyka została na ogromną skalę odwzorowana i spopularyzowana przez użytkowników modeli takich jak ChatGPT.

Odwzorowanie rzeczywistości bez przekłamań

Modele generatywne trenowane na zbiorach danych z internetu mają naturalną tendencję do powielania i wzmacniania szkodliwych stereotypów, błędnego przedstawiania mniejszości etnicznych oraz cakłowitego pomijania określonych grup społecznych z generowanych mediów.

Najbardziej znanym przykładem nadkorekty w walce ze szkodami reprezentacyjnymi była sytuacja z lutego 2024 roku z modelem Gemini od Google. Twórcy modelu chcąc uniknąć uprzedzeń dodali do modelu filtr różnorodności, który działal bez kontekstu historycznego i w jego rezultacie generowane dostały mniejszości etniczne w hasłach historycznych.

Jak ograniczyć szkodliwe możliwości modeli generatywnych?

Ograniczenie 1 – Etap treningu modelu

Pierwszym krokiem jest oczyszczenie danych treningowych. Raporty śledcze (m.in. z Uniwersytetu Stanforda) wykazały, że w publicznych zbiorach, takich jak LAION-5B, znajdowały się obrazy przedstawiające przemoc wobec dzieci. Usunięcie ich to absolutne minimum które uniemożliwa modelowi bezpośredniego powielania gotowych przestępczych materiałów.

Prawdziwym wyzwaniem jest jednak tzw. uogólnianie kompozycyjne (compositional generalization). Generatywne AI tworzy wielowymiarową mapę pojęć. Jeśli model z legalnych źródeł pozna anatomię dorosłych, a z innych wizerunek dziecka, złośliwy użytkownik może użyć ataku adwersarialnego (manipulacji promptem omijającej filtry), by zmusić algorytm do połączenia tych niezależnych dotąd pojęć. Dlatego etyczne projektowanie wymaga matematycznych blokad w tzw. przestrzeni ukrytej (latent space). Twórcy AI muszą tak zaprogramować sieć neuronową, aby pojęcia „dziecko” i „treści intymne” miały strukturalny, geometryczny zakaz zbliżania się do siebie. Dopiero takie systemowe rozdzielenie pojęć skutecznie blokuje generowanie nowych szkodliwych treści.

Ograniczenie 2 – Weryfikacja zapytań użytkowników

Obecnie większość twórców modeli generatywnych chroni swoje systemy za pomocą wieloetapowej kontroli: filtrowania słów kluczowych, analizy znaczenia promptów oraz weryfikacji wygenerowanego obrazu. Kolejną techniką (stosowaną przez na przykład DALL-E 3) jest automatycznie przepisuje zapytania użytkowników (za pomocą modelu językowego), aby uniemożliwić podrabianie wizerunku znanych osób czy zastrzeżonych znaków towarowych.

Te tradycyjne metody łatwo jednak oszukać. Ataki typu jailbreak wykorzystują językowe metafory i zawiłe konstrukcje językowe, by w prosty sposób ominąć blokady. (Strona na której można samemu spróbować oszukać ograniczeń modeli: https://gandalf.lakera.ai )

Badania firmy Anthropic wykazują, że najważniejsze dla bezpieczeństwa modelu nie jest samo łatanie interfejsu, lecz weryfikacja promptów oparta na wnioskowaniu moralnym. Modele, nauczone ogólnych zasad etycznych takich jak szacunek dla ludzkiej godności czy unikanie krzywdy radzą sobie z odrzucaniem niebezpiecznych zapytań znacznie skuteczniej niż te, które opierają się na listach zakazanych tematów i słów. Algorytm musi „rozumieć” moralną powód stojącą za zakazem, aby skutecznie zidentyfikować i odrzucić zupełnie nowe, nieznane wcześniej mu techniki manipulacji.

Ograniczenie 3 – Znaki wodne i inne oznaczenia syntetycznych treści

Klasyczne, widoczne znaki wodne są bezużyteczne – można je łatwo wyciąć lub wymazać. Dlatego nowoczesne modele wdrażają steganografię cyfrową (jak na przykład Google SynthID) oraz standardy C2PA. Informacje o pochodzeniu pliku są umieszczane bezpośrednio w strukturze pikseli, tworząc niewidoczny dla oka, cyfrowy „paszport treści”, który jest automatycznie rozpoznawany przez przeglądarki i platformy społecznościowe.

Obecnie jednak istnieją metody pozwalające obejść te zabezpieczenia – cyfrowy paszport C2PA można bezpowrotnie zerwać zwykłym zrzutem ekranu. Z kolei ukryte znaki wodne ulegają tzw. czyszczeniu dyfuzyjnemu (diffusion purification) – procesowi, w którym inny model AI generuje piksele obrazu na nowo, bezpowrotnie niszcząc ukryty w nich wzorzec matematyczny. Wiele metod znakowania treści jest również podatna na techniki zaburzające strukturę pikseli, na przykład rotacja o 2 stopnie i przycięcie obrazu.

Mimo tych podatności, steganografia pozostaje kluczowa. Nie jako idealne rozwiązanie, ale jako dodatkowa warstwa oporu, która pomaga w identyfikowaniu fałszywych treści na masową skalę i drastycznie podnosi utrudnia działanie osobą które chciałyby wykorzystać AI do celów szkodliwych.

Odpowiedź prawna – EU AI Act

Jedną z najważnieszych metod na przeciwdziałanie nieetycznym działaniom modeli jest legislacja. Najważniejszym instrumentem prawnym jest unijny Akt o Sztucznej Inteligencji (AI Act). Klasyfikuje on systemy generatywne jako modele ogólnego przeznaczenia (GPAI), nakładając na dostawców obowiązki transparentności na mocy Artykułu 50 (European Union, 2024). Ustawa ta wprowadza obowiązek oznaczania treści jako syntetyczne oraz bezwzględny zakaz aplikacji typu „Nudifier” (generujących intymne deepfake’i i CSAM). Przepisy te zaczną być bezwzględnie egzekwowane od 2 grudnia 2026 roku. Dla firm które je zignorują przewidziano kary finansowe sięgające 35 mln euro lub do 7% ich globalnego rocznego obrotu.

Przepisy w Polsce reguluje projekt ustawy podpisany w kwietniu 2026 roku. Powołuje on Komisję Rozwoju i Bezpieczeństwa Sztucznej Inteligencji (KRiBSI) jako organ nadzorczy z uprawnieniami:

Prawo do audytu firm technologicznych, wglądu w dokumentację modeli oraz nakładania unijnych kar finansowych.
Przyjmowanie skarg od osób prywatnych i artystów, których prawa lub wizerunek zostały naruszone przez generatywne AI.
Tworzenie bezpiecznych, kontrolowanych środowisk testowych dla rodzimych startupów i naukowców, wspierających legalny rozwój technologii.

Podsumowanie

Etyczne projektowanie modeli generatywnych to proces ciągły, wymagający systemowego podejścia. Ograniczenia powinny być wielowarstwowe i obecne na każdym etapie systemu – od fazy trenigu, przez weryfukacje zapytań użytkowników aż po odporne na fałszerstwa znakowanie wygenerowanych treści.

Żródła

Wikipedia – Will Smith Eating Spaghetti test. https://en.wikipedia.org/wiki/Will_Smith_Eating_Spaghetti_test
EU AI Act: first regulation on artificial intelligence. https://www.europarl.europa.eu/topics/en/article/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
Video Deepfake Abuse: How Company Choices Predictably Shape Misuse Patterns (2025), https://arxiv.org/abs/2512.11815v1
AI-generated child sexual abuse material: what’s the harm? https://www.researchgate.net/publication/403543704_AI-generated_child_sexual_abuse_material_what’s_the_harm
Identifying and Eliminating CSAM in Generative ML Training Data and Models. https://purl.stanford.edu/kh752sm9123
Teaching Claude why. https://www.anthropic.com/research/teaching-claude-why

Jeden komentarz

Piotr Kowalczyk pisze:

10 czerwca, 2026 o 10:24 pm

Bardzo ciekawy artykuł. Zgadzam się, że poleganie wyłącznie na zgłoszeniach użytkowników to przy dzisiejszym fotorealizmie AI walka z wiatrakami. Pogląd, że syntetyczne treści CSAM czy NCII są rzekomo pozbawione ofiar, to skrajna ignorancja. Wpis bardzo celnie przedstawia, jakie realne koszty psychologiczne i społeczne to za sobą niesie. Deweloperzy modeli generatywnych muszą wziąć na siebie większą odpowiedzialność już na etapie projektowania algorytmów.

Zaloguj się, aby odpowiedzieć