Home » AGH 2022/23 » Czy Dalle-E zastąpi nam malarzy? Przegląd możliwości i zagrożeń płynących z zastosowania narzędzi do automatycznego generowania obrazów

Czy Dalle-E zastąpi nam malarzy? Przegląd możliwości i zagrożeń płynących z zastosowania narzędzi do automatycznego generowania obrazów

By Krzysztof Kucaba and Maciej Banaś in AGH 2022/23 on 22 marca, 2023

Spread the love

W przeciągu ostatniego roku modele generujące obrazy przeszły z eksperymentalnej technologii do wywołania dyskusji o zagrożeniu pracy artystów. Modele typu Dall-E i Midjourney pokazały szerokie możliwości tej technologii, jednak dostęp do nich był nadal zamknięty i możliwy tylko przez inne firmy. Prawdziwa puszka pandory została otwarta kiedy model Stable Diffusion został udostępniony do pełnego open-source użytku przez publikę.

Czym jest Dalle-2?

Dalle-2 to narzędzie wykorzystujące głębokie uczenie w celu generowania obrazków na podstawie przekazanych opisów tekstowych. Modele te są na tyle małe, że nie wymagają drogich serwerowni i sprzętu. W przeciągu paru miesięcy, gigantyczna ilość zarówno kreatywnych jak i szkodliwych zastosowań stała się nagle możliwa dla każdej osoby z niewielkim budżetem i chwilą czasu. Modele te są w stanie nauczyć się zarówno styli, wyglądu konkretnych osób, ekspresji i emocji oraz są niezwykle łatwe do dalszej specjalizacji i douczania.

Możliwości Dalle-2

Poniższe ilustracje zostały wygenerowane z wykorzystaniem Dalle-2 poprzez przekazanie odpowiednich etykiet tekstowych:

Giraffes playing football	Giraffes playing football on savanna
Giraffes playing football in rain	Giraffes playing football in rain with red ball

Jak widać na powyższych obrazkach Dalle-2 dobrze radzi sobie z rozumieniem tekstu naturalnego. Obrazki dobrze odzwierciedlają sugerowany opis i są wysokiej jakości.

Przypatrując się im bliżej można doszukać się jednak pewnych drobnych defektów. Mimo, że stawia na duży realizm przedstawianych treści, narzędzie nie bierze pod uwagę panujących na Ziemi praw fizyki, nie wszystkie ilustracje będą wyglądały więc naturalnie. Przykładowo pierwsza z nich zawiera żyrafę uniesioną w sporej odległości nad ziemią, w niemożliwej do osiągnięcia w praktyce pozycji. W przypadku górnych 2 obrazków widać też spore artefakty, widoczne w obrębie głów żyraf, które stanowią najbardziej złożoną część ilustracji.

Widać też, że poszczególne przymiotniki pojawiające się w analizowanym tekście niekonieczne wiązane są z odpowiednimi rzeczownikami. W przypadku ostatniego rysunku czerwony kolor, z założenia mający odnosić się do samej piłki, w tym przypadku został zaaplikowany do żyraf. W praktyce nie jest to jednak duża przeszkoda, gdyż generator udostępnia różne interpretacje wpisanego wyrażenia, można zatem dostosować uzyskany wynik do własnych potrzeb.

Równocześnie kiedy modele te zaczynały zyskiwać na popularności, w środowisku artystów wybuchła dyskusja o tym czy użycie takich modeli nawet w ich zamierzonym celu nie ma szkodliwych skutków dla społeczeństwa.

Prawa autorskie

Z racji, że narzędzia te wykorzystują do uczenia zbiory istniejących dzieł sztuki, nieuniknione jest podobieństwo i naśladowanie stylów poszczególnych artystów. Zbiory uczące pochodzą z nieuregulowanych zbiorów materiałów pobranych z Internetu, bez zgody, ani wynagrodzenia dla autorów zebranych treści, co budzi sprzeciw wielu twórców. Jednym z proponowanych przez nich postulatów jest wykluczenie dzieł żyjących artystów ze zbiorów uczących.

Obawy o pozwy są także pewnym czynnikiem hamującym wykorzystywanie tego typu rozwiązań na rynku komercyjnym. Wątpliwości budzi także pytanie czy osoba wykorzystująca sztuczną inteligencję do tworzenia obrazów może nabyć do nich prawa. W lutym 2023r. United States Copyright Office wydało decyzję, że treści pozyskane w ten sposób nie są objęte ochroną.

Dezinformacja

Narzędzia do automatycznego generowania obrazów mogą być wykorzystywane do manipulowania obrazami i zniekształcania rzeczywistości poprzez przedstawianie realistycznych obrazów fałszywych zdarzeń.

W przeciwieństwie do wcześniejszych technologii deep-fake, GAN i VAE, obecne generatory obrazów są w stanie nauczyć się wizerunku konkretnych osób z ledwo parunastu zdjęć. Nawet osoby niepubliczne które nie udostępniają na co dzień swojego wizerunku są narażone na impresonację.

Pół roku temu obrazy wygenerowane przy użyciu takich narzędzi dało się rozpoznać po charakterystycznych artefaktach. Wystarczył jeden komentarz uważnej osoby żeby uświadomić publikę o fałszywości zdjęcia. Aktualnie, w przeciągu ostatniego miesiąca powstawać zaczynają modele które pozbawione są większości artefaktów i ich identyfikacja gołym okiem jest niezwykle trudna.

O ile osoby śledzące na bieżąco postęp technologii powinny już wiedzieć żeby podchodzić sceptycznie do sensacyjnych zdjęć, większość społeczeństwa nie jest przygotowana do nadciągającej fali fałszywych obrazów. W obecnym klimacie mediów społecznościowych mamy problem z powstrzymywaniem dezinformacji która nie jest nawet podparta źródłami, co dopiero realistycznymi zdjęciami.

AI-generated images of Donald Trump getting arrested have been going viral

Brak oryginalności

Generowane obrazy są podobne do tych istniejących, co przy szerszym stosowaniu może prowadzić do utraty oryginalności sztuki. Naturalną tendencją człowieka jest dążenie do upraszczania czynności, a z racji łatwości dostępu do generatorów, wiele osób może popaść w uzależnienie od nich, obniżając tym samym kreatywność i indywidualność nowo powstałych dzieł sztuki.

Z drugiej strony przedstawić można argument, że technologia tego typu może zwiększyć ilość unikalnych dzieł. Animowane filmy i komiksy rzadko mają wyrafinowany styl z powodu nakładu pracy wymaganej, aby je stworzyć. Wyłącznie największe studia stać na eksperymentację i innowację. Istnienie generatywnych modeli może wspomagać artystów i umożliwić tańszą i większą stylizację ich dzieł, która wcześniej byłaby zbyt czasochłonna.

Nawet takie duże studia wolą jednak inwestować w sprawdzone marki zamiast próbować wcześniej niewidzianej sztuki. Piąty reboot Spidermana jest gwarantowanym zyskiem w porównaniu do ryzyka, które niesie adaptacja mało znanego komiksu lub użycie stylu, który może nie spodobać się dużej części populacji. Zmniejszenie kosztów i bariery wstępu do tworzenia sztuki może spowodować zaistnienie dzieł, które wcześniej nie miałyby racji bytu z powodów finansowych.

Spadek popytu na dzieła artystów

O ile artyści o ugruntowanej pozycji raczej nie mają powodów do niepokoju, twórcy wykonujący drobniejsze zlecenia i koncepcje artystyczne mogą czuć się zagrożeni wyparciem z rynku przez automatyczne narzędzia. Może to doprowadzić do wzrostu bezrobocia wśród tej grupy, a także spadku zainteresowania szkołami i innymi kursami przygotowującymi do zawodu malarza wśród ludzi dopiero wchodzący na rynek sztuki.

Jednocześnie może powstać nowy artysta-inżynier-AI. Zmniejszenie kosztów i automacja, tak jak historycznie działo się to z każdym produktem, doprowadzi do powstania nowych użyć które na wcześniejszym rynku były niepraktyczne. Wyizolowane grupy pracowników pewnie na tym stracą lecz końcowy konsument zawsze zyskuje.

Nieprzyzwoite treści

Z racji, że zbiory uczące mogą zawierać dowolne zasoby znalezione w sieci, część z nich może przedstawiać nieprzyzwoite i niedostosowane dla każdego odbiorcy treści jak np. pornografia. Bez odgórnych ograniczeń nic nie stoi również na przeszkodzie w tworzeniu obrazów prezentujących przemoc i promującą patologiczne zachowania.

Największy problem powstaje gdy połączy się te możliwości z umiejętnością łatwego uczenia wizerunku osoby. Nikt nie chciałby się nagle dowiedzieć że istnieją gigabajty treści pornograficznych z naszym wizerunkiem, które ktoś wygenerował i publicznie udostępnił. Problem jest na tyle poważny, że firma stojąca za projektem Dalle-2 – OpenAI, zdecydowała się na zastosowanie pewnych filtrów do etykiet tekstowych oraz usuwanie części obrazków z bazy uczącej.

Oszustwa i nieuczciwa monetyzacja

Możliwe też są próby sprzedaży dzieł wygenerowanych przez AI podając ją jako stworzoną przez człowieka. Wraz z postępującym rozwojem technologii tego typu wykroczenia stają się coraz trudniejsze do wykrycia. Otwiera to między innymi możliwości sprzedawania wizerunku fałszywych, ale realistycznie wyglądających modeli o erotycznym usposobieniu, na których popyt w społeczeństwie jest wysoki i sporo ludzi jest skłonnych wydać na nie pieniądze.

Czy Dalle 2 zastąpi nam malarzy?

Możliwości oferowane przez generatory obrazów są imponujące. Wiele obrazów powstałych z ich udziałem w ciągu ostatnich paru miesięcy trudno odróżnić na pierwszy rzut oka od prac prawdziwych artystów. Artefakty często występujące na obrazkach wygenerowanych przy użyciu nieco starszych narzędzi, obecnie występują coraz rzadziej. Wciąż jednak istnieją, szczególnie na bardziej skomplikowanych fragmentach.

O ile tego typu sztuczna inteligencja operuje na mieszaniu cech których się nauczyło poprzez obserwację milionów obrazów, czy nie można tego samego powiedzieć o artystach? Każdy człowiek tworząc coś nowego inspiruje się zarówno dziełami innych jak i tym co istnieje w świecie. Wiele osób twierdziło że maszyna nigdy nie będzie stanie odtworzyć unikalnego stylu i emocji które w stanie przekazać jest tylko artysta. Okazuje się że to była najłatwiejsza część.

Najnowsze eksperymenty pokazały nawet że przy użyciu takich modeli oraz obserwowaniu aktywności mózgu, możliwe jest odtworzenie obrazu o którym badane osoby myślały. Takie wyniki oraz fakt że jesteśmy nadal dopiero na początku rozwoju tej technologii powinny nas kierować ku zastanowieniu się na ile unikalna tak naprawdę jest nasza ludzka kreatywność zamiast umniejszaniu technologii za bycie statystycznym zbiorem cech obrazów.

Z całą pewnością, pomimo zgrzytu pomiędzy środowiskami, tego typu technologia będzie użytecznym narzędziem dla artystów w części zadań, w szczególności związanych z prototypowaniem, szybką weryfikacją pomysłów. Mogą stanowić nawet źródło inspiracji ze względu na bardzo szeroką bazę zasobów, z których korzystają. Prawdopodobnie będą w stanie wyprzeć z rynku drobniejszych twórców, którzy opierali swoje usługi na szybkich zleceniach. Z całą pewnością jednak nie będą stanowiły zagrożenia dla artystów z krwi i kości.

Bibliografia:

The Power and Ethical Dilemma of AI Image Generation Models
‘A.I. Should Exclude Living Artists From Its Database,’ Says One Painter
United States Copyright Office decision on AI generated work
Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M., & Aberman, K. (2022). Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. arXiv preprint arXiv:2208.12242.
Takagi, Y., & Nishimoto, S. (2022). High-resolution image reconstruction with latent diffusion models from human brain activity. bioRxiv, 2022-11.

Tags: AI, Dall-E, deep fake, deep learning, Etyka, Midjourney, obrazy, OpenAI, Społeczeństwo, stable diffusion, sztuczna inteligencja, sztuka