Home » Socjologia UJ 2023/24 » Generatory obrazów. Jak zbudowane są systemy do automatycznego generowania obrazów. Możliwości i słabości, oraz społeczny odbiór

Tagi

Wyróżnione posty

Zobacz też

Statystyki

  • 100
  • 616
  • 25 026
  • 7 315
  • 53

Generatory obrazów. Jak zbudowane są systemy do automatycznego generowania obrazów. Możliwości i słabości, oraz społeczny odbiór

Spread the love

Wstęp

Generatory obrazów to systemy, które potrafią automatycznie tworzyć obrazy na podstawie pewnych danych wejściowych, takich jak tekst, szkic, zdjęcie, dźwięk, itp. Technologia ta wykorzystuje sztuczną inteligencję, a dokładniej uczenie maszynowe i głębokie, do nauczenia się zasad i wzorców, które rządzą procesem generowania obrazów. Generatory obrazów mają wiele zastosowań i implikacji w różnych dziedzinach, takich jak sztuka, nauka, medycyna, rozrywka, edukacja, bezpieczeństwo, itp. Jednak technologia ta ma również swoje ograniczenia i wyzwania, a także budzi pewne kontrowersje i obawy społeczne. W tym eseju przedstawię, jak zbudowane są systemy do automatycznego generowania obrazów, jakie są ich możliwości i słabości, oraz jaki jest ich społeczny odbiór.

Jak zbudowane są systemy do automatycznego generowania obrazów?

Systemy do automatycznego generowania obrazów opierają się na algorytmach uczenia maszynowego i głębokiego, które potrafią analizować duże zbiory danych, wydobywać z nich istotne cechy i wzorce, a następnie wykorzystywać je do tworzenia nowych danych o podobnych właściwościach. Jednym z najpopularniejszych i najskuteczniejszych typów algorytmów używanych do generowania obrazów są sieci generatywno-adwersyjne (GANs) (Enjalina, 2023), które składają się z dwóch podstawowych elementów: generatora i dyskryminatora.

Generator jest odpowiedzialny za tworzenie nowych obrazów na podstawie danych wejściowych, takich jak tekst, szkic, zdjęcie, dźwięk, itp. Generator próbuje naśladować rozkład prawdopodobieństwa danych źródłowych, tak aby wygenerowane obrazy były jak najbardziej realistyczne i zgodne z oczekiwaniami. Generator może być zbudowany z różnych architektur sieci neuronowych, takich jak konwolucyjne, rekurencyjne, uwagowe, itp.

Dyskryminator jest odpowiedzialny za ocenianie jakości wygenerowanych obrazów i porównywanie ich z danymi rzeczywistymi. Dyskryminator próbuje odróżnić obrazy syntetyczne od prawdziwych, tak aby wykryć błędy i niedoskonałości generatora. Dyskryminator również może być zbudowany z różnych architektur sieci neuronowych, takich jak konwolucyjne, rekurencyjne, uwagowe, itp.

Generator i dyskryminator uczą się w sposób rywalizacyjny, tzn. poprawiają swoje działanie na podstawie informacji zwrotnej od siebie nawzajem. Proces ten można porównać do gry, w której generator próbuje oszukać dyskryminatora, a dyskryminator próbuje nie dać się oszukać. W ten sposób oba elementy dążą do osiągnięcia równowagi, w której generator tworzy obrazy tak realistyczne, że dyskryminator nie jest w stanie ich odrzucić.

 

Zastosowanie generatorów obrazów

 

Systemy do automatycznego generowania obrazów mają wiele możliwości i potencjału, ponieważ mogą tworzyć obrazy o wysokiej jakości, różnorodności i kreatywności, które mogą służyć różnym celom i zaspokajać różne potrzeby. Niektóre z zastosowań i korzyści systemów do automatycznego generowania obrazów to:

  • Sztuka: Systemy do automatycznego generowania obrazów mogą tworzyć nowe dzieła sztuki, które mogą być uznane za oryginalne, piękne i wartościowe. Na przykład, w 2018 roku, obraz stworzony przez algorytm GAN został sprzedany na aukcji za ponad 400 tysięcy dolarów. Systemy te mogą również pomagać artystom w tworzeniu i edytowaniu swoich prac, na przykład poprzez zmianę stylu, koloru, kompozycji, itp.

  • Nauka: Systemy do automatycznego generowania obrazów mogą pomagać naukowcom w badaniu i odkrywaniu nowych zjawisk, które mogą być trudne do zaobserwowania lub zreprodukowania w rzeczywistości. Na przykład, systemy te mogą tworzyć obrazy galaktyk, czarnych dziur, molekuł, komórek, itp. Systemy te mogą również pomagać naukowcom w wizualizacji i prezentacji swoich wyników i hipotez.
  • Medycyna: Systemy do automatycznego generowania obrazów mogą pomagać lekarzom i pacjentom w diagnozowaniu i leczeniu różnych chorób i zaburzeń. Na przykład, systemy te mogą tworzyć obrazy rentgenowskie, tomograficzne, rezonansowe, itp., które mogą pomóc w wykrywaniu i lokalizowaniu zmian patologicznych, takich jak nowotwory, złamania, zatory, itp. Systemy te mogą również pomagać lekarzom w planowaniu i symulowaniu operacji i zabiegów.
  • Rozrywka: Systemy do automatycznego generowania obrazów mogą pomagać twórcom i odbiorcom w tworzeniu i doświadczaniu różnych form rozrywki, takich jak gry, filmy, komiksy, memy, itp. Na przykład, systemy te mogą tworzyć postacie, sceny, obiekty, efekty, itp., które mogą być użyte do tworzenia i urozmaicenia treści i fabuły. Systemy te mogą również pomagać odbiorcom w personalizowaniu i modyfikowaniu treści i fabuły według własnych preferencji i upodobań.
  • Edukacja: Systemy do automatycznego generowania obrazów mogą pomagać nauczycielom i uczniom w nauczaniu i uczeniu się różnych przedmiotów i umiejętności. Na przykład, systemy te mogą tworzyć obrazy ilustrujące i wyjaśniające różne koncepty, zasady, fakty, itp., które mogą pomóc w zrozumieniu i zapamiętaniu materiału. Systemy te mogą również pomagać nauczycielom i uczniom w tworzeniu i ocenianiu zadań, projektów, prezentacji, itp.
  • Bezpieczeństwo: Systemy do automatycznego generowania obrazów mogą pomagać w zapewnianiu i poprawianiu bezpieczeństwa i ochrony różnych osób, miejsc i danych. Na przykład, systemy te mogą tworzyć obrazy twarzy, odcisków palców, tęczówek, itp., które mogą być użyte do identyfikacji i weryfikacji tożsamości. Systemy te mogą również pomagać w tworzeniu i odtwarzaniu obrazów z monitoringu, rekonstrukcji, śledztwa, itp.

 

Jedną z głównych obaw związanych ze sztuczną inteligencją jest możliwość użycia tej technologii do zastąpienia ludzi w ich pracy. Wizja ta powoli się realizuje. W roku 2022 chociażby, portal buzzfeed ogłosił zamiar zwolnienia zauważalnej części swojego zespołu redakcyjnego, zastępując ich czatem GPT. Jednak nie tylko sztuczna inteligencja generująca tekst zagraża ludziom. Jednym z obszarów, które również zostały dotknięte przez sztuczną inteligencje, jednak w tym przypadku generującą obrazy jest branża modelingu. Pierwszą z dużych firm, które poczyniły kroki w tym kierunku, jest marka Levis. Firma znana przede wszystkim z produkcji spodni, postanowiła wykorzystywać wygenerowanych przez sztuczną inteligencje modeli. Argumentami podawanymi przez firmę, przemawiającymi za tym ruchem są (Marr, 2023):

 

Redukcja kosztów: Modele AI mogą znacznie zmniejszyć zapotrzebowanie na drogie profesjonalne sesje zdjęciowe. Gdy marki nie muszą już martwić się o planowanie i zatrudnianie prawdziwych ludzkich modeli, może to obniżyć koszty operacyjne.

 

Możliwość dostosowania: Marki mogą łatwo generować i modyfikować modele AI zgodnie z dokładnymi potrzebami swojej marki i grupy docelowej. Daje to firmom modowym nieograniczoną kreatywną kontrolę nad przedstawianiem ich odzieży w jak najkorzystniejszym świetle.

 

Różnorodność i inkluzywność: Firmy mogą tworzyć modele AI w różnych typach ciała, wieku, rozmiarach i odcieniach skóry. Pokazywanie szerokiej gamy modeli może pomóc markom odzwierciedlić różnorodną i integracyjną gamę klientów.

 

Lepsze doświadczenia zakupowe: Dzięki modelom AI klienci mogą zobaczyć, jak odzież wyglądałaby na ciele podobnym do ich ciała. To doświadczenie może poprawić wrażenia z zakupów online i potencjalnie zwiększyć sprzedaż.

 

Zrównoważony rozwój: Korzystanie z modeli AI jest również świetnym posunięciem dla zrównoważonego rozwoju, ponieważ może zmniejszyć ślad węglowy związany z tradycyjnymi sesjami zdjęciowymi.

 

Łatwość obsługi: Nawet osoby bez wcześniejszego doświadczenia w modelowaniu lub fotografii mogą tworzyć profesjonalne obrazy modeli AI dla swoich produktów. Otwiera to wiele nowych możliwości zarówno dla dużych, jak i małych firm.

 

Co uważają studenci o sztucznej inteligencji generującej obrazy?

 

Przeprowadziłem ankietę, w której udział brali studenci Uniwersytetu Jagiellońskiego. W ankiecie udział wzięło 21 osób, w większości z Instytutu Socjologii Uniwersytetu Jagiellońskiego. Osoby te znajdują się w przedziale wiekowym 20-25 lat. Zdecydowana większość z nich (76%) używała kiedykolwiek generatora obrazów, działającego w oparciu o sztuczną inteligencje. Najpopularniejszym narzędziem używanym przez studentów jest zdecydowanie DALL-E 3. Spośród 16 studentów, którzy mieli styczność z generacją obrazów przy użyciu sztucznej inteligencji, dla siedmiu DALLE jest najpopularniejszym narzędziem. Na pozostałych miejscach podium znajdują się kolejno Midjourney oraz Bing Image Creator. Zdecydowana większość respondentów wskazało używanie narzędzia w celu „zabawy”. Zaledwie trzy razy została jako cel użycia narzędzia zostały wskazane działania naukowe, bądź związane z wykonywanym zawodem. Ogólny poziom zadowolenia z użytkowania narzędzi do generowania obrazów jest dość wysoki, średnia ocena wynosi 7.63. Jednak ocena jakości rezultatów stworzonych przez sztuczną inteligencje, jest niższa i wynosi 6.13. Wskazuje to, że najpopularniejsze, ogólnodostępne programy służące do generowania obrazów przy użyciu sztucznej inteligencji, są niedoskonałe i nie potrafią wciąż dać satysfakcjonujących rezultatów.

 

Szczególnie interesuje mnie kwestia wykorzystania sztucznej inteligencji do tworzenia sztuki. Jeżeli chodzi o potencjał wykorzystywania sztucznej inteligencji w tworzeniu sztuki, dominuje odpowiedź nie. Według respondentów narzędzia do generowania obrazów mogą prowadzą do zabijania kreatywności. Często wskazywaną wadą tego typu narzędzi jest również fakt, że generatory reprodukują i mieszają wcześniej stworzone dzieła sztuki, na których się uczyły, także nie są w stanie wymyśleć nic nowego. Wśród nielicznych głosów twierdzących, że generatory mogą pozytywnie wpłynąć na rozwój sztuki, główną zaletą stosowania ich jest fakt, że odciążają one artystów i zwiększają ich produktywność w obszarach, w których nie da się artysty zastąpić.

 

Plagiat

 

Zdecydowana większość respondentów (67%) uważa, że plagiat jest realnym zagrożeniem ze strony sztucznej inteligencji. Nie jest to nieuzasadniona obawa. W sieci można spotkać wiele relacji i przykładów tego jak sztuczna inteligencja jest w stanie kopiować twórczość ludzkich artystów. Poniżej kilka z nich:

https://www.altexsoft.com/blog/ai-image-generation/

https://www.youtube.com/watch?v=TsEMYZqsWcE&ab_channel=ArtbookAddiction

Sprawa jest na tyle poważna, że w Stanach Zjednoczonych, na początku 2023 roku został złożony pozew zbiorowy przeciwko Stable Diffusion . Autorzy pozwu w bardzo konkretny i kompetentny sposób, na modelach pokazują jak wygenerowanie obrazu przy użyciu narzędzia, jest niemożliwe chociaż bez drobnego procenta plagiatu. Do pozwu dołączyło wielu artystów, którzy czują się skrzywdzeni. Na razie sprawa stoi w miejscu, a sędzie odrzucił część zarzutów (Brittain, 2023), jednak ja osobiście bardzo liczę na jakieś rozwiązanie w tej kwestii. System sądownictwa w USA działą w taki sposób, że wyroki sądowe, dzięki zasadzie precedensu, kształtują prawo. W tak głośnej, zbiorowej sprawie, wyrok ten na pewno ustanowi trendy na najbliższe lata związane ze sztuczną inteligencją i ureguluje kwestie praw autorskich związanych z dziełami sztucznej inteligencji.

 

Źródła:

 

Bernard Marr, Pixel Perfect: The Rise Of AI Fashion Models, https://www.forbes.com/sites/bernardmarr/2023/06/07/pixel-perfect-the-rise-of-ai-fashion-models/

 

Enjellina, E. V. P. . Beyan, and Anastasya Gisela Cinintya Rossy, “A Review of AI Image Generator: Influences, Challenges, and Future Prospects for Architectural Field”, JARINA, vol. 2, no. 1, pp. 53–65, Feb. 2023.

 

Blake Brittain, Judge pares down artists’ AI copyright lawsuit against Midjourney, Stability AI,
https://www.reuters.com/legal/litigation/judge-pares-down-artists-ai-copyright-lawsuit-against-midjourney-stability-ai-2023-10-30/


2 komentarze

  1. Niby mam świadomość jak szybko adaptującym się do nieustannie zmieniającej się rzeczywistości, gatunkiem jesteśmy. Jednak fascynująca jest myśl o tym jak jeszcze 10 lat temu wyobrażenie o ogólnodostęnej technologii, która w kilka sekund potrafi wygenerować dowolny obraz, pozostawała raczej w obszarze science fiction dla przeciętnego człowieka. A teraz nie dość, że stało się to naszą rzeczywistością to do tego, na nikim nie robi to specjalnego wrażenia, a nawet często już nas nudzi!
    Inną kwestią jest to, że jesli chodzi o niebezpieczeństwa w kontekście ,,zabierania nam pracy” to mam przeświadczenie, że w przypadku sztuki ten czynnik ludzki jest jednak kluczowy by mówić o emocjach, które sztuka z definicji powinna wywoływać, ale równocześnie zauważam na tym polu (zwłaszcza sztuki cyfrowej) duże wyzwanie związane z trudnością w rozpoznawaniu co jest dziełem człowieka a co AI.

  2. Tak jak u wielu osób u mnie też jest strach przed tym, że generatory oparte o AI mogą negatywnie namieszać w środowiskach artystycznych – najbardziej martwi mnie to, że “uczą” się one na podstawie dzieł, których artyści nie wyrazili zgody na taki proceder. Myślę, że dobrym kierunkiem byłoby wykorzystanie takiego MidJourney lub Dall-E jako narzędzi pomagających na różnych etapach pracy twórczej – a nie zastąpienie ich w całości przez generatory AI. W każdym razie i tak zapartym tchem obserwuję rozwój tych technologii, ale i irytuję się, kiedy ktoś wstawia słabej jakości twory AI do swoich kampanii i postów – przecież widzę te krzywe palce! (Łukasz Jabłoński)

Leave a comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Najnowsze komentarze

  1. Ciekawe jest porównanie tradycyjnej terapii z nowymi rozwiązaniami opartymi na modelach językowych. Warto zauważyć, że mimo obiecujących wyników, istnieją ważne…