Home » AGH 2023/24 » Midjourney i Stable Diffusion. Jak zbudowane są systemy do automatycznego generowania obrazów. Możliwości i słabości, oraz społeczny odbiór.

Midjourney i Stable Diffusion. Jak zbudowane są systemy do automatycznego generowania obrazów. Możliwości i słabości, oraz społeczny odbiór.

By Mikołaj Zasada and Paweł Hanusik in AGH 2023/24 on 4 kwietnia, 2024

Spread the love

W dzisiejszych czasach z każdej strony napływają do nas wieści o nowych implementacjach technik sztucznej inteligencji, które mają na celu rozwiązanie coraz to nowszych problemów. Najsłynniejszym tego typu przykładem jest zdecydowanie ChatGPT pozwalający na podstawie pewnego zapytania wręcz masowo generować treści tekstowe. Natomiast co gdyby na podstawie tego samego bądź podobnego opisu móc generować obrazy? Tego typu rozwiązania formalnie można nazwać już naszą codziennością. Pomimo że możemy sobie z tego nie zdawać na pierwszy rzut oka sprawy. Efekty działania narzędzi takich jak Midjourney, Stable Diffusion czy DALL-E są już praktycznie wszędzie. Ale jak właściwie działają tego typu modele? Jakie są ich możliwości i słabości? O tym postaramy się przedstawić w tym poście.

Wstęp

Każdy kiedyś potrzebował grafiki, zdjęcia lub obrazu, który był czystą fantazją i był nieosiągalny nawet w licznych internetowych zasobach, a zgłaszanie się do artystów posiadających umiejętności zmaterializowania naszych myśli często jest niepraktycznym rozwiązaniem. Teraz jednak, dzięki zaawansowanym algorytmom sztucznej inteligencji i generatorom obrazów, takim jak Midjourney, Stable Diffusion czy DALL-E, można to zrobić w ciągu kilku minut.

Nie ma znaczenia, czy brakuje nam umiejętności artystycznych, czy też mamy jedynie ogólny zarys tego, czego potrzebujemy, sztuczna inteligencja potrafi tworzyć sztukę cyfrową w zaledwie kilkanaście sekund, bazując jedynie na kluczowych słowach zwanych potocznie “promptem”. A jeśli potrzebujesz czegoś bardziej wyrafinowanego, eksploracja różnych modeli czy wariancji “promptów” może zapewnić jeszcze lepsze rezultaty.

Ale jak właściwie działają tego typu modele? Jakie są ich możliwości i słabości? O tym postaramy się przedstawić w tym poście.

Czym jest Midjourney, Stable Diffusion czy DALL-E?

Midjourney, Stable Diffusion czy DALL-E to przykłady generatywnych modeli uczenia głębokiego, służące do przekształcania opisów stworzonych w języku naturalnym na przykład angielskim na obrazy. Są to zaledwie trzy z wielu tego typu generatorów które ukazały się na przestrzeni ostatnich dwóch lat na rynku komercyjnym, natomiast zdecydowanie wiodą one prym i stanowią punkt odniesienia dla pozostałych implementacji od firm takich jak Canva czy Adobe, którego implementacja zasłynęła ze zintegrowania z narzędziem do edycji zdjęć Photoshop.

Rzeczywistą znaczącą zaletą tych narzędzi jest to iż tworzone przez nie obrazy są wysokiej jakości oraz wymagają minimum wkładu własnego w celu ich utworzenia. Często nie potrzebujemy niczego innego niż przeglądarka internetowa (DALL-E) bądź Discord jak to jest w przypadku Midjourney, ponieważ całość obliczeń przeprowadzana jest na serwerach. Niestety wiąże się to z tym iż za takie usługi trzeba zapłacić. Nieco inaczej jest w przypadku Stable Diffusion gdyż możemy go pobrać i uruchomić na własnym komputerze. Oczywiście w takim wypadku czy w ogóle i jak szybko taki model będzie działał zależy od tego jaki mam sprzęt. Pomimo tego można uznać próg wejścia jako przystępny i przy pewnych założeniach dostępny dla wszystkich.

Uzyskiwane za pomocą tych narzędzi wyniki mogą być od kreskówkowo-bajkowych po przez imitujące faktycznych malarzy po przekonująco rzeczywiste, w zależności od tego jakiego typu opis tekstowy stworzymy. Jako iż jest to nasze podstawowe źródło dostarczania informacji na temat tego co chcemy osiągnąć od modelu. Kluczowym aspektem jest popracowanie nad opisem. Fachowo możemy nazwać to “prompt engineering”. Innego typu aspektem jest też odpowiedni dobór modelu, gdyż różne mogą specjalizować się w innych stylach graficznych.

Prompt: “Mandalorian on the road in northern deep lightly misty woods cartoon”

Prompt: “Mandalorian on Star Wars speeder bike, on winding road, northern deep misty woods, riding away, detailed armor, beskar armor, cinematic quality, sci-fi, misty atmosphere, forest green tones, dynamic lighting, highres, ultra-detailed, action-packed, cinematic, detailed landscape, professional”

Każdy pewnie widział wiele obrazów które na pierwszy rzut oka były niezwykle przekonujące, jak osoby publiczne w nietypowych przebraniach czy sytuacjach. Lub innego typu kreatywne sceny których uzyskanie innymi drogami było dużo większym wyzwaniem niż zwykłe wpisanie polecenia w odpowiednie pole.

Jak działa Midjourney czy Stable Diffusion?

Człowiek przekształca tekst w obraz w całkowicie naturalny dla siebie sposób możliwy dzięki wiedzy nabytej przez całe swoje życie. Opisywane w tym poście narzędzia także muszą tego typu wiedzę pozyskać poprzez proces nauki. Natomiast każde z nich zbudowane jest w inny sposób który może przynieść zarówno korzyści jak i nieść za sobą pewne wady.

Generowanie obrazu z tekstu (text-to-image) nie jest dziedziną nową. Początkowo zagadnienie to obejmowało rozwój takich podejść jak GAN (Generatywne modele adwersarialne) czy VAE (Autoenkodery wariacyjne). Natomiast Modele Midjourney i Stable Diffusion to dwa pierwsze modele które połączyły te technologie z bardzo dużym rozmiarem sieci oraz modelami językowymi. To z kolei aby sieci te ukazały potencjał do zastosowania takich technologi w szerszym środowisku niż do udowadniania koncepcji. Ale jak te modele faktycznie działają?

Midjourney
Niestety Midjourney działa na zamkniętym kodzie, więc nikt spoza firmy nie wie, jak dokładnie działa. Niemniej jednak, posiadamy na jego temat na tyle wiedzy by choć z grubsza zarysować sposób działania.
Midjourney to system oparty na dwóch nowych technologiach uczenia maszynowego: dużych modelach językowych i modelach dyfuzji. Pierwszy pomaga modelowi zrozumieć znaczenie wprowadzonych słów, przekształcając je w reprezentację wektorową. Następnie wektor służy do przeprowadzenia procesu dyfuzji który przekształca losowy szum w docelowy obraz.
Jest to możliwe dzięki odpowiedniemu treningowi modelu, który stopniowo dodaje coraz intensywniejszy szum do obrazów z puli treningowej, a następnie uczy się odwracać ten proces, aby odtworzyć oryginalny obraz.
W efekcie daje modelowi umiejętność przekształcenia szumu w dowolny obraz na podstawie niewielkiego wkładu ze strony użytkownika. Co ciekawe poprzez dostosowany interfejs Discord jesteśmy w stanie zobaczyć ten proces na żywo, jak obraz z szumu, następnie rozmazanego i nic nie przypominającego przekształca się w ostateczny klarowny i wyrazisty.
Stable Diffusion
Stable Diffusion w przeciwieństwie do Midjourney, to otwarty model służący przede wszystkim do zamiany tekstu w obraz ale należy wspomnieć o tym że posiada także inne potencjalne funkcjonalności.
To, że model został udostępniony publicznie oznacza, iż możemy wejść na odpowiednią stronę, pobrać go i cieszyć się jego funkcjonalnością na naszym komputerze o ile spełnia wymagania sprzętowe.
Wysokopoziomowo Stable Diffusion działa podobnie co Midjourney to znaczy opiera się o model dyfuzyjny, z tym że w tym przypadku ze względu na otwartość kodu który możemy podejrzeć, znamy dużo więcej jeżeli nie wszystkie szczegóły implementacji. Jednym z takich aspektów jest to iż korzystamy tu z konkretnego wariantu dyfuzji.
Utajniony model dyfuzji (LDM) jest szczególnie skuteczny w generowaniu obrazów o wysokiej rozdzielczości przy jednoczesnym zachowaniu spójnej całości. Dlatego są one krokiem naprzód, zwłaszcza w dziedzinie generowania obrazów.

Jakie są ich możliwości?

Narzędzia do generacji obrazu zrewolucjonizowały sposób, w jaki tworzy się grafiki, sztuki i wizualizacje. Do ich największych zalet należą:

Wydajność i szybkość: w kontraście do konwencjonalnego tworzenia grafik, proces ten jest bardzo szybki – jesteśmy w stanie uzyskać kilka grafik jednocześnie w przeciągu kilku sekund.
Elastyczność: jeśli wyniki danego prompta nie są zadowalające, w łatwy sposób można je zmienić. Dodatkowo, jeśli w trakcie tworzenia jakiegoś projektu zmienią się wymagania co do stylów używanych obrazów, wygenerowanie analogicznych jest stosunkowo proste.
Wprowadzanie szczegółowych zmian: modele nie tylko potrafią generować całe obrazy na podstawie promptów, lecz także wypełniać wskazane fragmenty. Dzięki temu edycja obrazów staje się znacznie prostsza i szybsza.

Zastosowane mogą być w wielu branżach takich jak:

Edukacja i nauka: do generacji wizualizacji scenariuszy historycznych, konceptów biologicznych czy astronomicznych. Znacznie lepiej przyswaja się wiedzę gdy dane zjawisko czy zdarzenie można zobaczyć.
Marketing: koszty tworzenia reklam mogą zostać zmniejszone, dodatkowo przez modyfikację promptów w łatwy sposób można wygenerować wiele jej wersji, np. personalizując do różnych grup odbiorców. (Ciekawy artykuł: „Midjourney – 5 pomysłów na wykorzystanie grafik AI w Marketingu„)
Rozrywka: mogą pomóc w uatrakcyjnieniu filmów rozrywkowych czy książek, generując do nich obrazy.

Przykładowe obrazy wygenerowane przez DALL-E 3:

Prompt: A illustration from a graphie novel. A bustling city street under the shine of a full moon. The sidewalks bustling with pedestrians enjoying the nightlife. At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor. the grumpy vendor, a tall, sophisticated man is wearing a sharp suit, sports a noteworthy moustache is animatedly conversing on his steampunk telephone.

Prompt: In a fantastical setting, a highly detailed furry humanoid skunk with piercing eyes confidently poses in a medium shot, wearing an animal hide jacket. The artist has masterfully rendered the character in digital art, capturing the intricate details of fur and clothing texture.

Jakie są ich słabości?

Pomimo licznych możliwości, narzędzia te, jak każde inne narzędzie oparte na sztucznej inteligencji, posiada również swoje słabości. Zrozumienie tych ograniczeń jest kluczowe dla użytkowników, którzy chcą w pełni wykorzystać potencjał tej technologii. Do najbardziej znaczących wyzwań i ograniczeń należą:

Problemy z dokładnością i kontekstem: jednym z głównych wyzwań jest generowanie obrazów, które w pełni odpowiadają złożonym lub bardzo szczegółowym opisom tekstowym. Czasami system może niepoprawnie interpretować kontekst lub zignorować niektóre aspekty opisu, co prowadzi do wyników, które mogą być niedokładne lub niezgodne z oczekiwaniami użytkownika. Tego typu błędy są szczególnie widoczne w sytuacjach, gdy generowany obraz wymaga subtelnych niuansów lub szczególnie złożonej kompozycji.
Brak emocjonalnego zrozumienia: mimo swojego zaawansowania, technologie AI nie są w stanie w pełni zrozumieć emocjonalnego kontekstu ludzkich opisów. To oznacza, że wizualizacje mogą być technicznie poprawne, lecz bez „ludzkiego dotyku”, co może być szczególnie widoczne w pracach artystycznych, gdzie emocje i subtelne niuanse mają przecież kluczowe znaczenie.
Wydajność i dostępność: mimo, że modele te są chwalone za szybkość i wydajność, to ich działanie wymaga znacznych zasobów obliczeniowych. To może ograniczać dostęp do technologii dla osób lub organizacji dysponujących ograniczonym budżetem. Problemem może być także zmienna dostępność usługi w zależności od aktualnego obciążenia serwerów, co wpływa na czas oczekiwania na generowanie obrazów.
Prawa autorskie i oryginalność: mimo, że wygenerowane obrazy na ogół są unikalne, to teoretycznie ich fragmenty mogą zawierać elementy obrazów publicznie dostępnych, wykorzystanych do ich trenowania. Może to potencjalnie stwarzać problemy natury prawnej dla twórców wykorzystujących te wygenerowane obrazy w celach komercyjnych. Dodatkowo warto zastanowić się nad etycznym aspektem wykorzystania do nauki obrazów publicznie dostępnych, bez zgody ich autorów.

Jaki jest odbiór społeczny tych systemów?

Odbiór społeczny tych systemów jest zróżnicowany i powoduje wiele różnych refleksji na temat wpływu technologii AI na kreatywność, sztukę i ogólne postrzeganie oryginalności. Analiza społecznego odbioru tego narzędzia ujawnia zarówno entuzjazm, jak i pewne obawy.

Duża część społeczności artystycznej i technologicznej z entuzjazmem przyjęła tą nową technologię, widząc w niej kolejny krok naprzód w eksploracji granic możliwości twórczych. Dla wielu użytkowników systemy te otwierają nowe horyzonty i umożliwiają eksperymentowanie z koncepcjami w sposób dotąd nieosiągalny. Szczególnie doceniana jest zdolność do szybkiego generowania wizualizacji pomysłów, co znacznie ułatwia pracę projektową i artystyczną.

Jednakże, pojawiają się również głosy krytyczne. Niektóre z obaw dotyczą kwestii praw autorskich i oryginalności dzieła. Twórcy są zaniepokojeni tym, że system opierający się na ogromnej bazie danych istniejących obrazów może kreować prace, które naruszają prawa autorskie lub nie są w pełni oryginalne. Dodatkowo, generowanie obrazów, które trudno odróżnić od rzeczywistości, rodzi pytania o etyczną stronę wykorzystania takiej technologii, zwłaszcza w kontekście możliwości jej użycia do tworzenia dezinformacji.

Zaistniała również debata etyczna dotycząca stopnia, w jakim AI może być uważana za „twórcę”. Dyskusje skupiają się na tym, jak należy interpretować prawa autorskie w kontekście twórczości generowanej przez AI oraz na wpływie takich technologii na rynek pracy dla artystów i projektantów. Istnieją obawy, że automatyzacja procesów twórczych może ograniczyć pole działania dla zawodów kreatywnych.

Nie można również ignorować wpływu, jaki technologie takie jak Midjourney czy Stable Diffusion mają na relacje społeczne i emocjonalny wymiar twórczości. Dla niektórych, AI jako „autor” może zdawać się zniweczyć intymny i osobisty aspekt tworzenia sztuki, który jest fundamentalny dla wielu artystów.

Zatem podobnie jak wiele innych nowych technologii czy wynalazków, technologie generacji obrazów w zależności od kontekstu i sposobu użycia mogą nieść ze sobą korzyści lub być krzywdzące.

Literatura

Wankhede, Calvin (2024). What is Midjourney AI and how does it work? https://www.androidauthority.com/what-is-midjourney-3324590/
Newar, Abik. (2023). How Does Midjourney Work? Its Mechanism and Image Generation. https://medium.com/@abiknewar2002/how-does-midjourney-work-its-mechanism-and-image-generation-94faea8240b3
Mamczur, Mirosław. (2022). Dall-E2 vs Midjourney vs Stable Diffusion.
Betker, J., Goh, G., Jing, L., Brooks, T., Wang, J., Li, L., … & Ramesh, A. (2023). Improving image generation with better captions. Computer Science. https://cdn.openai.com/papers/dall-e-3.pdf, 2(3), 8.
Kalinowski, M. (2024). Czy, komu iw jakim zakresie przysługują prawa do wytworów generatywnej sztucznej inteligencji? Analiza prawna z perspektywy warunków użytkowania MidJourney. PRAWO i WIĘŹ, (1 (48)), 259-280.
Dall-E2 vs Midjourney vs Stable Diffusion https://miroslawmamczur.pl/dall-e2-vs-midjorney-vs-stable-diffusion/
Wikipedia – Stable Diffusion https://en.wikipedia.org/wiki/Stable_Diffusion
Kod źródłowy Stable Diffusion https://github.com/Stability-AI/stablediffusion

Tags: AI, Dall-E, Generatywne AI, generowanie obrazów, Midjourney, stable diffusion, sztuczna inteligencja

Jeden komentarz

Michał Szczurek pisze:

7 kwietnia, 2024 o 4:42 pm

Osobiście lubię korzystać z generatorów obrazów dla zabawy, aby tworzyć głupie / memiczne obrazki, których wykonanie przez człowieka byłoby zbyt czasochłonne i kosztowne. Myślę, że dużą zaletą tych narzędzi jest możliwość przelania myśli na (w miarę ładny) obraz niewielkim kosztem, co dotychczas było niemożliwe dla osób bez zdolności artystycznych.

Inną kwestią jest to, że grafiki nie zawsze są dokładnie tym czym chcę (choć w moim przypadku czasem jest to wręcz plusem). Szkoda natomiast, że może to redukować zapotrzebowanie na prace artystów, których zlecenia ograniczą się pewnie do sprecyzowanych grafik tworzonych na zlecenie „koneserów” sztuki.

Zaloguj się, aby odpowiedzieć