W ubiegłym roku nastąpiła eksplozja modeli uczenia maszynowego, które generują obrazy cyfrowe na podstawie podpowiedzi języka naturalnego. Modele te są bardzo obiecujące, gdyż umożliwiają artystom i projektantom szybkie prototypowanie pomysłów i odkrywanie nowych możliwości estetycznych. Jednak rozwój tych narzędzi do automatycznego generowania obrazów rodzi również pytania o przyszłość tradycyjnych form sztuki i rolę ludzkiej kreatywności w procesie twórczym. Niniejszy wpis przedstawia przegląd możliwości narzędzia Midjourney – jednego z najpopularniejszych generatorów obrazów opartych na sztucznej inteligencji oraz porusza kwestię zagrożeń związanych z wykorzystaniem automatycznych generatorów obrazów.
Czym jest Midjourney?
Midjourney jest narzędziem bazującym na algorytmach sztucznej inteligencji, służącym do generowania obrazów, które powstają na podstawie wprowadzonych przez użytkownika słów. Niekoniecznie muszą to być tagi czy słowa kluczowe, algorytm jest w stanie przetworzyć całe opisy. Program jest przeznaczony do tworzenia obrazów z opisów tekstowych, podobnie jak DALL-E 2, jedna z najpopularniejszych technologii do generowania obrazów opracowana przez OpenAI. Jednak w przeciwieństwie do DALL-E 2 oraz innych generatorów obrazów twórcy Midjourney opracowali swój własny, unikalny styl generowanych obrazów, który przyciągnął wiele uwagi zarówno entuzjastów sztucznej inteligencji jak i artystów. Dzięki technologii Midjourney użytkownicy mogą tworzyć grafiki za pomocą poleceń bota Discord, dzięki czemu proces generowania obrazów jest szybki i łatwy.
Jak wygląda proces generowania obrazów?
Generator tekstu na obraz to oprogramowanie, które tworzy obraz na podstawie tekstu wprowadzonego przez użytkownika. Takie narzędzia sztucznej inteligencji są szkolone na ogromnych zbiorach danych składających się z par tekstu i obrazów. Proces szkolenia uczy model sztucznej inteligencji tworzenia powiązań między strukturą wizualną, kompozycją i wszelkimi dostrzegalnymi danymi wizualnymi w obrazie oraz w jaki sposób odnoszą się one do towarzyszącego im tekstu.
Następny krok w szkoleniu generatora tekstu na obraz nazywa się dyfuzją. W tym procesie do obrazu stopniowo dodawany jest szum gaussowski, podczas gdy algorytm sztucznej inteligencji w każdej iteracji jest szkolony za pomocą coraz bardziej zaszumionego obrazu. Proces jest następnie odwracany, a model jest uczony konstruowania, zaczynając od losowych pikseli obrazu, który jest wizualnie podobny do oryginalnego obrazu treningowego.
W ten sposób model sztucznej inteligencji jest szkolony na miliardach obrazów, przechodząc od obrazu do szumu, a następnie za każdym razem odwracając ten proces. Po wielu godzinach treningu takiego modelu może on zacząć tworzyć z szumu obrazy, które nigdy wcześniej nie istniały. W praktyce oznacza to, że użytkownik może uzyskać dostęp do generatora tekstu na obraz, wprowadzić polecenie tekstowe, a sztuczna inteligencja wygeneruje całkowicie nowy obraz na podstawie wprowadzonego tekstu.
Przegląd możliwości narzędzia Midjourney
Midjourney podobnie jak DALL-E 2 zapewnia wysoką jakość, jednak istnieje znacząca różnica w stylu generowanych przez nie obrazów. Obrazy generowane przez DALL-E 2 są bardziej fotorealistyczne. Natomiast Midjourney dostarcza obrazy w bardziej artystycznym stylu, dzięki czemu jest bardziej precyzyjny i dokładny w tworzeniu szczegółowych obrazów.
Jak można zauważyć na powyższych wynikach działania algorytmów, DALL-E 2 wygenerował obrazy realistyczne, przedstawiające rzeczywiste obiekty oraz naturę. Z kolei za pomocą Midjourney uzyskano obiekty raczej niewystępujące w rzeczywistym świecie, bardziej przypominające krajobraz z bajek.
Warto podkreślić, iż narzędzie Midjourney nie rozumie gramatyki ani struktury zdań, więc dobór słów ma duże znaczenie. Bardziej szczegółowe synonimy działają lepiej niż ogólne, a mniej słów powoduje, że każde z nich ma większy wpływ. Wszystko, co nie zostanie uwzględnione w zapytaniu, zostanie wygenerowane w sposób losowy. Poniżej przedstawiono 3 obrazy wygenerowane za pomocą Midjourney według 3 następujących fraz: “cat”, “red cat with hat in space”, “red cat with big hat and black eyes in colorful space”.
Na powyższych obrazach można zauważyć jak kilka dodatkowych słów we frazie zapytania zmienia generowane przez algorytm obrazy oraz jak dobrze narzędzie radzi sobie z uwzględnieniem wszystkich szczegółów. Niemniej jednak warto zwrócić uwagę, że generator obrazów nie jest idealny. Na kilku wygenerowanych grafikach uszy kota przebijają się przez kapelusz, co nie jest naturalne. Ponadto koty na obrazach wygenerowanych według frazy “red cat with big hat and black eyes in colorful space” wcale nie mają czarnych oczu, ale kolorowe. Być może algorytm użył w tym celu przymiotnik określający kosmos zamiast oczu.
Nasuwa się również pytanie, jak sztuczna inteligencja poradzi sobie z odtworzeniem najpopularniejszych dzieł artystycznych. Jako przykład można posłużyć się obrazem “Mona Lisa”.
Można zauważyć, że obrazy wygenerowane przez narzędzie Midjourney zachowują koncepcję obrazu, jednak różnią się szczegółami od oryginału. Midjourney generuje obrazy bardziej precyzyjne, ale zarazem zniekształcone, co sprawia że postać nie wygląda naturalnie.
Jakie zagrożenia niosą za sobą automatyczne generatory obrazów?
Zastosowanie narzędzi do automatycznego generowania obrazów opartych na sztucznej inteligencji ma potencjał zrewolucjonizowania branży artystycznej. Jednak używanie tych narzędzi wiąże się również z kilkoma wyzwaniami i zagrożeniami, które należy dokładnie rozważyć.
- Jednym z podstawowych problemów związanych z używaniem narzędzi do automatycznego generowania obrazów jest potencjalna utrata ludzkiej kreatywności i ekspresji artystycznej. Narzędzia te mogą być w stanie generować obrazy szybko oraz skutecznie, jednak brakuje im subiektywnego podejmowania decyzji i emocjonalności, które są nieodłącznym elementem ludzkiej kreatywności.
- Wzrost popularności generatorów obrazów opartych na sztucznej inteligencji może mieć również znaczący wpływ na tradycyjne formy sztuki, takie jak malarstwo i rysunek. Narzędzia te mają potencjał do zautomatyzowania procesu twórczego i zastąpienia potrzeby ludzkich artystów, co może spowodować spadek popytu na tradycyjne formy sztuki i mniejsze zainteresowanie twórczością przez artystów.
- Kluczowym aspektem są również jakość i dokładność generowanych obrazów. Mimo że automatyczne generatory obrazów poczyniły znaczne postępy w ostatnich latach, nadal istnieją obawy dotyczące jakości i dokładności generowanych obrazów. Narzędzia te mogą mieć trudności z odtworzeniem zawiłości ludzkiego widzenia i percepcji, co skutkuje obrazami, które są niedokładne lub nawet zawierają obiekty, które w rzeczywistości nie istnieją.
Niezmiernie ważne jest, aby przeanalizować te wyzwania i zagrożenia, co zapewni, że generatory obrazów oparte na AI będą wykorzystywane w sposób odpowiedzialny i etyczny.
Czy sztuczna inteligencja zastąpi nam malarzy?
Możemy zadać sobie pytanie, czy nadal będziemy cenić ludzkie umiejętności i kreatywność w sztukach wizualnych? Odpowiedź brzmi: tak. Twórczość ludzka jest inna. Maszyny naśladują, modyfikują i generują sztukę przypadkowo, bez jakiejkolwiek ludzkiej intencjonalności. Niektórzy mogą twierdzić, że ludzka sztuka to także naśladowanie, jednak proces jest zupełnie inny. Artyści doświadczają znacznie bardziej przemyślanych i dynamicznych wizji. Mogą podążać ścieżką pomysłów i eksploracji inaczej niż systemy AI. Nawet jeśli wyniki sztucznej inteligencji są podobne, społeczeństwo będzie nadal cenić sztukę stworzoną przez człowieka ze względu na ten ludzki pierwiastek. Kolejnym bardzo ważnym powodem jest autentyczność dzieł, która szczególnie w świecie sztuki jest niezmiernie pożądana.
Jednak narzędzia do generowania obrazów mogą okazać się pomocne dla ilustratorów czy artystów. Będą oni mogli używać ich do generowania pomysłów, zbierania inspiracji i eksperymentowania z prototypami, które później wykorzystają do stworzenia końcowego dzieła.
Sztuczna inteligencja nigdy całkowicie nie zastąpi sztuki, jednak może ograniczyć zapotrzebowanie na artystów. Wiąże się to z faktem, iż automatyczne generatory obrazu dają możliwość wygenerowania obrazu za darmo. Ponadto szybkość tych narzędzi pozwala nam w przeciągu niespełna minuty otrzymać gotowy obraz.
Z drugiej strony automatyczne generatory obrazów mogą zapewnić ludziom więcej możliwości urzeczywistnienia ich artystycznych wizji, dzięki czemu znacząco wzrośnie zainteresowanie tworzeniem sztuki, gdyż praktycznie każdy niewielkim nakładem pracy będzie mógł stworzyć swoje własne dzieło. W konsekwencji sztuczna inteligencja może uczynić ilustrację bardziej dostępną, zachęcając do twórczości i ożywiając sztukę wizualną.
Podsumowanie
Generatory obrazów oparte na sztucznej inteligencji są świetnym narzędziem, które umożliwiają utworzenie obrazów w unikalnym stylu nawet przez osobę nieposiadającą zdolności artystycznych. Istnieją jednak zagrożenia związane z używaniem automatycznych generatorów obrazów, w tym potencjalna utrata ludzkiej kreatywności i wpływ na tradycyjne formy sztuki. Podczas gdy takie narzędzia jak Midjourney mogą zmniejszyć zapotrzebowanie na artystów, nigdy nie zastąpią całkowicie sztuki, gdyż w tej dziedzinie najwyżej ceniony jest element ludzki. Niemniej jednak generatory obrazów mogą być pomocne dla artystów w generowaniu pomysłów i eksperymentowaniu z prototypami.
Literatura
[1] https://www.midjourney.com/
[2] https://learnopencv.com/rise-of-midjourney-ai-art/
[3] https://photoshopcafe.com/will-artists-be-replaced-by-ai-art-mid-journey-and-chat-gpt-what-i-think/
[5] https://dallery.gallery/midjourney-guide-ai-art-explained/
Świetny artykuł! Bardzo dokładnie opisuje zarówno szanse, jak i wyzwania związane z wprowadzeniem kryptowalut, NFT i technologii blockchain do współczesnej…