Home » AGH 2022/23 » Muzyczny Midjourney. Czy muzycy podzielą los artystów graficznych?

Muzyczny Midjourney. Czy muzycy podzielą los artystów graficznych?

By Kamil Krzempek and Anna Nosek in AGH 2022/23, Uncategorized on 22 marca, 2023

Spread the love

Świat muzyki to obszar, w którym sztuczna inteligencja nie wybrzmiała jeszcze tak donośnie jak w przypadku sztuki graficznej. W ostatnich miesiącach Google opublikowało nowy model AI – MusicLM. Wyprzedzając swoich poprzedników takich jak Jukebox czy Mubert model ten może postawić muzykom podobne pytania, jakie DALLE i Midjourney postawiły niedawno twórcom graficznym. Kwestia praw autorskich i zastąpienia twórców jest i w tym przypadku nieoczywista, choć wiele wskazuje na to, że na robot band z prawdziwego zdarzenia trzeba jeszcze poczekać.

Najpierw artyści graficzni, teraz muzycy

Sztuczna inteligencja zaczyna być postrzegana jako potencjalne zagrożenie w wielu zawodach. Narzędzia wykorzystujące modele AI budzą w opinii publicznej całą gamę emocji. Szczególnie głośne w ostatnich miesiącach są kwestie modeli językowych (ChatGPT) oraz narzędzi generujących obrazy (DALLE, Midjourney) – dla niektórych są one powodem do strachu o przyszłość dziennikarzy, malarzy czy programistów, a inni postrzegają je jako narzędzia które dołączą do standardowego wachlarzu umiejętności wymaganych w tych branżach. Czy muzycy także powinni martwić się o swoją przyszłość lub uczyć się wdrażać modele sztucznej inteligencji do swojej pracy? Analiza najnowszych narzędzi pokazuje, że wkrótce do głośnych dyskusji na temat miejsca AI w sztuce i biznesie dołączy także branża muzyczna.

Literatura – nowe modele muzyczne i ich analiza

MusicLM

Dominacja OpenAI na polu modeli tekstowych może sprawiać wrażenie, że Google zostało daleko w tyle za konkurencją w sferze sztucznej inteligencji. Swoim najnowszym narzędziem o nazwie MusicLM (Agostinelli et al., 2023) firma pokazała jednak, że w przypadku AI generującego muzykę są zdecydowanymi liderami. Zaprezentowany w styczniu 2023 roku model może wygenerować utwory utrzymujące wysoką jakość (24kHz) przez kilka minut (długość standardowego utworu muzycznego). Warunkowanie może odbyć się zarówno poprzez podanie komendy tekstowej w formacie podobnym do ChatGPT, jak i komendy tekstowej połączonej z samplem muzycznym. Użytkownik może zatem zanucić dowolną melodię, a następnie wskazać, by została kontynuowana w określonym stylu lub symulując wskazane instrumenty. Przykłady przedstawione przez twórców modelu zawierają instrukcje tekstowe definiujące nie tylko techniczne aspekty utworów, ale także emocje, jakie ma budzić wygenerowana muzyka:

Epic soundtrack using orchestral instruments. The piece builds tension, creates a sense of urgency. An a cappella chorus sing in unison, it creates a sense of power and strength

Możliwości które przedstawia model bazowany na frameworku AudioLM zdają się nieograniczone. Wygenerować można pełne utwory muzyczne składające się z faz o różnym charakterze, jak i pojedyncze partie instrumentalne o różnym poziomie zaawansowania:

electronic song played in a videogame (0:00-0:15)

meditation song played next to a river (0:15-0:30)

fire (0:30-0:45)

fireworks (0:45-0:60)

Symulować można także wokal, choć w tym przypadku należy spodziewać się niezrozumiałego ciągu sylab, niekiedy nieco przypominającego konkretny język:

This is an r&b/hip-hop music piece. There is a male vocal rapping and a female vocal singing in a rap-like manner. The beat is comprised of a piano playing the chords of the tune with an electronic drum backing. The atmosphere of the piece is playful and energetic. This piece could be used in the soundtrack of a high school drama movie/TV show. It could also be played at birthday parties or beach parties.

Sample wygenerowane z zacytowanych promptów oraz inne można znaleźć na stronie domowej projektu.

Model został wytrenowany na zestawie ścieżek dźwiękowych bez opisu, a jego ewaluacja została dokonana na specjalnie utworzonym zbiorze MusicCaps. Zbiór ten został stworzony na potrzeby pracy, ze względu na małą dostępność zbiorów danych zawierających ścieżki audio wraz z opisem tekstowym. MusicCaps zawiera adnotacje stworzone przez profesjonalnych artystów i został udostępniony publicznie na platformie Kaggle.

Jukebox

OpenAI w swoim wachlarzu narzędzi sztucznej inteligencji posiada również imponujące modele muzyczne. Opublikowany w 2020 roku Jukebox (WEB1), następca MuseNet, tworzy pełne utwory muzyczne warunkowane przez artystę, gatunek, a także opcjonalnie tekst piosenki. Podobnie jak MusicLM, model jest w stanie także kontynuować wprowadzoną do niego ścieżkę dźwiękową. Wygenerowane utwory w wielu aspektach przypominają muzykę stworzoną przez człowieka – można w niej zauważyć typowe progresje akordów czy instrumentalne solówki, jednak brak w niej struktury współczesnych piosenek. Nie uświadczy się w nich więc podziału na zwrotki i powtarzające się refreny. OpenAI udostępniło zbiór utworów wygenerowanych za pomocą tego modelu – można usłyszeć tam piosenki w stylu setek współczesnych muzyków, podzielone na cztery kategorie:

warunkowane tekstem istniejących piosenek (re-renditions),
warunkowane nowym tekstem (unseen lyrics),
warunkowane 12-sekundowym fragmentem audio (completions),
a także warunkowane nietypowymi połączeniami artystów z gatunkami muzycznymi (fun songs).

Model został wytrenowany na zbiorze 1.2 miliona utworów muzycznych, reprezentowanych przez ścieżkę audio, tekst piosenki i metadane (nazwa artysty, gatunek albumu, rok wydania, klimat i słowa kluczowe playlist na których pojawia się piosenka).

Mubert

Platforma Mubert (WEB2) to rozwiązanie komercyjne, które pozwala na tworzenie muzyki royalty-free na potrzeby streamerów, twórców filmowych czy twórców aplikacji. W grudniu 2022 roku na platformie został udostępniony silnik text-to-music dla wszystkich użytkowników (poprzednio dostępny był jedynie poprzez API). Narzędzie to różni się jednak od MusicLM czy Jukebox sposobem działania – wektor tagów stworzony na podstawie dostarczonego tekstu jest użyty do wygenerowania muzyki korzystając z dźwięków stworzonych wcześniej przez muzyków. Mubert więc nie “tworzy” muzyki, a produkuje kombinację gotowych dźwięków.

Przykłady sampli stworzonych za pomocą platformy Mubert, w porównaniu z samplami zaprezentowanymi przez MusicLM:

acoustic guitar

Meditative Song Calming And Soothing With Flutes And Guitars The Music Is Slow With A Focus On Creating A Sense Of Peace And Tranquility

Proste generatory muzyczne

Wyszukując w internecie generatorów muzyki wykorzystujących AI można natknąć się na wiele platform podobnych do Muberta. Większość z nich skupia się na tworzeniu muzyki royalty-free, co jest kuszącą opcją dla twórców treści internetowych. Platformy takie jak Soundful czy Amper Music wprost przedstawiają swój produkt jako narzędzie do prostego tworzenia muzyki, która może być zamieszczona w filmikach, podcastach czy grach.

Pierwsza ze wspomnianych platform, Soundful, umożliwia łatwe generowanie utworów poprzez wybranie gatunku muzyki, jego tempa i tonacji. Platforma dostarcza także template’ów utworów w określonych podgatunkach. Przeznaczenie wygenerowanej za pomocą tego narzędzia muzyki jest wprost sugerowane na stronie domowej Soundful.

Stop worrying about copyright strikes and start discovering unique, royalty-free tracks that work perfectly with your content.

Stop overpaying for your music. Soundful offers an affordable way to acquire unique, studio-quality music tailored to your brands needs.

Amper Music był natomiast pierwotnie tworzony z myślą o soundtrackach filmowych. Model jest warunkowany przez klimat, długość utworu i styl. Użytkownik może także podejmować kolejne decyzje bazując na wygenerowanych propozycjach.

Podobną platformą jest AIVA, która dalej jest reklamowana szczególnie twórcom filmowym. Model AIVA został wytrenowany na muzyce z domeny publicznej (np. utworach Mozarta, Beethovena czy Bacha). Ponadto jest pierwszym wirtualnym kompozytorem, którego prawa zostały uznane przez społeczność praw autorskich Société des Auteurs, Compositeurs et Éditeurs de Musique (SACEM), co oznacza, że muzyka wygenerowana przez to narzędzie podlega ochronie praw autorskich.

Analizy porównawcze

Oceny i porównania modeli z lat od 2017 do 2021 wskazują, że najwięcej prac opiera się na głębokim uczeniu maszynowym, szeroką reprezentację mają również rozwiązania oparte na podejściu ewolucyjnym (Civit et al., 2022). Zbiory używane do treningu znacząco różnią się między wyspecjalizowanymi modelami, najczęściej używanym okazał się zbiór Lakh, składający się z 176 tysięcy plików MIDI. Jedynie niewielka część modeli została wytrenowana na plikach audio, ze względu na stopień skomplikowania tej procedury. Niewiele systemów z tych lat uwzględniało też aspekt emocji.

W dziedzinie kompozycji czy generowania muzyki, standardowe metryki używane do ewaluacji modeli deep learningowych nie mają jasnego znaczenia w kontekście teorii muzyki. Podejmowane próby oceny modeli opierają się także na subiektywnym odbiorze muzyki przez ludzi. W jednej z prac poddano ewaluacji modele MusicVAE, MusicTransformer, DeepBach i Multi-Track Music Machine (Hernandez-Olivan et al., 2022). 98 uczestników badania podzielonych zostało na trzy grupy, według stopnia zaawansowania ich wiedzy muzycznej. Ankietowani mieli określić utwory pod względem ich melodii, harmonii i rytmu, przypisać ocenę ogólną całym utworom oraz stwierdzić, czy zostały skomponowane przez człowieka czy maszynę. Najwyższy wynik uzyskał model DeepBach, tworzący zgodnie ze swoją nazwą kompozycje w stylu Bacha. Muzyka wygenerowana przez ten model uzyskała ponadto wynik wyższy niż jego zbiór treningowy JSB Chorales.

Prawa autorskie

Kwestie własności intelektualnej treści stworzonych przez generatywne AI są skomplikowane. Utwory te są produktem wielu danych rozłożonych, a następnie złożonych ponownie przez algorytmy, więc kwestia własności jest tutaj trudna do rozstrzygnięcia. brakuje jednoznacznych regulacji chroniących dzieła tworzone przez AI bądź z jej wsparciem. Można wskazać natomiast pojedyncze sprawy sądowe w których uznane zostały prawa autorskie do dzieła stworzonego przez człowieka z pomocą AI (WEB3).

Twórcy MusicLM już we wstępie swojej publikacji zaznaczają, że przeprowadzili analizę memorization swojego modelu i wskazują, że wygenerowana muzyka znacząco różni się od zbioru treningowego:

Our findings show that when feeding MuLan embeddings to MusicLM, the sequences of generated tokens significantly differ from the corresponding sequences in the training set.

Wspomniany model AIVA stanowi tutaj swego rodzaju wyjątek i interesujący precedens – wytrenowany na muzyce z domeny publicznej, sam generuje utwory podlegające ochronie praw autorskich.

Przyszłość muzyków

Na podstawie przedstawionych narzędzi można zauważyć, że technologia automatycznego generowania muzyki zdaje się zbliżać jakością swoich tworów do modeli generujących tekst lub grafikę. Już obecnie jest w stanie zastąpić muzyków w generowaniu prostej muzyki tła, co w szczególności może zachęcać twórców treści internetowych. Opublikowane dotychczas modele nie są jednak w stanie wygenerować chociażby piosenki pop z wokalem nieodróżnialnym od ludzkiego. Trudności w stworzeniu takiego narzędzia zdają się mieć przyczynę między innymi w nietrywialnym problemie ewaluacji wygenerowanych utworów. Wykorzystanie w ocenie zasobów ludzkich jest kosztowne, szczególnie w przypadku gdy powstaje potrzeba zasięgnięcia opinii profesjonalnych muzyków.

Można więc stwierdzić, mimo że AI zastąpi muzyków w tworzeniu muzyki prostej, używanej głównie do celów komercyjnych, artyści mogą wręcz skorzystać z mocy sztucznej inteligencji do wsparcia swojego procesu kreatywnego. W przypadku creative block artysty, modele mogą podpowiedzieć dalszy ciąg utworu, a także pokazać czy zmiana stylu piosenki uczyni ją bardziej chwytliwą.

Pojawiają się także obawy, że wykorzystanie sztucznej inteligencji wpłynie negatywnie na ludzką kreatywność, a muzyka zostanie zdegenerowana do bezdusznych dźwięków – wizja niczym z utworu The Sound Of Muzak zespołu Porcupine Tree.

Now the sound of music

Comes in silver pills

Engineered to suit you

Building cheaper thrills

Imponująca szybkość rozwoju modeli AI wskazuje, że o tym, czy w tym przypadku szklanka jest do połowy pusta czy pełna dowiemy się już w niedalekiej przyszłości.

Źródła

Agostinelli, A., Denk, T. I., Borsos, Z., Engel, J., Verzetti, M., Caillon, A., … Frank, C. (2023). MusicLM: Generating Music From Text. ArXiv [Cs.SD]. Retrieved from http://arxiv.org/abs/2301.11325
Strona OpenAI opisująca model Jukebox https://openai.com/research/jukebox
Strona projektu Mubert https://mubert.com/
Civit, M., Civit-Masot, J., Cuadrado, F., & Escalona, M. J. (2022). A systematic review of artificial intelligence-based music generation: Scope, applications, and future trends. Expert Systems with Applications, 209, 118190. doi:10.1016/j.eswa.2022.118190
Hernandez-Olivan, C., Puyuelo, J. A., & Beltran, J. R. (2022). Subjective Evaluation of Deep Learning Models for Symbolic Music Composition. ArXiv [Cs.SD]. Retrieved from http://arxiv.org/abs/2203.14641
Artykuł o problemach z prawami autorskimi do treści wygenerowanych przez AI, opublikowany na stronie Forbes https://www.forbes.com/sites/jacquelineschneider/2023/02/28/how-latest-ai-generated-copyright-loss-could-add-friction-to-music-and-technologys-complicated–relationship

Tags: AI, Jukebox, Mubert, MusicLM, muzyka, OpenAI, sztuka