Home » AGH 2023/24 » Czy aktorów na Netflixie będziemy wybierać jak wojowników w Mortal Kombat? Wpływ deepfake’u na kinematografię.

Tagi

Wyróżnione posty

Zobacz też

Statystyki

  • 116
  • 642
  • 25 020
  • 7 313
  • 17

Czy aktorów na Netflixie będziemy wybierać jak wojowników w Mortal Kombat? Wpływ deepfake’u na kinematografię.

Spread the love

Modele i narzędzia generujące obrazy już zawitały do naszej codzienności. Jednak gdy w grę wchodzi generowanie wysokiej jakości wideo, wydawałoby się, że ten etap jest jeszcze przed nami. A może realistyczne wideo, uzyskane z pomocą potężnego modelu to już teraźniejszość? Jak wykorzystywany jest deepfake i czy da się z nim walczyć? W tym artykule postaramy się to przedyskutować. Zawrzemy też naszą opinię na temat deepfake’u i jego moralności.

Wstęp

Deepfake to technologia (bądź media powstałe w wyniku jej użycia) umożliwiająca stworzenie wysoce realistycznych mediów syntetycznych takie jak obrazy, wideo bądź nagrania, na których osoba, bądź jej głos są zamieniane na podobiznę/głos innej osoby.

Narzędzia deepfake wykorzystują zaawansowane metody uczenia maszynowego, aby manipulować lub generować treści wizualne i audio, tworząc fałszywe multimedia, które mogą być trudne do odróżnienia od prawdziwych. Choć taka technologia i matematyczne mechanizmy wykorzystane przy budowie takich narzędzi mogą brzmieć ekscytująco, deepfake zwykle kojarzymy z czymś negatywnym.

W tym artykule zgłębimy i przedyskutujemy kilka tematów dotyczących deepfake’u. Zaczniemy od rozróżnienia tego, co jest, a co nie jest deepfake’iem i omówienia najnowszych osiągnięć w dziedzinie sztucznej inteligencji stosowanej do generowania wideo. Następnie przejdziemy do zastosowania deepfake w kinematografii, np. tworzeniu sztucznych aktorów przez Disney’a oraz wpływie na przemysł filmowy widzianym na przykładzie strajku SAG-AFTRA. Na koniec podamy przykłady szkodliwego wykorzystywania tej technologii, omówimy jej wpływ na społeczeństwo oraz jej moralne implikacje.

 

Fake Pope Francis in a puffer jacket.
Stworzony przez Midjourney fałszywy wizerunek papieża Franciszka w puchowej kurtce.

Co jest deepfake’em a co nim nie jest?

Termin “deepfake” został po raz pierwszy użyty na szeroką skalę w grudniu 2017 roku, kiedy to użytkownik platformy Reddit o pseudonimie Deepfakes opublikował wideo pornograficzne z wykorzystaniem technologii zamiany twarzy znanych osób na twarze znanych aktorek (m.in. Gal Gadot, Maisie Williams i Taylor Swift). Narzędzia deepfake służące do tworzenia wideo wykorzystują metody uczenia maszynowego takie jak autoenkodery wariacyjne (VAE), generatywne sieci przeciwstawne (GAN) czy modele dyfuzyjne (diffusion models).

Deepfake można podzielić na różne kategorie na podstawie użytej technologii:
1. Face swapping – zamiana jednej twarzy na inną w istniejącym wideo czy zdjęciu.
2. Facial reenactment – manipulacja ekspresjami twarzy w zapisie wideo, tak aby osoba na wideo zdawała się mówić coś innego niż w rzeczywistości.
3. Synthetic image generation – generowanie całkowicie nowych obrazów twarzy lub innych elementów, które nie są oparte na żadnej istniejącej postaci.
4. Audio deepfakes – generowanie syntetycznych ścieżek dźwiękowych, które naśladują głos konkretnej osoby.

 

Face swapping
Diagram przedstawiający proces Face swapping dla klatki wideo [1].

Zależnie od celu ich stworzenia, materiały deepfake można klasyfikować jako:
1. Rozrywkowe – mają charakter humorystyczny, często dotyczą bohaterów popkultury lub postaci fikcyjnych np. zmiana twarzy aktorów w filmach.
2. Edukacyjne – wykorzystanie do symulacji scenariuszy lub rekonstrukcji historycznych wydarzeń.
3. Dezinformacyjne – propagowanie nieprawdziwych informacji, mają charakter fake newsów, mogą dotyczyć osób publicznych i wprowadzać odbiorcę w błąd.
4. Dyskredytujące – używanie deepfake do ośmieszenia bądź kompromitacji przez publikację nagrań lub zdjęć fałszujących czyny, lub wypowiedzi osób; niektóre z takich przypadków klasyfikują się jako działania przestępcze.

Badania wykazały, że około 96% wideo deepfake’ów to filmy pornograficzne i prawie wszystkie z nich dotyczyły kobiet [2]. Pozostałe 4% w większości stanowią filmy przedstawiające znane osoby: m.in. celebrytów i polityków.

Innym przykładem wykorzystywania deepfake’ów jest sytuacja gdy ktoś podszywa się pod naszego przyjaciela i wysyła nam wideo, w którym np. prosi o szczodry przelew. Podobna sytuacja, ale na większą skalę, zdarzyła się w Marcu 2019 roku, gdy CEO brytyjskiej firmy energetycznej otrzymał telefon od swojego szefa, prezesa firmy-matki z Niemiec. Odebrał telefon i usłyszał znajomy głos z niemieckim akcentem — szef przekazał mu, że ma przelać 220 000 euro na konto dostawcy na Węgrzech. Brytyjczyk go posłuchał. Jednak gdy fake’owy szef spróbował tego triku ponownie, ten drugi stał się podejrzliwy i nie zrealizował już kolejnych przelewów. Niestety, 220 000 euro zostało już stracone. W przyszłości, wraz z rozwojem takich technologii, podszywanie się pod innych stanie się dziecinnie proste (np. na podstawie jednego zdjęcia), więc musimy być przygotowani i podejrzliwie reagować na niestandardowe prośby od naszych znajomych.

Inną, ale podobną (i częściowo się pokrywającą) gałęzią technologii są modele generujące wideo. Nie są one tym samym co narzędzia do deepfake’u — narzędzia deepfake, takie jak FaceApp, DeepFaceLab czy ZAO, służą bezpośrednio do manipulacji i generowania fałszywej treści w mediach, gdzie głównym celem jest zmiana wyglądu twarzy lub mowy w zarejestrowanych materiałach.

Modele typu text-to-video, jak SORA od OpenAI, choć mogą być stosowane do tworzenia realistycznych scen opartych na wprowadzonych opisach tekstowych, nie służą bezpośrednio do generowania fałszywych filmów. Są to bardziej zaawansowane narzędzia służące do przekształcania tekstowych opisów w dynamiczne wizualizacje, które mogą obejmować zarówno sceny przypominające rzeczywistość jak i syntetyczne postacie oraz sytuacje nieistniejące naprawdę.

W kontekście etycznym i prawnym różnica między narzędziami przeznaczonymi stricte do tworzenia deepfake’ów a modelami generującymi treści video z tekstu ma kluczowe znaczenie, ponieważ manipulacje deepfake’owe zazwyczaj wiążą się z większym ryzykiem nadużyć i są bardziej kontrowersyjne niż inne formy sztucznej generacji treści, które mogą mieć wiele pozytywnych zastosowań.

Nowości w Video AI

Najnowsze osiągnięcia w dziedzinie Video AI pokazują, że deepfake’i mogą stać się nie niemal nieodróżnialne od rzeczywistości. SORA od OpenAI i VASA-1 od Microsoft definiują nowe granice możliwości generowania wideo, ale również stawiają pytania dotyczące etyki i bezpieczeństwa cyfrowego.

SORA — rozwijany przez OpenAI model AI specjalizujący się w generowaniu krótkich klipów wideo na podstawie opisów tekstowych. Pozwala on na tworzenie scen obejmujących różnorodne elementy — od detalicznych ruchów kamery po wyrażanie emocji przez postacie. Co ważne, model ma zdolność do przedłużania istniejących już klipów poprzez dodawanie do nich nowej treści, co otwiera nowe perspektywy dla sektora filmowego.

Zadziwiające jest, jak SORA radzi sobie z interpretacją języka i przekładaniem tekstu na dynamiczne wideo. Dzięki wykorzystaniu architektury diffusion transformer model jest w stanie wygenerować wysokiej jakości materiał wideo, który jest nie tylko realistyczny, ale i zgodny z intencjami twórcy.

Jednakże, jak przyznało OpenAI, model ten napotyka problemy z symulacją fizyki kompleksowej sceny oraz zrozumieniem przyczynowości, co może wpływać na autentyczność wygenerowanych scen. Mimo tych niedoskonałości potencjał SORA jest ogromny, choć niektórzy wyrażają obawy związane z możliwością wykorzystania tej technologii do celów dezinformacyjnych.

 

SORA – wygenerowany film z mamutami. Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.” [3]

SORA – kot budzący kobietę; warto zwrócić uwagę na problem z generowaniem kończyn [3]

 

VASA-1 — model od Microsoftu, z kolei, skupia się na generowaniu niezwykle realistycznych wirtualnych postaci, które mogą przemawiać w sposób zsynchronizowany z dostarczonym audio. Kluczowym atutem VASA-1 jest zdolność do zapewnienia nie tylko doskonałej synchronizacji dźwięku z ruchem ust, ale i bardzo naturalnego zachowania całej twarzy oraz głowy. VASA-1 wykorzystuje innowacyjny model dynamiki twarzy i ruchu głowy, co pozwala na precyzyjne oddanie subtelnych emocji i niuansów mimiki.

Wyjątkową cechą tego modelu jest fakt, że wystaczy nam tylko jedno, frontalne zdjęcie twarzy oraz urywek nagranej rozmowy, aby wygenerować przekonujące i realistyczne wideo.

 

Demo modelu VASA-1 [4]

 

Zarówno OpenAI jak i Microsoft postanowiły ograniczyć publiczny dostęp do ich nowatorskich modeli, SORA i VASA-1, jako środek ostrożności przed potencjalnym negatywnym wykorzystaniem tych technologii. Ograniczenie to ma na celu zapobieganie wykorzystaniu AI do działań takich jak fałszowanie tożsamości czy produkcja dezinformacyjnych treści.

Firmy te zdecydowały się na wykonanie wewnętrznych testów, angażując ekspertów do spraw dezinformacji i błędów (tzw. ‘Red Team’), aby zidentyfikować i minimalizować ryzyka związane z nadużywaniem technologii. Zarówno OpenAI, jak i Microsoft podkreślają, że chcą kontynuować rozwój tych modeli w sposób odpowiedzialny i etyczny.

W przypadku SORA, OpenAI planuje w przyszłości udostępnić model publicznie, ale tylko po dokładnym zbadaniu wszystkich potencjalnych zagrożeń. Microsoft z kolei, podjął decyzję o niewprowadzaniu na rynek modelu VASA-1 w obliczu możliwych ryzyk.

Te decyzje z jednej strony mogą znaczyć, że firmy przejmują się odpowiedzialnością społeczną i etyczną i nie chcą doprowadzić do sytuacji, w której każdy może wygenerować hiperrealistyczny deepfake bez ograniczeń. Jednak posiadanie monopolu na takie zaawansowane technologie sprawia też, że te korporacje mają ogromną przewagę nad konkurencją — być może firmy te postanowiły nie upubliczniać tych modeli z czysto biznesowych pobudek?

Deepfake w kinematografii

W ostatnich latach technologia deepfake zyskała na znaczeniu w branży filmowej, oferując fascynujące możliwości, ale i stawiając przed twórcami nowe wyzwania etyczne i prawne. Ta technologia, która pozwala na realistyczne zamiany twarzy i manipulację wyrazami, otwiera nowe perspektywy dla kinematografii.

Jednym z pionierów wykorzystania deepfake w produkcji filmowej jest Disney, który zastosował tę technologię do “ożywienia” postaci filmowych, które były grane przez nieżyjących już aktorów. [5] Przykładem może być zastosowanie deepfake w filmie “Rogue One”, gdzie cyfrowo odtworzono postać Grand Moffa Tarkina, pierwotnie grana przez Petera Cushinga, oraz młodą wersję księżniczki Lei, którą zagrała Carrie Fisher. Technologia ta pozwoliła na realistyczne przedstawienie tych postaci bez konieczności korzystania z dublerów czy całkowitego rezygnowania z tych postaci.

Why does Tarkin's CGI in Rogue One look so plastic-y? Could they have made it look more realistic? - Quora
Tarkin — postać z filmu Rogue One z nałożoną twarzą zmarłego aktora

Rosnące zastosowanie AI i technologii deepfake wywołało również kontrowersje, jak te widoczne podczas strajku SAG-AFTRA w 2023 roku. Członkowie związku zawodowego protestowali przeciwko wykorzystywaniu skanowania twarzy i cyfrowego generowania występów, które mogłyby zastąpić prawdziwych aktorów na planie. Artystom chodziło o zapewnienie, że nowe technologie nie zastąpią ich pracy, ale będą służyć jako narzędzie wspierające ich artystyczną ekspresję.

Strajk podkreślił potrzebę jasnych regulacji dotyczących wykorzystania AI w produkcji filmowej. Aktorzy domagali się nie tylko odpowiednich kompensat za używanie ich wizerunków w cyfrowych produkcjach, ale także transparentności w procesie ich tworzenia.

Użycie deepfake w kinematografii otwiera nowe możliwości dla twórców filmów i seriali, oferując narzędzia do kreowania niemożliwych wcześniej scen i efektów. Jednakże wymaga to odpowiedzialnego podejścia, zapewnienia praw aktorów oraz dbałości o prawdziwość i autentyczność filmowego świata. Rozwój tych technologii sprawia, że branża filmowa stoi obecnie na progu nowej ery, w której granice między prawdziwym a cyfrowo stworzonym światem stają się coraz bardziej płynne.

Odbiór społeczny i moralność deepfake’u

Technologia deepfake, choć oferuje imponujące możliwości, budzi poważne obawy etyczne związane z dezinformacją i manipulacją. Jak wspominaliśmy, 96% wideo deepfake’ów to pornografia, a więc w zdecydowanej większości wypadków technologia ta jest wykorzystywana w sposób nieetyczny. Początkowo platformy takie jak Reddit były miejscem, gdzie rozpowszechniano pornografię deepfake, co doprowadziło do zakazu ich publikacji na tej platformie w lutym 2018 roku. Jednak zawsze znajdą się takie platformy, na których jest to dopuszczone.

Deepfake może wpływać destrukcyjnie na politykę, społeczeństwo oraz prywatność, szczególnie kobiet, poprzez tworzenie nieautoryzowanych treści pornograficznych. W odpowiedzi na te zagrożenia, powstała inicjatywa i zbiór danych Deepfake Detection Challenge (DFDC), wspierana przez firmy takie jak Facebook i Microsoft oraz akademickie instytucje, w tym MIT i Uniwersytet Oksfordzki. DFDC ma na celu rozwijanie metod wykrywania treści deepfake, co jest kluczowe dla ograniczenia ich negatywnego wpływu.

Naszym zdaniem, deepfake słusznie posiada konotacje negatywne i kojarzy się z zakłamaniem i atakiem na prywatność. Jednak należy pamiętać, że deepfake nie zawsze jest wykorzystywany w złych celach.

Literatura

[1] Peiipeng Yu et al.: A Survey on Deepfake Video Detection

[2] Deepfakes explained

[3] SORA: Video generation models as world simulators

[4] Sichemg Xu et al.: VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

[5] Disney research: High resolution neural face swapping for visual effects


Jeden komentarz

  1. Autorzy świetnie radzą sobie z tematem deepfake, prezentując jego różnorodne aspekty i wpływ na kinematografię oraz społeczeństwo. Czytelnik jest wciągany od pierwszego zdania, a analiza najnowszych osiągnięć w tej dziedzinie jest prezentowana w sposób przekonujący i interesujący. Fajnie się czytało.

Leave a comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Najnowsze komentarze

  1. Ciekawe jest porównanie tradycyjnej terapii z nowymi rozwiązaniami opartymi na modelach językowych. Warto zauważyć, że mimo obiecujących wyników, istnieją ważne…