W tym artykule zajmiemy się technologią Deepfake. Wytłumaczymy czym tak na prawdę jest, jak działa, oraz jakie jest jej zastosowanie. Na końcu zastanowimy się do jakich niebezpieczeństw może prowadzić jej nadużywanie, oraz w jaki sposób można ją rozpoznawać.
Czym jest Deepfake?
Deepfake, to złożenie dwóch słów z języka angielskiego: deep oraz fake. Deep odnosi się do metod uczenia głębokiego, czyli algorytmów dzięki którym ta technologia jest możliwa, natomiast fake sugeruje, że generowane w ten sposób dźwięki lub obrazy nie są prawdziwe. Algorytm Deepfake pozwala na realistyczną zamianę głosu lub wizerunku jednej osoby na drugą. Termin Deepfake po raz pierwszy został użyty w listopadzie 2017 roku, przez anonimowego użytkownika platformy Reddit, który opublikował algorytm sztucznej inteligencji pozwalający w realistyczny sposób generować fałszywe filmy. Niedługo później inni użytkownicy udostępnili kod do podmiany twarzy na platformie GitHub służącej do dzielenia się kodem z innymi deweloperami, gdzie stał się on publiczny i dostępny dla każdego użytkownika. W krótkim czasie pojawiły się różne interfejsy, oraz inne aplikacje takie jak np. FaceApp, które w znacznym stopniu ułatwiały korzystanie z algorytmu.
Trochę historii
Chociaż termin Deepfake pochodzi z XXI wieku, to badania związane z tą technologią trwają od lat 90, Są one prowadzone zarówno przez amatorów w sieciach społecznościowych jak i przez profesjonalistów w środowiskach akademickich.
Bardzo wczesnym przełomowym projektem był program Video Rewrite z 1997 roku, który był w stanie modyfikować nagranie wideo osoby mówiącej, tak aby sprawiała wrażenie, że wypowiada słowa inne niż w oryginale. Video Rewrite to pierwszy w historii system potrafiący automatycznie dokonywać korekty twarzy, który korzystał z technik uczenia maszynowego.
Program Face2Face udostępniony w 2016 roku modyfikuje wybrany materiał wideo przedstawiający twarz jednej osoby, tak aby naśladowała mimikę innej osoby w czasie rzeczywistym.
Synthesizing Obama to projekt realizowany przez środowiska akademickie. Program został opublikowany w 2017 roku i potrafi zmodyfikować materiał wideo prezydenta Baracka Obamy. Zmienia wyraz twarzy prezydenta i sprawia, że jego usta wypowiadają słowa zawarte w innej ścieżce dźwiękowej.
W 2018 opublikowany został artykuł autorstwa naukowców z Uniwersytetu Kalifornijskiego w Berkeley przedstawiający aplikację do tańca, przy pomocy metod i narzędzi sztucznej inteligencji miała sprawiać, że nagrane osoby posiadają mistrzowskie umiejętności taneczne. Projekt ten rozszerzał zastosowanie technologii Deepfake, która od tego momentu nie była wykorzystywana tylko do twarzy, ale także do całego ciała.
Jak widać pierwsze próby modyfikowania wideo pojawiły się już w latach 90. Technologia Deepfake jest prężnie rozwijana, szczególnie w ostatnich latach, a jej poziom wiarygodności w fałszywym przestawianiu rzeczywistości stale się polepsza. Aby na własne oczy zobaczyć poziom jakości generowanych materiałów Deepfake poniżej zamieszczony jest odnośnik do filmiku na platformie YouTube przedstawiający fragment filmu “American Psycho”. Twarz Patricka Batemana zagranego przez Christiana Balea jest podmieniona na twarz Toma Cruisea. Głos postaci został podłożony przez innego aktora. Filmik można zobaczyć klikając tutaj.
Jak tworzony jest Deepfake?
Teraz zadajmy sobie pytanie, w jaki sposób możemy w realistyczny sposób zamieniać twarze na filmach wideo. Istnieje wiele sposobów na stworzenie filmu typu Deepfake. Aby wygenerowany materiał zakwalifikować do rodziny Deepfake musi zostać utworzony przy wykorzystaniu metod głębokiego uczenia maszynowego. Obecnie istnieją dwa modele, które na to pozwalają.
Autoenkodery (ang. Autoencoders, AE) – czyli modele, które składają się z części kodującej (ang. Encoder) oraz z dekodera (ang. Decoder). Stanowią one formę uczenia nienadzorowanego, gdzie korzystamy z tego samego obrazu jako danych wejściowych i wyjściowych. Podczas uczenia autoenkoder uczy się reprezentacji wektorowej obrazu, a następnie na jej podstawie odtwarza obraz wejściowy, co widać na rysunku poniżej.
Zdjęcie: https://lilianweng.github.io/posts/2018-08-12-vae/autoencoder-architecture.png
Nasz obraz wejściowy x jest kompresowany przez enkoder g do wektora z. Warto wspomnieć, że wektor z jest wymiarowo mniejszy niż nasz oryginalny obraz x, dlatego ten fragment nazywany jest z ang. Bottleneck. Na tym etapie dochodzi do częściowej utraty informacji. Powstały wektor z zawiera najważniejsze informacje na temat obrazu wejściowego. Następnie dekoder f dostając na wejście wektor cech stara się zrekonstruować obraz wejściowy.
Znając ogólną zasadę działania autoenkoderów możemy zrozumieć w jaki sposób są one wykorzystywane do generowania materiałów Deepfake. W procesie tworzenia Deepfake’a są wykorzystywane dwa autoenkodery. Pierwszy trenowany jest na zbiorze przedstawiającym wizerunek osoby, która ma być widoczna (osoba A) w produkcie końcowym. Najczęściej są to ludzie sławni, tacy jak celebryci, sportowcy, lub aktorzy. Drugi autoenkoder jest trenowany na obrazach osoby, która zapewnia mimikę lub gesty do naśladowania (osoba B). Podczas trenowania jeden model korzysta z obrazu osoby B i koduje go enkoderem modelu drugiego. Wygenerowany wektor następnie jest wprowadzony do dekodera pierwszego modelu, który sprawia wrażenie osoby A, ale posiada mimikę oraz ruchy osoby B.
Generatywne Sieci Współzawodniczące (ang. Generative Adversarial Network, GAN) – są drugim sposobem do wytwarzania materiałów Deepfake. Model GAN składa się z dwóch współzawodniczących sieci neuronowych, generatora (ang. generator) i dyskryminatora (ang. Discriminator). Podczas trenowania generator produkuje fałszywe obrazy, które mają cechy wspólne z obrazami prawdziwymi. Zadaniem dyskryminatora jest rozróżnić obrazy prawdziwe od fałszywych, generowanych przez generator. W przypadku, gdy dyskryminator poprawnie rozróżni obraz fałszywy parametry generatora są aktualizowane, natomiast gdy generatorowi uda się oszukać dyskryminator, parametry dyskryminatora są aktualizowane. Obie sieci trenowanie są równocześnie. Poniżej znajduje się poglądowy schemat modelu GAN.
Zdjęcie: https://developers.google.com/static/machine-learning/gan/images/gan_diagram.svg
Proces szkolenia, a więc tworzenie bardzo dobrego Deepfake jest czasochłonny i kosztowny obliczeniowo. Jednak w związku ze stałym rozwojem technologii koszty związane z mocą obliczeniową spadają. Od pewnego czasu każdy z dostępem do karty graficznej może wytrenować swój własny model, jednak jego jakość będzie dużo gorsza od wersji demonstracyjnych zamieszczonych w Internecie. Dla zainteresowanych, którzy chcieliby stworzyć swój własny Deepfake zamieszczam przystępny poradnik Tomka Baranowicza – o tutaj.
Zastosowanie i wynikające z tego zagrożenia
Możliwość automatycznej zmiany twarzy, głosu, oraz postury ciała w celu stworzenia wiarygodnego i realistycznie wyglądającego, ale syntetycznego wideo otwiera wiele możliwości w branżach takich jak kino czy przemysł gier wideo. Możliwość zastąpienia kosztownych efektów CGI przez drogie, lecz mimo wszystko nadal tańsze modele Deepfake z pewnością jeszcze bardziej zmieni branżę filmową w przyszłości. Rosnące zainteresowanie technologią Deepfake przejawia się przede wszystkim w wykorzystaniu technologii odmładzającej. Dzięki niej starsi aktorzy mogą wcielić się w młode postacie. W filmie “Irlandczyk” z 2019 wykorzystano efekty specjalne, aby odmłodzić Roberta De Niro. Uzyskany efekt był zadowalający, jednakże ma się on ni jak w porównaniu z technologią Deepfake. Wideo, na którym przedstawione jest porównanie obu metod można znaleźć tutaj.
Deepfake, podobnie jak z każde inne narzędzie, niepoprawnie używany może stanowić poważne zagrożenie. W 2017 roku powstało forum z treściami pornograficznymi, gdzie prezentowano aktorów z zamienionymi twarzami, co poważnie szkodziło i dalej szkodzi reputacji niektórych celebrytów. Według raportu Deeptrace z 2019 roku pornografia stanowiła aż 96% wszystkich fałszywych filmów znalezionych w sieci. Deepfake wykorzystywano również w polityce. W 2018 roku pewna belgijska partia opublikowała wideo, na którym Donald Trump wzywa Belgię do wycofania się z paryskiego porozumienia klimatycznego. Oczywiście Donald Trump tak na prawdę nigdy nie wygłosił owego przemówienia. Mniej niebezpiecznym przykładem nadużywaniem tej technologii jest sytuacja z 2021 roku, gdzie użytkownik TikToka podający się za Toma Cruisa zaczął umieszczać na platformie filmy z jego wizerunkiem. Szybko okazało się, że Tom Cruise nie ma założonego konta na platformie TikTok i ktoś się pod niego zwyczajnie podszywa.
A więc jak rozpoznać co jest prawdziwe?
We wrześniu 2019 roku w ramach projektu mającego na celu polepszenie metod wykrywania Deepfake Google udostępnił zbiór danych wizualnych Deepfake. Od tego czasu jest on stale wykorzystywany w ramach uczenia głębokiego w celu opracowania algorytmu wykrywania materiałów Deepfake. Projekt nazywa się FaceForensics++ i skupia się na dwóch typach techniki Deepfake: wyrazie i manipulacji tożsamością twarzy. Dla zainteresowanych zostawiamy link do artykułu, który wyjaśnia zasadę działania algorytmu – o tutaj.
Krótkie podsumowanie
Technologia związana z manipulowaniem filmami wideo, aby w pewien sposób naginały rzeczywistość jest rozwijana już od lat 90. W związku z rozwojem metod przetwarzania obrazów cyfrowych coraz częściej można zobaczyć fałszywe filmy, które są praktycznie nie do odróżnienia od rzeczywistych. Deepfake może mieć pozystywne zastosowanie w kinematografii lub rozrywce np. odpowiadając na pytanie co by było, gdyby w filmie “Kevin sam w domu” zamiast tytułowego Kevina pojawił się Sylvester Stallone (takie rzeczy też można w Internecie znaleźć – link). Pomimo zalet Deepfake stanowi poważne zagrożenie dla wolności i demokracji. Dzięki niemu w prosty sposób można siać dezinformację na masową skalę lub oczernić wizerunek członka przeciwnej partii politycznej. Dlatego warto pamiętać, że szczególnie w dzisiejszych czasach nie można wierzyć we wszystko co się widzi w Internecie.
Źródła
- https://www.businessinsider.com/guides/tech/what-is-deepfake?IR=T
- https://medium.com/dessa-news/towards-deepfake-detection-that-actually-works-ab10d33efce9
- https://en.wikipedia.org/wiki/Deepfake#History
- https://towardsdatascience.com/what-are-deepfakes-and-how-do-you-recognize-them-f9ab1a143456
- https://seat42f.com/how-deepfake-technology-is-changing-the-movie-industry/
- https://www.socialmediasafety.org/advocacy/deepfake-technology/
[…] inteligencji i innych narzędzi technologicznych, każdy ma możliwość stworzenia i szerzenia np. Deepfaków, czyli zmanipulowanych materiałów audiowizualnych, Fakenewsów, czyli nieprawdziwych informacji […]