Home » Uncategorized » Czy AI naprawdę wie, co czujesz? Multimodalna analiza emocji między obietnicą empatii a cichym nadzorem

Czy AI naprawdę wie, co czujesz? Multimodalna analiza emocji między obietnicą empatii a cichym nadzorem

Spread the love

Asystent głosowy mówi do Ciebie ciepłym tonem, bo wykrył wahanie w Twoim głosie. Kamera w samochodzie ostrzega, że tracisz koncentrację. System analizujący głos w call center podpowiada operatorowi, że klient właśnie zaczął się irytować. Smartwatch sygnalizuje skok tętna i interpretuje go jako wzrost stresu. Wszystkie te systemy nazywają to samo, czyli rozpoznawanie emocji, ale w rzeczywistości mierzą coś znacznie węższego, czyli korelacje między falą głosu, mikroruchem twarzy, zmianą rytmu serca i etykietą, którą ktoś wcześniej nadał danym treningowym. Multimodalna analiza emocji, czyli łączenie sygnałów z wielu kanałów obserwacji, łączy te wszystkie sygnały w jedną decyzję, bo informacja z wielu źródeł jest stabilniejsza niż z jednego. Im lepiej to działa, tym łatwiej zapomnieć, że pomiar fizjologii nie jest tym samym co odczytanie subiektywnego doświadczenia. Pytanie nie sprowadza się więc tylko do dokładności tych systemów, ale do tego, kto z tych danych korzysta, w jakich warunkach, i czy osoba poddana takiej analizie w ogóle wie, że jej twarz, ton głosu, mimika, ruch wzroku, sposób klikania i wzorce pisania mówią o niej więcej, niż chciałaby powiedzieć słowami.

Maszyna, która chce wiedzieć, co czujesz

Trójwymiarowa wizualizacja głowy człowieka wykonana z gęstej siatki punktów, na czarnym tle, ze świecącymi oczami.
Twarz jako gęsta siatka punktów dobrze oddaje to, jak AI „widzi” człowieka. Algorytm nie postrzega twarzy jako twarzy, tylko jako zbiór współrzędnych i relacji między nimi.

 

Empatyczny asystent głosowy Hume EVI w wersji trzeciej, udostępniony w maju 2025 roku, potrafi zaskoczyć przy pierwszym kontakcie[15]. Odpowiada w czasie krótszym niż 1.2 sekundy, ma do dyspozycji ponad sto tysięcy głosów, a co istotniejsze, dostosowuje ton swojej wypowiedzi do tego, co usłyszał w głosie rozmówcy. Smutek wywołuje cieplejszą barwę, niepewność łagodniejsze tempo, irytacja krótsze pauzy. Po kilku minutach takiej rozmowy łatwo dojść do wrażenia, że ktoś naprawdę słyszy, jak się czujemy. To wrażenie jest jednak mylące. Mówi więcej o sile dobrze zaprojektowanego interfejsu głosowego niż o tym, co ten system faktycznie mierzy pod spodem.

Pomysł, by komputery rozpoznawały i reagowały na emocje, nie pojawił się wczoraj. W 1997 roku Rosalind Picard z MIT Media Lab opublikowała książkę Affective Computing (po polsku tłumaczoną najczęściej jako Obliczenia afektywne), w której postawiła tezę, że maszyny powinny brać pod uwagę stany emocjonalne ludzi, jeśli mają w sensowny sposób reagować na ich zachowanie[9]. Przez ponad dwadzieścia kolejnych lat dziedzina ta rozwijała się głównie w laboratoriach akademickich, bo brakowało odpowiednio tanich kamer, mikrofonów i czujników. Dopiero połączenie taniego sprzętu konsumenckiego, urządzeń ubieralnych (smartwatchy, opasek, słuchawek z czujnikami) oraz dużych modeli generatywnych sprawiło, że multimodalna analiza emocji weszła do produktów codziennego użytku.

Stąd rozróżnienie, które warto zapamiętać przed dalszą częścią. To, co dzieje się w komercyjnych systemach, nie jest odczytywaniem emocji w sensie psychologicznym. Jest dopasowywaniem wzorców sygnałów do etykiet, które wcześniej nadali im ludzie podczas treningu modelu. Multimodalność daje pewniejsze dopasowanie. Otwiera jednak także nowe problemy, którym poświęcona jest reszta tego tekstu.

Cztery strumienie sygnałów

Przeglądy literatury z lat 2024 i 2025 pokazują, że współczesna multimodalna analiza emocji opiera się zwykle na czterech grupach sygnałów[2][3]. Każda mówi o człowieku coś innego, ma inną dyskretność i inaczej daje się oszukać.

Pierwsza grupa to sygnały fizjologiczne: EEG, EKG, zmienność rytmu serca (HRV), reakcja skórno-galwaniczna (GSR), fotopletyzmografia (PPG) oraz pupilometria, czyli pomiar zmian średnicy źrenicy. Ich największą zaletą jest to, że pozostają w dużej mierze poza świadomą kontrolą, więc trudno je celowo modyfikować. Pojawiają się też nieinwazyjne urządzenia ubieralne, w tym słuchawki z elektrodami EEG w kanale ucha oraz opaski mierzące tętno i przewodność skóry. Wadą tych pomiarów jest niska jakość sygnału w ruchu i wrażliwość na zakłócenia.

Druga grupa to sygnały głosowe. AI nie analizuje znaczenia słów, tylko cechy akustyczne: częstotliwość podstawową, jitter i shimmer (mikroniestabilności fali w wysokości i głośności), współczynniki MFCC, tempo mowy, długość pauz, intensywność. Otwarty toolkit openSMILE stał się tu standardem branżowym[4]. To właśnie te cechy używane są dziś w klinicznych badaniach nad depresją. Głos osoby z depresją ma w praktyce wyższy jitter, niższy shimmer, mniej zróżnicowaną intonację i więcej pauz, co modele potrafią wykrywać z czułością przekraczającą 77%[4].

Trzecia grupa to sygnały obrazowe: mimika, mikroekspresje, postawa ciała, kierunek wzroku, rozszerzenie źrenic. Przez lata podstawą był FACS, czyli Facial Action Coding System Paula Ekmana, który rozkłada mimikę na zestaw mierzalnych ruchów mięśniowych. Obecnie dominują architektury oparte na Vision Transformers, czyli sieciach transformerowych zaadaptowanych do przetwarzania obrazu[3]. Najbardziej kontrowersyjna z czterech modalności, do czego wracamy w dalszej części tekstu.

Czwarta grupa to sygnały interakcyjne: dynamika pisania na klawiaturze, ruchy myszy, wzorce przewijania, czas reakcji, kolejność klikania, nacechowanie emocjonalne wpisywanego tekstu. Grupa najmniej oczywista i jednocześnie najbardziej dyskretna, bo zostawiamy te ślady przy każdym kontakcie z aplikacją lub urządzeniem, nie myśląc o tym.

Schemat blokowy systemu rozpoznawania emocji z sygnałów fizjologicznych PPG, GSR i SKT, przechodzącego przez ekstrakcję cech i klasyfikator.
Przykładowy schemat działania systemu emotion AI opartego na sygnałach fizjologicznych. Dane wejściowe (PPG, GSR, SKT) przechodzą przez ekstrakcję cech, a następnie przez klasyfikator (SVM, KNN, drzewo decyzyjne), który zwraca etykietę emocji. Źródło: Mellouk i Handouzi, Frontiers in Computer Science, 2023, CC BY 4.0.

 

Modalność Co właściwie mierzy Trudność oszukania Dyskretność dla użytkownika
Fizjologiczna EEG, GSR, HRV, źrenica wysoka wymaga czujnika kontaktowego
Głosowa jitter, shimmer, intonacja, pauzy średnia wystarczy mikrofon
Obrazowa mimika, mikroekspresje, postawa, wzrok niska, mimika jest częściowo świadoma wystarczy kamera
Interakcyjna klawiatura, mysz, scroll, sentyment niska, wymaga zmiany nawyków wbudowana w aplikację, niewidoczna

Od surowych danych do etykiety emocji

Same sygnały nie tworzą jeszcze klasyfikacji emocji. Trzeba je połączyć i przepuścić przez model klasyfikujący. To łączenie nazywa się fuzją i odbywa się na trzy główne sposoby[2][3].

Fuzja wczesna łączy cechy ze wszystkich modalności na samym początku w jeden wektor. Model uczy się od razu zależności między tonem głosu a mimiką, między tętnem a sposobem klikania. Pozwala to wychwycić subtelne relacje między kanałami, ale jest wrażliwe na brak jednego sygnału. Jeśli kamera nagle traci dostęp do twarzy, cały wektor traci sens.

Fuzja późna działa odwrotnie. Każda modalność ma własny klasyfikator, każdy zwraca swoją decyzję, a dopiero potem są one łączone matematycznie, najczęściej przez średnią ważoną albo głosowanie większościowe. Zaletą jest odporność, bo brak jednej modalności nie wywraca całego systemu. Wadą jest to, że kanały są traktowane jako niezależne, więc nie wychwytuje się relacji między nimi.

Fuzja hybrydowa łączy oba podejścia i to ona dominuje w literaturze od 2023 roku. W praktyce realizuje się ją przez tzw. transformery cross-modalne, czyli architektury sieci neuronowych, które uczą się jednocześnie reprezentacji każdej modalności i relacji między nimi. Przykładami takich architektur są MemoCMT czy MCIHN[5]. Według przeglądu opublikowanego w czasopiśmie Biomimetics w 2025 roku ponad 40% prac od 2022 roku używa konfiguracji łączącej co najmniej trzy modalności i właśnie architektury transformerowej[3].

Diagram architektury sieci neuronowej do fuzji sygnału wideo i audio, z warstwami LSTM, transformer i multi-head attention.
Konkretna architektura fuzji multimodalnej. Sygnał wideo przechodzi przez warstwę konwolucyjną i LSTM, sygnał audio przez konwolucyjny ekstraktor cech i transformer, a oba strumienie są łączone w warstwie multi-head attention przed warstwą w pełni połączoną (Fc). Źródło: Frontiers in Physics, 2025, CC BY 4.0.

 

Tu wchodzą konkretne komercyjne systemy. Hume AI wykorzystuje przede wszystkim dane głosowe i tekstowe w czasie rzeczywistym, generując odpowiedzi modulowane prozodią rozmówcy, czyli melodią, rytmem i tempem jego wypowiedzi[15]. Affectiva, przejęta w 2021 roku przez szwedzką firmę Smart Eye za 73.5 miliona dolarów, łączy analizę twarzy z analizą głosu i jest dziś wbudowana w systemy producentów aut z grupy 28% Fortune Global 500, głównie do monitorowania zmęczenia i rozproszenia kierowcy. Każdy z tych systemów ma własne wybory architektoniczne, ale wszystkie opierają się na tym samym założeniu, że więcej sygnałów daje pewniejszą etykietę emocji. To założenie jest poprawne matematycznie. Brakuje mu jednak czegoś istotnego, czyli poprawności semantycznej, do czego przechodzimy w kolejnej sekcji.

Czy uśmiech zawsze znaczy radość

W 2019 roku Lisa Feldman Barrett, neuropsycholog z Northeastern University, opublikowała wraz z Ralphem Adolphsem, Stacy Marsellą, Aleixem Martinezem i Sethem Pollakiem przegląd ponad tysiąca publikacji w czasopiśmie Psychological Science in the Public Interest[1]. Tytuł pracy, Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements, nie zostawia złudzeń. Równie jednoznaczny jest wniosek. Nie ma naukowych podstaw, by zakładać, że stan emocjonalny człowieka da się odczytać z mimiki w sposób uniwersalny i niezawodny[1].

Mimika nie jest „odciskiem palca” emocji. Tę samą emocję można wyrazić na wiele sposobów, a ten sam wyraz twarzy może oznaczać różne rzeczy w różnych kulturach i sytuacjach.

Dane przemawiają na korzyść tej tezy mocniej, niż wielu by się spodziewało. Dorośli w kulturach miejskich marszczą brwi w gniewie tylko w około 30% przypadków[1]. W pozostałych 70% gniew wyraża się inaczej, na przykład wycofaniem, ciszą albo rozszerzeniem nozdrzy. Uśmiech, wbrew intuicji, w wielu kulturach sygnalizuje raczej uległość albo zakłopotanie niż radość. Sceniczne miny, które w komercyjnych systemach emotion AI traktowane są jako prototypy emocji, są w praktyce stylizacją, a nie odwzorowaniem zachowania ludzi w realnym życiu.

Krytyka ta uderza w fundament tzw. teorii podstawowych emocji Paula Ekmana, według której istnieje sześć (czasem siedem) uniwersalnych, biologicznie wbudowanych emocji wyrażanych mimicznie w sposób spójny we wszystkich kulturach. Na tej teorii do dziś opiera się większość komercyjnych systemów rozpoznawania emocji z twarzy. Problem jest podwójny. Po pierwsze, modele są trenowane na zbiorach pochodzących z populacji zachodnich, edukowanych i zamożnych (tzw. efekt WEIRD, od Western, Educated, Industrialized, Rich, Democratic), a następnie sprzedawane jako narzędzia uniwersalne. Po drugie, nawet w obrębie tych populacji relacja między mimiką a stanem wewnętrznym nie jest deterministyczna, jest co najwyżej probabilistyczna[1].

Portret kobiety z narysowanymi niebieską farbą liniami pokrywającymi połowę twarzy, na jasnoszarym tle.
Kreski narysowane na twarzy to symboliczne odwzorowanie tego, jak system emotion AI nakłada na nas siatkę interpretacji. Każda linia odpowiada cesze, którą algorytm próbuje przypisać do etykiety emocji.

 

AI Now Institute już w 2019 roku wezwał do zakazu stosowania emotion recognition w decyzjach wpływających na życie ludzi, takich jak rekrutacja, sądownictwo czy dostęp do świadczeń[14]. Argument był prosty. Jeśli sama nauka nie potwierdza założenia, że mimika jednoznacznie informuje o emocjach, to systemy oparte na tym założeniu nie są diagnozą. Pozostają zgadywaniem ubranym w technologiczne narzędzia.

Czyja zgoda, czyje dane

Załóżmy jednak na chwilę, że systemy te mierzą cokolwiek istotnego, choćby tylko częściowo. Pojawia się wtedy drugie pytanie. Kto i na jakich warunkach może z tych pomiarów korzystać. Odpowiedź ma trzy poziomy.

Ramy prawne. Najmocniejsza odpowiedź pochodzi z Unii Europejskiej. Artykuł 5 ust. 1 lit. f Aktu o sztucznej inteligencji, obowiązujący od 2 lutego 2025 roku, zakazuje stosowania systemów AI do wnioskowania o emocjach osób w miejscu pracy i w instytucjach edukacyjnych[10]. Wyjątki dotyczą jedynie celów medycznych i bezpieczeństwa, przy czym wytyczne Komisji uściślają, że oznaczają one zatwierdzone wyroby medyczne, a nie ogólne mierzenie samopoczucia[11]. Kary za naruszenie wynoszą do 35 milionów euro albo 7% globalnego rocznego obrotu firmy[11]. Drugą warstwę dodaje RODO. Jeśli system wnioskuje o stanie psychicznym takim jak depresja czy lęk, wyniki produkowane przez taki model stają się danymi zdrowotnymi w rozumieniu art. 9, niezależnie od tego, jak producent nazwie swoją funkcjonalność[6][12].

Bias systemowy. Drugi poziom problemu to systematyczne różnice w dokładności między grupami użytkowników. Badania z 2024 i 2025 pokazują, że afektywne modele radzą sobie gorzej z osobami o ciemniejszej karnacji, z kobietami, ze starszymi użytkownikami i z osobami neuroatypowymi, czyli takimi, których funkcjonowanie poznawcze odbiega od typowego (np. w spektrum autyzmu albo z ADHD). Praca opublikowana w AI & Society w 2025 nazywa to zjawisko „hollow inclusivity”, czyli deklarowaną dostępnością, która w praktyce wyklucza tych, którzy nie pasują do założonych prototypów ekspresji[7]. Dla osoby z afazją (zaburzeniem mowy wywołanym uszkodzeniem mózgu) albo w spektrum autyzmu emotion AI częściej okazuje się narzędziem błędnego etykietowania niż realnej inkluzji.

Asymetria świadomości i ryzyko manipulacji. Trzeci poziom jest najbardziej niepokojący. Sygnały fizjologiczne i interakcyjne zostawiamy mimowolnie. Pracownik call center często nie wie, że ton jego głosu jest analizowany w czasie rzeczywistym. Uczeń podczas lekcji online nie wie, że jego twarz jest oceniana pod kątem zaangażowania. System rozpoznający moment podatności emocjonalnej (smutku, zmęczenia, frustracji) staje się przy tym idealnym narzędziem targetowania, czy to w reklamie, czy w perswazji politycznej. UNESCO w rekomendacji o etyce AI z 2021 wprost wskazuje to ryzyko jako zagrożenie dla godności i kulturowej suwerenności użytkowników[13].

Konkretny przykład tego, co się dzieje bez zabezpieczeń, to firma HireVue. Amerykańska firma rekrutacyjna przez lata oceniała kandydatów na podstawie mimiki, tonu i tempa mowy z nagrań wideo. W 2019 i 2020 Electronic Privacy Information Center złożył skargi do Federalnej Komisji Handlu, a w 2021 HireVue ogłosił, że rezygnuje z analizy mimiki[8]. Analiza głosu pozostała. Tysiące kandydatów dostały odmowy, których nigdy nie zrozumieli, a większość z nich nie wiedziała, że była w ten sposób analizowana.

Ręka trzymająca smartfon iPhone z otwartą aplikacją do tworzenia animoji, ekran w trybie ciemnym.
Animoji w iPhonie to przykład emotion AI dostępnego w kieszeni setek milionów użytkowników. Kamera śledzi mimikę w czasie rzeczywistym, by ożywić cyfrową postać.

 

Co zyskujemy, co ryzykujemy

Najlepiej widać to w zestawieniu zastosowań. Ta sama technologia w jednym kontekście ratuje życie, w drugim staje się narzędziem dyscyplinującym, w trzecim dyskryminującym.

Obszar zastosowania Możliwa korzyść Główne ryzyko
Zdrowie psychiczne (depresja, mania) wcześniejsze wykrywanie, triage, monitoring między wizytami medykalizacja zachowań, fałszywie dodatnie etykiety
Bezpieczeństwo w pojazdach wykrywanie zmęczenia i rozproszenia kierowcy ciągły nadzór, użycie danych poza pierwotnym celem
Empatyczne interfejsy głosowe bardziej naturalna interakcja, dostępność dla osób z trudnościami w komunikacji iluzja relacji, zastępowanie kontaktu z ludźmi
Rekrutacja i miejsce pracy deklarowana szybkość i obiektywność brak walidacji naukowej, dyskryminacja, zakaz w UE
Edukacja zdalna monitoring zaangażowania uczniów presja behawioralna, zakaz w UE
Marketing i UX personalizacja, lepsze produkty manipulacja emocjonalna, profilowanie bez świadomości

O tym, czy emotion AI okazuje się wartościowe czy szkodliwe, nie decyduje sama technologia. Decydują odpowiedzi na cztery pytania. Czy użytkownik wie, że jest analizowany. Czy system robi tylko to, do czego ma naukowe i praktyczne potwierdzenie. Czy nie używa kategorii nadwrażliwych, takich jak rasa, płeć czy neurodywergencja, jako zmiennych predykcyjnych. Czy człowiek może wycofać zgodę i swoje dane w każdym momencie.

Wnioski

Multimodalna analiza emocji nie jest wykrywaniem emocji w dosłownym sensie. Jest statystycznym dopasowaniem sygnałów do wcześniej zaetykietowanych kategorii, których trafność opiera się na założeniach, które nauka coraz mocniej kwestionuje. To rozróżnienie powinno być punktem wyjścia każdej rozmowy o tych systemach, bo zmienia samo pytanie, jakie warto zadawać. Zamiast pytać „czy AI rozumie emocje”, warto pytać „co dokładnie ten system mierzy, kto z tego korzysta i jakie mam realne prawa wobec tych danych”.

Z tego rozróżnienia płyną cztery praktyczne zasady.

  1. Jawność. Użytkownik wie, że jest analizowany, i wie, na jakich zasadach.
  2. Ograniczony zakres działania. System robi tylko to, do czego został przygotowany i ma naukowe potwierdzenie, najczęściej w kontekście medycznym albo bezpieczeństwa.
  3. Wyłączenie kategorii nadwrażliwych. Płeć, rasa i neurodywergencja jako zmienne predykcyjne to granica, której nie wolno przekraczać.
  4. Odwracalność. Prawo do wycofania zgody i usunięcia danych w każdym momencie, bez kosztu po stronie użytkownika.

Jeśli te zasady są przestrzegane, emotion AI może być wartościowym narzędziem we wczesnym wykrywaniu depresji, w bezpieczeństwie w pojazdach, we wsparciu osób z trudnościami w komunikacji oraz w badaniach naukowych nad ludzkim afektem. Jeśli nie są, ta sama technologia staje się narzędziem cichego nadzoru, manipulacji emocjonalnej i dyskryminacji bez prawa odwołania. Najuczciwsza odpowiedź na pytanie z tytułu brzmi więc tak. AI nie wie, co czujesz. Próbuje to oszacować, czasem trafnie, czasem nie, na podstawie danych, które o sobie zostawiasz. To, co dzieje się z tym oszacowaniem dalej, jest decyzją ludzi, nie maszyny. I to jest właściwa stawka tej dyskusji.

Literatura

  1. Barrett, L. F., Adolphs, R., Marsella, S., Martinez, A. M., & Pollak, S. D. (2019). Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements. Psychological Science in the Public Interest, 20(1), 1–68.
  2. Pan, B., Hirota, K., Jia, Z., & Dai, Y. (2024). Multimodal Emotion Recognition Using Visual, Vocal and Physiological Signals: A Review. Applied Sciences, 14(17), 8071.
  3. Khan, M. et al. (2025). A Comprehensive Review of Multimodal Emotion Recognition: Techniques, Challenges, and Future Directions. Biomimetics, 10(7), 418.
  4. Khare, S. K. et al. (2025). Speech Emotion Recognition in Mental Health: Systematic Review of Voice-Based Applications. JMIR Mental Health.
  5. Khan, M. et al. (2025). MemoCMT: multimodal emotion recognition using cross-modal transformer-based feature fusion. Scientific Reports.
  6. Häuselmann, A. (2023). EU law and emotion data. arXiv:2309.10776.
  7. Roemmich, K. et al. (2025). The hollow inclusivity of emotion-recognition software for neurodivergent workers. AI & Society.
  8. Maurer, R. (2021). HireVue stops using facial expressions to assess job candidates amid audit of its A.I. algorithms. Fortune.
  9. Picard, R. W. (1997). Affective Computing. MIT Press.
  10. European Parliament & Council. (2024). Regulation (EU) 2024/1689 on Artificial Intelligence, Article 5.
  11. Future of Privacy Forum. (2025). Red Lines under EU AI Act: Unpacking the prohibition of emotion recognition in the workplace and education institutions.
  12. European Data Protection Board. (2023). Guidelines 05/2022 on the use of facial recognition technology by law enforcement authorities.
  13. UNESCO. (2021). Recommendation on the Ethics of Artificial Intelligence.
  14. AI Now Institute. (2019). AI Now 2019 Report.
  15. Hume AI. Expression Measurement.

Leave a comment