Świat, w którym technologie potrafią odczytywać emocje tak samo trafnie, jak bliski przyjaciel – rozpoznając subtelne zmiany w głosie, mikroekspresje na twarzy czy ukryte sygnały w tekście jest coraz bardziej realny. Systemy rozpoznawania emocji mają potencjał, by zrewolucjonizować nasze życie – wspierać terapeutyczne rozmowy, budować bardziej empatyczne interakcje człowiek-komputer, tworzyć kampanie marketingowe, które naprawdę poruszają klienta. W edukacji mogą pomagać dostosować materiały do aktualnych nastrojów uczniów, a w opiece zdrowotnej wspierać diagnozowanie stanów emocjonalnych, których sami nie potrafimy nazwać. Jednak z taką mocą wiąże się również odpowiedzialność – bo choć te systemy mogą pomóc nam lepiej się rozumieć, mogą też być wykorzystywane do manipulacji lub naruszenia prywatności. W tym wpisie przyjrzymy się, czym są dane afektywne, jakie emocje można z nich wyczytać i jakie wyzwania stoją przed ich etycznym wykorzystaniem.
Dane afektywne
Dane afektywne to wszelkiego rodzaju informacje, które mogą być wykorzystane do identyfikacji, analizy lub przewidywania emocji, nastrojów i stanów afektywnych człowieka. Są one kluczowe w dziedzinie informatyki afektywnej, umożliwiając systemom sztucznej inteligencji rozpoznawanie i reagowanie na ludzkie emocje. Mogą być to obrazy, dźwięki, dane multimodalne takie jak video, dane fizjologiczne czy behawioralne.
Dane wizualne (obrazy) obejmują mimikę twarzy, mikroekspresje, ruchy ciała i gesty. Analiza tych danych pozwala na ocenę emocji takich jak radość, złość czy smutek. Dane dźwiękowe (audio) obejmują cechy mowy, takie jak intonacja, tempo, głośność i pauzy. Analiza tych parametrów pozwala na rozpoznawanie emocji wyrażanych głosem. Analiza treści pisanych, takich jak posty w mediach społecznościowych, recenzje czy wiadomości, pozwala na ocenę emocji wyrażanych słowami. Wykorzystuje się tu techniki analizy sentymentu i przetwarzania języka naturalnego. Dane fizjologiczne obejmują pomiary takie jak EEG (elektroencefalografia) – aktywność mózgu, EMG (elektromiografia) – aktywność mięśni, GSR (reakcja skórno-galwaniczna) – przewodnictwo skóry, zmienność rytmu serca – analiza tętna. Dane te są mniej podatne na świadome zafałszowanie, co czyni je cennymi w badaniach nad emocjami. Dane multimodalne łączą różne typy danych (np. wizualne, dźwiękowe i fizjologiczne) w celu uzyskania bardziej kompleksowej analizy emocji. Dane wywołujące emocje (bodźce afektywne) są to specjalnie przygotowane materiały (np. obrazy, dźwięki), które mają na celu wywołanie określonych emocji u uczestników badań. Dane kontekstowe i behawioralne obejmują informacje o zachowaniu użytkownika, takie jak wzorce korzystania z aplikacji, aktywność w mediach społecznościowych, dane lokalizacyjne. Analiza tych danych pozwala na wnioskowanie o emocjach w kontekście codziennego życia.
Zrozumienie i analiza danych afektywnych mają szerokie zastosowanie, od poprawy interakcji człowiek-komputer po wsparcie w diagnostyce psychologicznej. Jednakże ich wykorzystanie wiąże się z wyzwaniami etycznymi i koniecznością ochrony prywatności użytkowników.
Ciemna strona rozpoznawania emocji
Osoby z cechami tzw. „ciemnej triady” – narcystycznymi, makiawelicznymi i psychopatycznymi – wykazują specyficzne zdolności w rozpoznawaniu emocji innych ludzi, które często wykorzystują do manipulacji i osiągania własnych celów.
Choć osoby te często mają deficyty w empatii afektywnej (czyli zdolności do współodczuwania emocji innych), to ich empatia poznawcza (zdolność do rozumienia emocji i perspektywy innych) bywa dobrze rozwinięta [2, 3]. Pozwala im to trafnie identyfikować emocje u innych, nawet jeśli sami nie odczuwają ich w pełni. Badania wskazują, że szczególnie makiawellicy i narcystyczne jednostki potrafią skutecznie rozpoznawać emocje, co ułatwia im manipulowanie innymi.
Dzięki zdolnościom w zakresie empatii poznawczej, osoby z cechami ciemnej triady potrafią:
-
Wzbudzać zaufanie i sympatię, by później wykorzystać innych dla własnych korzyści.
-
Wykorzystywać cudze emocje, takie jak poczucie winy czy lęk, do osiągania swoich celów.
-
Tworzyć pozory troski i empatii, maskując swoje prawdziwe intencje.
Szczególnie niebezpieczni mogą być tzw. „ciemni empaci” – osoby łączące cechy ciemnej triady z wysoką empatią poznawczą. Potrafią one głęboko rozumieć emocje innych, co czyni ich wyjątkowo skutecznymi manipulatorami. Choć mogą wydawać się troskliwi i wrażliwi, ich działania często służą wyłącznie własnym interesom [1]. W środowiskach zawodowych, osoby z cechami ciemnej triady mogą wykorzystywać swoje umiejętności do zdobywania władzy, wpływów czy awansów, często kosztem innych. W relacjach osobistych mogą manipulować partnerami, przyjaciółmi czy rodziną, prowadząc do toksycznych i szkodliwych relacji.
Zrozumienie mechanizmów działania osób z cechami ciemnej triady może pomóc w rozpoznawaniu potencjalnie szkodliwych relacji i chronić przed manipulacją.
Dlaczego przetwarzanie i rozpoznawanie emocji przez sztuczną inteligencję może być niebezpieczne?
Podobnie jak osoby z cechami ciemnej triady, sztuczna inteligencja wyposażona w zdolność rozpoznawania emocji może być wykorzystywana do manipulowania ludźmi. Firmy lub osoby trzecie mogą używać AI do identyfikowania emocjonalnych słabości użytkowników i wpływania na ich decyzje – na przykład poprzez sugestywne reklamy, dezinformację lub ukierunkowane kampanie marketingowe.
Naruszenie prywatności. Rozpoznawanie emocji wymaga dostępu do danych behawioralnych, takich jak mimika twarzy, ton głosu, teksty wiadomości czy wzorce zachowań. Przetwarzanie tych danych może prowadzić do poważnych naruszeń prywatności, zwłaszcza jeśli użytkownicy nie są świadomi, że ich emocje są analizowane lub jeśli dane te są przechowywane bez ich zgody.
Stygmatyzacja i dyskryminacja. AI może błędnie interpretować emocje lub kontekst, co może prowadzić do nieprawidłowej klasyfikacji osób jako „zagrożenia” lub „niewiarygodnych”. Na przykład, analiza emocji może być stosowana w rekrutacji lub kontroli pracowników, co może skutkować niesprawiedliwym traktowaniem lub zwolnieniami na podstawie błędnych wniosków.
Ingerencja w autonomię jednostki. AI może wykorzystywać dane emocjonalne, aby przewidywać i modyfikować zachowania użytkowników, ograniczając ich autonomię. Na przykład, platformy społecznościowe mogą manipulować treściami, aby wywoływać określone emocje (np. strach, złość) i utrzymywać użytkowników zaangażowanych przez dłuższy czas.
Zwiększenie potencjału dla nadużyć. Osoby lub organizacje o nieetycznych intencjach mogą używać AI do wykrywania emocji w celu szantażowania, zastraszania lub uzyskiwania informacji poprzez manipulację emocjonalną. Technologia, która może zidentyfikować kogoś w stanie lęku, złości lub smutku, może być wykorzystywana do zwiększania presji lub wykorzystywania tych stanów psychicznych.
Nadinterpretacja i błędy systemowe. Rozpoznawanie emocji przez AI opiera się na algorytmach, które analizują wzorce w danych. Jednak emocje są złożone, kontekstualne i subiektywne, a AI może nie być w stanie prawidłowo ich ocenić. Na przykład, neutralna twarz może zostać błędnie zaklasyfikowana jako gniewna lub zaniepokojona, co może prowadzić do nieadekwatnych reakcji systemu.
Eskalacja nadzoru i inwigilacji. Wprowadzenie systemów AI rozpoznających emocje w przestrzeniach publicznych lub miejscach pracy może prowadzić do eskalacji inwigilacji. Monitorowanie emocji może stać się formą kontroli społecznej, ograniczając swobodę wypowiedzi i zachowań oraz naruszając prawa człowieka.
Rozpoznawanie emocji przez AI niesie więc zarówno potencjał, jak i ryzyko – może być używane zarówno do wspierania interakcji, jak i do manipulacji lub kontroli. Kluczowe jest zatem wprowadzenie odpowiednich regulacji prawnych i etycznych, aby zminimalizować te zagrożenia.
Regulacje prawne dotyczące systemów rozpoznawania emocji w EU
Zgodnie z unijnym Aktem o Sztucznej Inteligencji (AI Act), systemy rozpoznawania emocji są ściśle regulowane ze względu na potencjalne zagrożenia dla prywatności, praw podstawowych i ryzyko dyskryminacji.
Zakaz stosowania w miejscach pracy i edukacji
Artykuł 5 ust. 1 lit. f AI Act wprowadza bezwzględny zakaz stosowania systemów AI służących do rozpoznawania emocji w środowiskach zawodowych i edukacyjnych, chyba że ich użycie jest uzasadnione względami medycznymi lub bezpieczeństwa. Zakaz ten obowiązuje od 2 lutego 2025 roku. Wyjątki dotyczą jedynie sytuacji, w których systemy te są wykorzystywane do ochrony życia i zdrowia, na przykład w celu monitorowania zmęczenia u kierowców czy pilotów [4], [5].
⚠️ Klasyfikacja jako systemy wysokiego ryzyka
Poza zakazanymi zastosowaniami, systemy rozpoznawania emocji są klasyfikowane jako systemy wysokiego ryzyka (high-risk AI systems) zgodnie z Załącznikiem III AI Act. Oznacza to, że ich wdrożenie wymaga spełnienia szeregu rygorystycznych wymogów, takich jak [6]:
- Przeprowadzenie oceny ryzyka i wdrożenie środków zaradczych
- Zastosowanie wysokiej jakości danych treningowych
- Zapewnienie przejrzystości działania systemu
- Wprowadzenie odpowiedniego nadzoru ludzkiego
- Zagwarantowanie dokładności i odporności systemu na błędy
Recital 18 AI Act definiuje system rozpoznawania emocji jako system AI mający na celu identyfikację lub wnioskowanie o emocjach lub intencjach osób fizycznych na podstawie ich danych biometrycznych. Do takich emocji zalicza się m.in. radość, smutek, złość, zaskoczenie, wstręt, zażenowanie, ekscytację, wstyd, pogardę, satysfakcję i rozbawienie. Definicja ta nie obejmuje stanów fizycznych, takich jak ból czy zmęczenie, ani prostych wyrazów twarzy czy gestów, chyba że są one wykorzystywane do identyfikacji emocji.
Zgodnie z Artykułem 50 ust. 3 AI Act, podmioty wdrażające systemy rozpoznawania emocji muszą informować osoby, których dane są przetwarzane, o działaniu tych systemów. Ponadto, przetwarzanie danych biometrycznych musi być zgodne z przepisami RODO, w tym z wymogami dotyczącymi przetwarzania szczególnych kategorii danych osobowych. Naruszenie przepisów AI Act może skutkować nałożeniem kar finansowych [4].
AI Act ustanawia surowe regulacje dotyczące systemów rozpoznawania emocji, szczególnie w kontekście miejsc pracy i edukacji, aby chronić prawa podstawowe obywateli UE. Systemy te są dopuszczalne jedynie w ściśle określonych przypadkach, a ich wdrożenie wiąże się z obowiązkiem spełnienia szeregu wymogów dotyczących przejrzystości, ochrony danych i nadzoru.
Skuteczność systemów rozpoznawania emocji
Systemy rozpoznawania emocji oparte na sztucznej inteligencji osiągają coraz wyższe poziomy dokładności, jednak ich skuteczność zależy od wielu czynników, takich jak rodzaj danych, warunki środowiskowe oraz zastosowane algorytmy. Poniżej przedstawiam aktualny stan wiedzy na temat dokładności tych systemów:
Systemy analizujące mimikę twarzy i gesty osiągają wysoką dokładność w kontrolowanych warunkach laboratoryjnych. Na przykład, modele testowane na zbiorze danych CK+ mogą osiągać dokładność do 98,9%. Jednak w bardziej realistycznych warunkach, takich jak zbiór SFEW, dokładność spada do około 55,27% z powodu zmiennych czynników, takich jak oświetlenie czy pozycja głowy [7], [8]. Systemy analizujące cechy mowy, takie jak intonacja czy tempo, wykazują zróżnicowaną dokładność w zależności od zastosowanego modelu i jakości danych. Na przykład, model HuBERT-large osiąga dokładność około 72,77% w warunkach laboratoryjnych [9]. Podsumowując, systemy rozpoznawania emocji osiągają wysoką dokładność w kontrolowanych warunkach, jednak ich skuteczność w rzeczywistych scenariuszach jest ograniczona przez różnorodność wyrażeń emocjonalnych i czynniki zewnętrzne.
Przykłady zastosowania Emotional Intelligence
Dynamiczny wybór reklam
Na przystanku Żółtej Linii metra w São Paulo wdrożono technologię analityki emocji opartą na sztucznej inteligencji, której celem była optymalizacja interaktywnych reklam wyświetlanych w metrze w zależności od emocji pasażerów [11] . Oprogramowanie AI do analizy emocji zostało zintegrowane z kamerami monitoringu i umożliwiało pomiar takich parametrów twarzy jak: płeć, przedział wiekowy, kierunek spojrzenia, czas skupienia uwagi, wykrywane emocje oraz kierunek ruchu.
Dzięki tym danym reklamodawcy mogli klasyfikować mimikę pasażerów jako wyrażającą radość, zaskoczenie, neutralność lub niezadowolenie — i na tej podstawie dynamicznie dostosowywać wyświetlane treści reklamowe. Dane o pasażerach były w pełni anonimowe według zapewnień firmy.
Poprawa obsługi call center
Europejski bank nawiązał współpracę z firmą Behavioral Signals [12] specjalizującej się w technologii Emotional Inteligence, do poprawy działania swojego call center. Wdrożona sztuczna inteligencja analizowała emocje oraz przetwarzanie języka naturalnego (NLP), by rozpoznawać sygnały behawioralne w głosie klientów, ich reakcjach, doborze słów i poziomie zaangażowania.
Na podstawie analizy nagrań z wcześniejszych rozmów oraz danych takich jak historia zaległości kredytowych (NPL) czy metadane dotyczące faktycznych płatności, system automatycznie przypisywał klientów do konsultantów, z którymi komunikacja miała największe szanse powodzenia. W efekcie wskaźnik sukcesu rozmów (np. rozwiązania sprawy, płatności, pozytywnego zakończenia) wzrósł o prawie 11%.
Gry biofeedbackowe
Studio deweloperskie Flying Mollusk wykorzystało analizę emocji za pomocą AI do stworzenia adaptacyjnej gry z gatunku thrillera psychologicznego pod tytułem Nevermind [13] . Gra analizuje emocje gracza za pomocą kamery internetowej i na tej podstawie dynamicznie dostosowuje przebieg rozgrywki.
Na przykład, gdy gracz wykazuje oznaki stresu, gra może przybrać bardziej niepokojący charakter — pojawiają się klaustrofobiczne sceny, takie jak zalewające się pomieszczenia czy zawalające się sufity. Z kolei w momentach uspokojenia gracza, gra reaguje łagodniejszą atmosferą, zmniejszając intensywność bodźców.

Przypadek szczególny: Emocje Zwierząt

The cat in the image appears to be alert and cautious. Its wide, focused eyes and slightly forward-leaning posture suggest it is paying close attention to something. The whiskers are spread forward, which can indicate curiosity or a heightened state of awareness. This body language is typical of a cat that is either investigating something unfamiliar or feeling slightly on edge.
Rozpoznawanie emocji zwierząt jest trudne, ponieważ ich ekspresje emocjonalne nie są tak jednoznaczne jak u ludzi, a interpretacja ich zachowań przez ludzi jest silnie zależna od kontekstu. To, co może wydawać się reakcją na stres, w innej sytuacji może być interpretowane jako oznaka ekscytacji lub radości. Dodatkowo, różne gatunki mają odmienne sposoby wyrażania emocji, a nawet w obrębie jednego gatunku mogą występować znaczące różnice indywidualne. Czynniki takie jak rasa, wiek, wcześniejsze doświadczenia i aktualna sytuacja mogą wpływać na sposób, w jaki zwierzęta manifestują swoje emocje, co sprawia, że ocena ich stanów emocjonalnych wymaga dużej ostrożności i zaawansowanych metod analitycznych.
W pewnym eksperymencie [10] badacze zmodyfikowali nagranie wideo psa, który został sfilmowany w szczęśliwej sytuacji – na przykład w momencie, gdy oferowano mu smycz lub smakołyk – tak, aby wyglądało, jakby zostało nagrane w sytuacji nieprzyjemnej np. w reakcji na odkurzacz. Okazało się, że obserwatorzy oceniali nastrój psa na podstawie kontekstu wideo. Kiedy ludzie oglądali nagranie psa rzekomo reagującego na odkurzacz, wszyscy twierdzili, że pies czuje się źle i jest niespokojny. Ale gdy widzieli nagranie psa robiącego dokładnie to samo, ale tym razem wyglądającego na reagującego na widok smyczy, wszyscy zgłaszali, że pies czuje się szczęśliwy i spokojny. Ludzie nie oceniali emocji psa na podstawie jego zachowania, lecz na podstawie sytuacji, w której się znajdował.
Z tego względu w tym eksperymencie badam jak model VLLM radzi sobie z tego typu błędami poznawczymi.
Prompt: What emotions does this cat / dog exibit and why?

The cat in the image is exhibiting fear and defensiveness.
This is indicated by:
Arched back: A classic defensive posture to appear larger and more threatening.
Puffed-up fur (especially the tail): A reaction known as piloerection, which is a fear response to intimidate perceived threats.
Ears flattened: A sign that the cat feels threatened or scared.
Stiff posture and direct eye contact: The cat is focused on the approaching dog and is preparing to either defend itself or flee if necessary.
This body language strongly suggests the cat perceives the dog as a threat and is trying to ward it off.

The cat in the image appears to be displaying fear or defensiveness. This is evident from several body language cues:
Arched back: This posture is a classic sign of a cat trying to make itself appear larger in response to a perceived threat.
Puffed-up fur (piloerection): The fur stands on end, which is another way the cat tries to look bigger and more intimidating.
Ears slightly back: Indicates wariness or agitation.
Tense body and stance: The cat is not relaxed and seems poised to either flee or defend itself.
This reaction could be due to something nearby that the cat perceives as a threat—possibly the camera, a noise, another animal, or even an unfamiliar environment.

The dog in the image appears to be exhibiting curiosity mixed with apprehension or concern. Its body language—such as the slightly lowered head, furrowed brow, and focused gaze—suggests it’s closely observing the vacuum cleaner, which is a common source of anxiety or confusion for many dogs.
Vacuum cleaners are often loud, unpredictable, and move in ways that can be perceived as threatening, which might explain the dog’s cautious behavior.


In the image, the dog appears to be expressing interest and anticipation. Its body is slightly leaning toward the bowl of food, eyes focused intently on it, and the mouth slightly open—possibly licking its lips or sniffing. These are common behaviors when a dog is eager or excited about eating.
The raised ears and forward stance also suggest curiosity and readiness, indicating the dog is likely about to start eating.
