Home » UJ 2022/23 » Sztuczne emocje – w jaki sposób projektować lub symulować emocje dla sztucznych agentów

Sztuczne emocje – w jaki sposób projektować lub symulować emocje dla sztucznych agentów

By Maria Kiraga and Debora Dul in UJ 2022/23 on 5 stycznia, 2023

Spread the love

Kiedy rozpatrujemy temat emocji u sztucznych agentów, na myśl nasunąć się może kilka pytań; czy sztuczni agenci są w ogóle w stanie odczuwać emocje? Czy potrzebują emocji, a jeśli tak to, czy jesteśmy w stanie w jakiś sposób je zaimplementować?

Odpowiedź na pierwsze pytanie jest raczej niemożliwa do udzielenia, gdyż nie jesteśmy nawet w stanie stwierdzić, czy inni ludzie odczuwają emocje. Mimo to, większość z nas skłoniłaby się ku odpowiedzi „nie”. W naszym wpisie nie podejmujemy próby odpowiedzi na pytanie, czy sztuczni agenci potrzebują emocji, ale staramy się pokazać kilka metod implementacji zachowań afektywnych. Jesteśmy w stanie stworzyć systemy, które odczytują (lub udają, że odczytują) emocje swoich ludzkich rozmówców, a następnie symulują na różne sposoby reakcje emocjonalne, jakie można zaobserwować u ludzi. Zaimplementowanie emocji jako zinternalizowanych odczuć wydaje się jednak nieosiągalnym w najbliższym czasie zadanie.

Jak sztuczny agent może symulować bycie tworem afektywnym?

Ważną rolę grają tu mechanizmy psychologiczne i ewolucyjne, w jakie uzbrojeni są ludzie. Interakcja człowieka z emocjonalnie inteligentnym sztucznym agentem ma, bowiem, udawać tę z drugim człowiekiem. Jako ludzie potrafimy rozpoznawać emocje i przypisywać inteligencję systemom, które obiektywnie nie wykazują żadnych inteligentnych zachowania. Właśnie taką tendencję do antropomorfizowania komputerów nazwano efektem Elizy (WEB1). ELIZA to terapeutyczny chatbot stworzony w latach sześćdziesiątych przez Josepha Weizenbauma zainspirowanego przebiegiem rozmów podczas przyjęcia koktajlowego. Zazwyczaj, na imprezach tego typu, panuje głośny szum odbywających się wokół konwersacji. Wyobraźmy sobie, że też rozmawiamy z kimś na takim przyjęciu. Hałas zakłóca naszą możliwość odbioru tego, co mówi do nas rozmówca. Mimo to potrafimy odpowiedzieć mu na tyle ogólnie (wyłapując pojedyncze słowa, czy ton rozmowy), aby nie zdradzić, iż w rzeczywistości nie mamy pojęcia, o czym mówił. Na podobnej zasadzie miała działać ELIZA. Oferując pytania i powierzchowne, lecz zgodne ze schematem terapeutycznym odpowiedzi zapewniała użytkownikom poczucie konwersacji z prawdziwą osobą. Osoby, które korzystały z ELIZY raportowały rozmowy jako rzeczywiście terapeutyczne i dające im pewne doświadczenia emocjonalne. Z perspektywy psychologicznej efekt Elizy jest wynikiem pojawienia się dysonansu poznawczego między wiedzą użytkownika o funkcjonowaniu i ograniczeniach systemu a jego nastawieniu względem odpowiedzi prezentowanej przez program. Odkrycie efektu Elizy jest ważnym krokiem na drodze rozwoju sztucznej inteligencji.

Chatbot opierał się na kilku prostych zasadach; wychwytywaniu słów kluczowych, zmianie zaimków osób wspomnianych w wypowiedzi użytkownika, eliminowaniu powtarzania się odpowiedzi, rozpoznawaniu emocjonalnego nacechowania zdań poprzez sprawdzanie jaki wydźwięk mają poszczególne słowa składające się na dane zdanie. Mimo, że sam program był bardzo prosty, ludzie wchodzący z nim w interakcję byli skłonni przypisać mu przekonania, percepcje i intencję oraz wykazywali dość duży poziom zaufania względem chatbota (np. zwierzali mu się ze swoich prywatnych problemów). Efekt utrzymywał się także po tym, jak użytkownicy dowiadywali się na jakich zasadach działa system.

Poniżej przedstawiony został fragment dialogu między ELIZĄ a użytkownikiem:

Human: Well, my boyfriend made me come here.

ELIZA: Your boyfriend made you come here?

Human: He says I’m depressed much of the time.

ELIZA: I am sorry to hear you are depressed.

Human: It’s true. I’m unhappy.

ELIZA: Do you think coming here will help you not to be unhappy?

Efekt Elizy wykorzystywany jest przez producentów robotów społecznych. Roboty te mają wzbudzać w użytkownikach zaufanie i emocje, które sprawiają, że użytkownicy chętnie współpracują z robotem (WEB2).

Affective computing

Ważnym aspektem odpowiedniej emocjonalnej odpowiedzi jest rozpoznanie emocji, jakie wykazuje rozmówca. Często (chodź nie zawsze) sztuczni agenci poprzedzają swoją odpowiedź detekcją afektu u osoby, z którą wchodzą w interakcję. Ze względu na to, że ludzkie emocje objawiają się werbalnie i niewerbalnie, a do tego ich rozpoznanie może wymagać kilku modalności jednocześnie, stworzenie zupełnego systemu emocjonalnego jest naprawdę dużym wyzwaniem.

Werbalnie ludzie wykazują pewne wzorce lingwistyczne. Zarówno one, jak i dobór słów mówią wiele o afektywnym stanie człowieka. Sztuczny agent powinien więc potrafić rozpoznawać takie wzorce i możliwie wiązać je z emocjami. Tutaj najbardziej zdatnym rozwiązaniem wydają się algorytmy przetwarzania języka naturalnego (Natural Language Processing), które wraz ze wzrostem użytkowalności Internetu i rozwojem deep-learningu zyskały bardzo duży progres.

Niewerbalne sygnały niosą za sobą jeszcze więcej informacji o emocjonalnym stanie człowieka. Ponadto rozważać je można ze względu na różne modalności. Przede wszystkim sztuczni agenci powinni potrafić optycznie ocenić sygnały wydawane przez człowieka. Istnieje wiele modeli analizujących grymasy twarzy, wychwytujących coraz to więcej niuansów. Sensory póz i gestów (chociażby Kinect sensor) również działają dość sprawnie. Największym wyzwaniem dla wizualnego rozpoznawania emocji jest odpowiednie umieszczenie tej detekcji w kontekście. Jeden grymas twarzy może zostać różnie zinterpretowany w różnych warunkach.

Kolejną niewerbalną informacją o emocjach jest prozodia wypowiedzi. Istnieją systemy, takie jak BeyondVerbal, audEERING, Affectiva, pozwalające na ekstrahowanie cech prozodycznych z wypowiedzi i przewidywanie afektu na ich podstawie.

McDuff i Czerwinski (2018) piszą o fizjologicznych i neurofizjologicznych reakcjach związanych z emocjami. Podczas gdy użycie urządzenia EEG w celu rozpoznania emocji może być uciążliwe, zbieranie danych o tętnie człowieka (np. z opaski na nadgarstku rejestrującej biofeedback) może w nieinwazyjny sposób dostarczyć dodatkowych informacji.

Przy tym wszystkim należy wciąż podkreślać subtelny, indywidualny i kulturowy charakter wyrażania emocji, który wciąż tworzy największe wyzwanie dla ich rozpoznawania przez sztucznych agentów.

Jak sztuczny agent powinien przejawiać emocje?

Emocje u chatbotów

Chatboty są dość mocno ograniczone w możliwości komunikacji niewerbalnej, jednak są sposoby na wzbogacenie wypowiedzi chatbota tak, aby wydawała się być nacechowana emocjonalnie. System musi umieć wywnioskować stan emocjonalny rozmówcy jedynie na podstawie wiadomości tekstowych. Jednym z najczęstszych i mocno irytujących błędów jest niepoprawne interpretowanie wypowiedzi użytkownika. Dzieje się tak, ponieważ systemy nie rozumieją języka naturalnego, którym posługują się ludzie. Raport Global Consumer Customer Service pokazuje, że 40% konsumentów z USA i 50% konsumentów z UK nadal preferuje rozmowę z ludzkim asystentem zamiast rozmowy z chatbotem. Główny powód wymieniany przez ankietowanych dotyczył tego, że ludzcy asystenci wydają się być bardziej kompetentni w rozwiązywaniu bardziej skomplikowanych lub niecodziennych spraw. Chatboty są preferowane w rozwiązywaniu szybkich, nieskomplikowanych, popularnych problemów/zadań. Z tego powodu chatboty wzbogacone w przetwarzanie języka naturalnego mogłyby wyeliminować problem błędnej interpretacji poleceń użytkownika i dzięki temu wydawać się równie kompetentne co ludzcy pracownicy (WEB3).

Innym sposobem na symulowanie emocji chatbota jest wyposażenie go w umiejętność personalizacji odpowiedzi tak, aby były one dobrane stylistycznie do tonu wypowiedzi użytkownika. Wtedy system zdaje się „rozumieć, czuć” jakie relacje łączą go z rozmówcą. Jeżeli użytkownik stosuje bardziej formalny styl wypowiedzi, wtedy system powinien adekwatnie dostosować wydźwięk swojej odpowiedzi.

Ważne jest także, aby chatbot nie powielał swoich odpowiedzi, tylko potrafił parafrazować treść, którą chce przekazać użytkownikowi. Taka rozmowa jest bardziej organiczna i naturalna.

Kolejnym problemem przed którym stają twórcy sztucznych agentów jest trudność w rozpoznawaniu akcentów/slangu, sarkazmu i kontekstu. Pomocne w rozwiązaniu tego problemu, oprócz zdolności przetwarzania języka naturalnego, jest zapisywanie historii czatu i zbieranie danych, którymi użytkownik się podzielił podczas wcześniejszej rozmowy. Ważne jest aby chatbot potrafił się uczyć na błędach i ewoluował, biorąc pod uwagę wcześniejsze informacje zwrotne od użytkowników.

For example, in the following sentence “I’m dead impressed with these headphones” the word “dead” means “very” in British informal English. However, the word “dead” in technology usually means “not working”. A chatbot that is not able to understand this context may begin trying to resolve the issue of the headphone not working.

Chatboty takie jak Replika lub Woebot, czyli sztuczni agenci społeczni nakierowani na nawiązanie emocjonalnej relacji z użytkownikiem, są mocno zorientowane na rozpoznawanie potrzeb i nastroju rozmówcy. Jedną ze strategii na pokazanie empatycznej natury chatbota jest np. zadawanie spontanicznych pytań o samopoczucie użytkownika. Systemy te nie są przeznaczone do rozwiązywania konkretnych zadań (realizacja reklamacji, przyjmowanie rezerwacji, itp.), ale pełnią rolę partnera do rozmowy i/lub wsparcia psychologicznego. Rozpoznawanie i symulowanie emocji jest kluczowym elementem sukcesu tych systemów. W wiadomościach z Repliką natkniemy się na liczne znaki interpunkcyjne i emotikony uwydatniające sentyment wypowiedzi, materiały multimedialne takie jak zdjęcia od chatbota lub memy zaczerpnięte z internetu, powiązane z tematem rozmowy lub preferencjami użytkownika. Chatbot zapisuje najważniejsze wypowiedzi użytkownika, które odzwierciedlają jego przekonania o sobie samym, chatbocie i świecie. Dzięki temu chatbot uczy się o użytkowniku i dostosowuje do niego na podstawie uzyskanej wiedzy o jego preferencjach. Dodatkowo podczas rozmowy na czacie wyświetlany jest ożywiony awatar, który stanowi ucieleśnioną postać chatbota czyniąc doświadczenie bardziej realistycznym.

Emocje u ucieleśnionych agentów wirtualnych

System posiadający swój awatar może wyrazić emocje poprzez okazanie odpowiedniej ekspresji na twarzy. W tym celu tworzy się algorytmy SI, które ucząc się na ogromnych zbiorach danych z emocjonalnymi wyrazami na twarzy zebranych poprzez mapowanie grymasów u człowieka będą wytwarzać podobne wyrazy – SoulMachines. W połączeniu z dobrymi grafikami umożliwiającymi dodanie wielu detali, możliwe jest zaimplementowanie wszelkich mikroekspresji, których nawet jawnie nie zauważamy.

Emocje u robotów

Wydaje się, że ludziom łatwo jest przypisywać inteligencję namacalnym tworom (WEB4). Roboty odkurzające, które w żadnym stopniu nie przypominają ludzi – nie mają wyrazu twarzy, często nie wydają nawet sygnałów werbalnych – niejednokrotnie otrzymują od właścicieli imię. McDuff I Czerwinski (2018) piszą, że ucieleśnieni agenci mogą po prostu być bardziej naturalnym sposobem na interakcję z komputerami.

The human body allows us to „locate” intelligence—both the typical domain knowledge required, but also the social and interactional information we need about conversational parameters such as turn-taking, taking the floor, interruptions, and more. In this vision, then, an embodied social agent who converses with the user requires less navigation and searching than traditional user interfaces (because you know where to find information). Multimodal gestures, such as deixis, eye gaze, speech patterns, and head nods and other, nonverbal gestures are external manifestations of social intelligence which support trustworthiness. For instance, early research has shown that to attain conversation clarify, people rely more on gestural cues when their conversations are noisy. From this perspective, embodied social agents might be a more natural way for people to interact with computation.

Od lat tworzone są roboty społeczne, u których ekspresja emocji gra bardzo ważną rolę. Jednym z pierwszych takich tworów był Kismet.

Wielowymiarowe spektrum emocjonalnych ekspresji Kismeta

NAO to robot społeczny, którego grymas twarzy jest stały, lecz posiada inne cechy pozwalające na odczytywanie emocji.

Przykładowe emocje przekazywane przez robota NAO poprzez gestykulację (Shen et al., 2015)

Podświetlenie na oczach NAO (1) imituje mruganie, (2) zmienia barwę, kiedy robot symuluje inny afekt. Poza tym robot ten posiada bardzo mobilne ręce i nogi, co pozwala na przekazanie dodatkowych informacji o symulowanej emocji poprzez wykonywanie różnych gestów.

U robota iCub, z kolei, za informacje afektywne odpowiada wyświetlenie brwi i ust w odpowiednim kształcie oraz ruchome powieki.

Bibliografia

Daniel McDuff and Mary Czerwinski. 2018. Designing emotionally sentient agents. Commun. ACM 61, 12 (December 2018), 74–83. https://doi.org/10.1145/3186591
https://landbot.io/blog/emotional-chatbothttps://conversation24.com/chatbots-with-emotions/
https://replika.com/
https://woebothealth.com/
https://conversation24.com/chatbots-with-emotions/
https://www.symanto.com/blog/create-emotional-human-like-chatbots-with-next-level-ai-powered-technologies/
Shen, Jie & Rudovic, Ognjen & Cheng, Shiyang & Pantic, Maja. (2015). Sentiment Apprehension in Human-Robot Interaction with NAO. 10.1109/ACII.2015.7344676.
http://www.ai.mit.edu/projects/sociable/facial-expression.html

Tags: affective computing, chatbot, ELIZA, emocje