Home » AGH 2022/23 » Alexa, Siri, Cortana komunikacja z chatbotami i NLP. Rozumienie języka i odczytywanie emocji z języka naturalnego.

Alexa, Siri, Cortana komunikacja z chatbotami i NLP. Rozumienie języka i odczytywanie emocji z języka naturalnego.

By Marcin Wąsowicz and Marcin Złakowski in AGH 2022/23 on 20 kwietnia, 2023

Spread the love

Gdy w 2011 roku firma Apple opublikowała dla swoich użytkowników asystenta głosowego Siri rozpoczął się okres rozwoju komunikacji głosowej między człowiekiem a komputerem. Niedługo potem, firma Amazon opublikowała asystenta Alexa pozwalającego nie tylko sterować telefonem, czy laptopem, ale całym inteligentym domem. Nie trzeba było długo czekać, aż większość czołowych firm technologicznych skonstruowała własnego inteligentnego asystenta głosowego dostępnego dla ich użytkowników. Choć tego typu rozwiązania przynoszą istotny wkład w poprawę wygody naszego życia, nie można przemilczeć potencjalnych zagrożeń jakie niosą dla naszej prywatności i umiejętności nawiązywania relacji z prawdziwymi osobami.

Przegląd popularnych asystentów głosowych.

Google Assistant

Stanowi on rozwiązanie dostarczone przez firmę Google, które dostępne jest na urządzeniach z systemami Android, iOS oraz urządzeniach z lini Google Home. Jego możliwości opierają się przede wszystkim na integracji z innymi rozwiązaniami firmy Google (Google Maps, Gmail, and Google Calendar oraz przeglądarka), którymi pozwala zarządzać za pomocą komend głosowych. Na tle innych podobnych rozwiązań wyróżna go wyjątkowo wysoka sprawność rozpoznawania mowy ludzkiej oraz możliwość komunikacji w języku polskim. Działając na urządzeniu z systemem Android czy iOS pozwala wykonywać takie czynności jak planowanie powiadomień, zmiana trybu pracy baterii czy zapisywanie istotnych informacji za pomocą komend głosowych.

Amazon Alexa

Asystent głosowy Alexa, stworzony przez firmę Amazon, dostępny jest na urządzeniach z linii Amazon Echo i Echo Dot. Głównym zadaniem Alexy jest obsługa funkcjonalności inteligentnego domu. Z pośród pozostałych rozwiązań wyróżna ją możliwość integracji z aplikacjami firm zewnętrznych takimi jaki: Uber, Spotify, and Philips Hue.

Apple Siri

Rozwiązanie ograniczone do urządzeń produkcji firmy Apple. Historycznie jest to pierwszy asystent umożliwiający wykorzystywanie urządzeń elektronicznych za pomocą komend głosowych. Podobnie jak Google Assistant wyróżnia się wysoką sprawnością rozpoznawania głosu. Jest zintegrowana z innymi rozwiązaniami firmy Apple takimi jak: Apple Music, Apple Maps, and Apple HomeKit.

Microsoft Cortana

Jest to rozwiązanie najbardziej zbliżone pod względem funkcjonalności do Google Assistant dostępne na urządzeniach z systemami Android, iOS i Windows. Pozwala na planowanie powiadomień głosowych i wyszukiwanie informacji za pomocą przeglądarek Bing oraz Edge. Dodatkową cechą jest możliwość głosowego zarządzania aplikacjami typu Microsoft Teams czy Microsoft Office.

Dylematy etyczne związane z wykorzystaniem asystentów głosowych.

Naruszanie prywatności użytkowników przez gigantów technologicznych.

Nie ulega wątpliwości, że firmy technologiczne znajdujące się w światowej czołówce (Google, Microsoft, Facebook, Apple, Amazon, etc.) wykorzystują swoje usługi do zbierania naszych danych osobistych, często bez naszej wiedzy i zgody. Niemniej wraz z użyciem narzędzi takich jak Siri czy Google Assistant, zagrożenie pozyskaniem przez gigantów technologicznych wyjątkowo wrażliwych informacji nabiera nowego charakteru. W celu lepszego zrozumienia zjawiska pomocne może być przytoczenie pewnego japońskiego przysłowia:

„Każdy z nas ma trzy twarze. Jedną pokazujemy światu, drugą najbliższym a trzeciej nie pokazujemy nikomu. Ona stanowi nasz prawdziwy obraz.”

Informacje jakie wprowadzamy ręcznie do przeglądarek czy aplikacji często są wynikiem pewnego procesu myślowego i wprowadzane są w konkretnym celu. Z kolei w przypadku wypowiadanych przez nas zdań, dobór słów często zachodzi odruchowo i podświadomie. Rozmawiając w wirtualnym asystentem głosowym, możemy podświadomie wyjawiać informacje na temat naszej osobowości czy poglądów. Informacje to zbierane przez wielkie światowe korporacje poddawane są działaniu zaawansowanych algorytmów ML i mogą posłużyć do odkrycia wrażliwych danych na nasz temat. W pierwszych miesiącach 2019 roku dziennikarze światowych czasopism takich jak the Guardian, Bloomberg czy Vice News, stopniowo ujawniali, że przedstawiciele firm tzw. „Wielkiej Piątki (Big Five)” zatrudniają pracowników kontraktowych do analizy nagrań pochodzących od asystentów głosowych. Autorzy artykułów zaznaczali, że pomino uprzedniej anonimizacji danych, pracownicy kontraktowi często dostrzegali informację mogące zidentyfikować użytkownika urządzenia. Wspomniani pracownicy zaznaczali, że zdarzały się przypadki nagrań zawierające poufne informacje medyczne czy nagrania współżycia seksualnego. Przytoczone informacje rzucają cień na pozornie niegroźne, czy wręcz przyjazne urządzenia typu „Voice Assistant”. Wątpliwości budzi pytanie w jaki sposób narzędzia takie jak Siri, czy Alexa zbierają tak osobiste informacje. Czy jest to wynikiem nieuwagi użytkowników, którzy zbyt często włączają takie urządzenia? Czy może jednak są one z premedytacją zaprogramowane do prowadzenia niezauważalnych dla użytkowników działań w tle? Nawet jeżeli jest to efekt działania użytkowników, firmy technologiczne z całą pewnością dysponują algorytmami zdolnymi do wykrywania niezwykle wrażliwych informacji. Urządzenia VA wyposażone w takie algorytmy mogłyby automatycznie przerywać swoje działanie po wykryciu zagrożenia opublikowaniem takiego rodzaju danych.

Wycieki wrażliwych danych spowodowane błędami w oprogramowaniu.

Intencjonalne wykorzystanie naszych prywatnych danych przez technologicznych gigantów nie jest jedynym zagrożeniem jakie niesie nieustanne zbieranie danych przez asystentów głosowych. Aplikacie takie jak Siri czy Alexa, podobnie jak każde inne oprogramowanie, narażone są błędy i niedopatrzenia ze strony programistów. Niedoskonałości w aplikacjach mających dostęp do naszych rozmów z najbliższymi, czy informacji, którymi nie chcemy się z nikim dzielić mogą być szczególnie groźne. Dotkliwie przekonało się o tym pewne małżeństwo zamieszkujące stan Oregon. Zgodnie z informacjami przekazanymi przez parę Amerykańskiej stacji telewizyjnej KIRO-TV, posiadane przez nich urządzenie Amazon Echo niespodziewanie włączyło się, nagrało fragment prowadzonej przez nich rozmowy i ostatecznie przesłało jej treść znajomemu znajdującemu się na liście kontaktów pary. Sytuacja odbiła się na tyle głośnym echem, że sama firma Amazon opublikowała próbę wyjaśnienia nieoczekiwanego zachowania urządzenia. Zgodnie z ich tłumaczeniem, przyczyną takiego zdarzenia było błędne rozpoznanie wypowiadanych przez parę słów, które musiały zostać zinterpretowane jako sekwencja wydająca polecenie wysłania nagrania. Posiadając odrobinę zdrowego rozsądku, ciężko jest zaakceptować takie wytłumaczenie ze strony firmy. O ile błędne rozpoznanie pojedynczego słowa przez Alexę jest jak najbardziej prawdopodobne, o tylko szanse na wystąpienie sekwencji błędnie rozpoznanych słów, odpowiednio wpasowujących się w coś przypominającego komendę wysłania wiadomości wydaje się już niezwykle mało prawdopodobne. Podobna sytuacja miała miejsce w 2018 roku w Niemczech, kiedy pewien użytkownik urządzenia Amazon Echo przypadkowo otrzymał 1700 plików dźwiękowych od innego użytkownika. Jak podaje, informacje zawarte w tych plikach pozwalały określić tożsamość i miejsce zamieszkania nieszczęsnego użytkownika i jego rodziny. Zmuszona do wyjaśnień firma Amazon ograniczyła się jedynie do słów „human error”. Abstrahując od samej oceny zasadności próby wytłumaczenia zachowania Alexy przez firmę Amazon, niepokojący wydaje się być sam fakt podjęcia przez Alexę decyzji o manipulacji danymi na podstawie niejasnych i niepewnych komend głosowych. Być może prosty system, w którym Alexa poprzez pytanie upewnia się, że udostępniene jakiś danych jest intencją użytkownika stanowiłby rozwiązanie problemu? Stworzenie takiego systemu nie powinno stanowić dużego wyzwania dla firmy technologicznej biorąc pod uwagę jak zaawansowane są obecnie techniki rozpoznawania mowy. Być może jednak z nieznanych nam powodów unikanie tego typu błędów nie leży w interesie gigantów technologicznych?

Czy ludzka podświadomość dostrzega różnicę między wirtualnym asystentem a prawdziwym człowiekiem?

Kończąc rozważania nad możliwymi zagrożeniami dla naturalnego prawa do prywatności jakie niesie ze sobą korzystanie z wirtualnych asystentów głosowych, warto pochylić się nad aspektami wpływu takich rozwiązań technologicznych na emocjonalne i społeczne płaszczyzny naszego życia. Interesujący wydaje się być potencjalny wpływ omawianych technologi na sposób w jaki traktujemy i wchodzimy w relacje z innymi ludźmi, będący efektem takich zjawisk jak „Antropomorfizm” i paradygmat CASA (Computers are Social Actors). Szereg badań wykonanych przez Amerykańskiego profesora Clifforda Nassa wykazał istnienie ludzkiej tendencji do automatycznego stosowania zasad współżycia społecznego podczas świadomej interakcji z komputerem. Dodatkowo badania nad antropomorfizmem i paradygmatem CASA wykazały tendencje do stosowania stereotypów płciowych wobec maszyn i komputerów. Biorąc pod uwagę, że wszystkie wymienione wcześniej rozwiązania przedstawiają się jako kobiety niektórzy badacze zadają pytanie, czy długoterminowe korzystanie z asystentów głosowych nie pogłębi krzywdzącego stereotypu roli kobiety jako osoby wyręczającej mężczyzn w codziennych, rutynowych i mniej wymagających zadaniach. Niezależnie od indywidualnego stanowiska na temat potencjalnego wpływu asystentów głosowych na pogłębianie się stereotypów płciowych, zasadna wydaje się być sugestia, że mogę one wpłynąć na nasze zachowanie i oczekiwana względem innych ludzi. Kluczową cechą asystentów głosowych jest nieustanna gotowość do udzielania nam pomocy i wykonywania zleconych przez nas zadań. Dodatkowo ich stosunek do naszej osoby jest zawsze pozytywny i usłyszenie dotkliwej krytyki z ust Siri czy Cortany wydaje się być bardzo mało prawdopodobne. Zatem biorąc pod uwagę opisane wyżej badania, potwiedzające płynność granicy między człowiekiem a robotem w percepcji interakcji społecznych, możliwe jest, że ugodowość i nieustanny optymizm naszych wirtualnych przyjaciół będzie zawyżał nasze oczekiwania względem innych i uczyni nas mniej skłonnymi do przyjmowania konstruktywnej, lecz przykrej krytyki na nasz temat.

„Alexa, spakuj swoje walizki?”

Przytoczone powyżej obawy i zastrzeżenia dotyczące wykorzystywania rozwiązań VA, nierzadko dzielą społeczeństwo na dwie grupy o rozbieżnych opiniach. Mowa tutaj o przeciwnikach rozwiązań VA, uważających ich używanie za oznakę braku rozsądku i wspierania imperialnej wręcz potęgi „Wielkiej Piątki” oraz zwolenników Siri czy Alexy cieszących się przynoszoną przez nie wygodą, którzy postrzegają drugą stronę jako przesadnie przewrażliwioną, czy wręcz psychotyczną. Dla wielu osób jednak, zajęcie jednoznacznego stanowiska może być trudne. Żyjąc w zabieganym świecie warto korzystać z rozwiązań, które mogą nam zaoszczędzić trochę czasu. Z drugiej jednak strony, biorąc pod uwagę ostatnie 3 lata historii, rozsądne wydaje się być podejmowanie działań na rzecz ograniczania ilości informacji jakie na nasz temat zbierają rządy i służby państwowe. Zatem korzystanie z urządzeń Google Assistant, czu Microsoft Cortana powinno się odbywać ze szczególną ostrożnością. Być może stowrzenie rozwiązania VA typu open source, gwarantującego bezpieczeństwo poprzez szyfrowanie i brak scentralizowanego gromadzenia danych stanowi doskonały pomysł na współczesny biznes? Dodatkowo korzystając z zawsze szczodrych i gotowych do pracy wirtualnych asystentów, należy pamiętać, że nie należy oczekiwać podobnej postawy od prawdziwych, nawet najbliższych nam osób.

Bibliografia:

Tags: AI, Alexa, Communication, NLP, Privacy, Siri, Voice Assistants