Home » 2022 » Co tak naprawdę można odkryć analizując dostępne publicznie informacje? Dlaczego Data Science i Sztuczna Inteligencja odgrywa tak ważną rolę w tym aspekcie?

Tagi

Wyróżnione posty

Zobacz też

Statystyki

  • 71
  • 238
  • 23 583
  • 6 652
  • 50

Co tak naprawdę można odkryć analizując dostępne publicznie informacje? Dlaczego Data Science i Sztuczna Inteligencja odgrywa tak ważną rolę w tym aspekcie?

Spread the love

Jednym z ważniejszych aspektów w dzisiejszym świecie są media społecznościowe, w końcu kto z Nas nie przyłapał się na automatycznym przesuwaniu palcem nawet nie patrząc co wyświetla się na ekranie. Codziennie w portalach umieszczamy terabajty danych, na pierwszy rzut oka nic nie znaczących, ale co tak naprawdę można z nich uzyskać? Biorąc pod uwagę to że te dane są bardzo łatwo dostępne, wiele osób lub grup próbowało wykorzystać informacje ale czy zawsze w dobrych intencjach…

Photo by Aman Pal on Unsplash

Wprowadzenie

Zapewne każdy z Nas korzysta z różnego typu portali z kategorii Social Media, nie zależnie od tego czy aktywnie tworzymy treści czy jesteśmy jedynie biernymi obserwatorami generujemy niezliczone wręcz ilości danych. Każde zatrzymanie uwagi, interakcja z wyświetlanym obiektem (polubienie, udostępnienie, komentarz, a nawet samo wejście w sekcje komentarzy) są rejestrowane. Na pierwszy rzut oka może się okazać że zabrane informacje nie niosą ze sobą żadnej treści i rzeczywiście analiza pojedynczych zjawisk nie odkryje tajemnic skrywanych przez ich twórcę, jednak mając dostęp do wszystkich danych, kolejności wykonywanych działań, ich czasu, lokalizacji i zdarzeń które miały wtedy miejsce, można odnaleźć bardzo ciekawe wnioski.

Poniżej zaprezentowane dane z 2019 roku pomogą nam przybliżyć ile takich danych ludzkość jest w stanie wyprodukować


Image courtesy of Dustin Stout

Patrząc na te liczby możemy być przerażeni ich ilością, dlatego ludzie nie byli by w stanie ich analizować ręcznie. Na szczęście z pomocą przychodzi nam Sztuczna Inteligencja, w postaci różnorakich algorytmów najczęściej rekomendujących Nam kolejne treści, oraz nauka zwana Data Science (pol. Danologia) która z definicji:

Danologia lub z ang. Data science – interdyscyplinarne pole używające naukowych metod, procesów, algorytmów i systemów do wydobywania spostrzeżeń z wielu danych strukturalnych i nieustrukturyzowanych. – źródło Wikipedia

ma na celu pomoc w przygotowaniu oraz późniejszej analizie wyników.

Algorytmy rekomendacyjne

Podstawowym zastosowaniem tych danych są systemy przygotowane przez używane przez Nas platformy, w końcu jako właściciele tych danych na pewno chcieli by je wykorzystać. Systemy te mają na celu utrzymać naszą uwagę na danym portalu jak najdłużej, najprostszym  rozwiązaniem jest wyświetlanie materiałów które mogą Nas zainteresować, wtedy chętniej sprawdzimy co kryje się w środku tego materiału. Dzięki temu że storna zbierała informacje o ruchach, które wykonywaliśmy, może dość łatwo wnioskować o Naszych preferencjach.

Zamysł tego rozwiązania był w mojej opinii słuszny, po co szukać na danym portalu, wśród milionów informacji, tej która jest Nam potrzebna w danej chwili, skoro portal może sam go Nam podsunąć i umieścić w widocznym wyszczególnionym miejscu. Dzięki temu możemy oszczędzić całą masę czasu i znaleźć interesujące Nas materiały, na które prawdopodobnie moglibyśmy nigdy nie trafić.

Jednak z drugiej strony, wykorzystując te algorytmy do przesady możemy znaleźć się w miejscu gdzie dostajemy informacje tylko i wyłącznie dotyczące Naszych zainteresowań. Brak różnorodności informacji jest skrajnie niekorzystny, zamyka Nas w tzw. Bańce Informacyjnej, więcej o tym zjawisku możecie przeczytać TUTAJ.

Analiza ruchu samochodowego

Czy w mediach społecznościowych znajdziemy informacje dotyczące ruchu samochodowego w Naszym mieście? Może czasami któryś z Naszych sfrustrowanych staniem w korku znajomych, napiszę coś na ten temat, ale raczej i tak nie znajdziemy dokładnej lokalizacji. Jednak naukowcy spróbowali wykorzystać portal Twitter, by estymować miejsca kolizji, gdyż to one bardzo często odpowiadają za utrudnienia w ruchu. Aby tego dokonać przeanalizowali ponad 3 miliony tweetów z obszarów Północnej Wirginii oraz Nowego Jorku zebranych na przestrzeni roku 2014. Ręcznie zaetykietowali losową część z nich, by móc zbudować model Sztucznej Inteligencji, który pomoże im zaklasyfikować pozostałe. Tak przygotowany model wyodrębnił około 900 postów związanych wydarzeniami na drodze, dla równowagi do zbioru danych dodany kolejne 900 postów wybranych losowo z pozostałych nie związanych ruchem samochodowym. Każdy z tych postów wnosił do zbioru treść, godzinę i lokalizacje (w postaci zmiennych geograficznych) z której został udostępniony.

Kolejnym krokiem w analizie tego problemu było stworzenie modelu do klasyfikacji zjawisk podzielonych na trzy kategorie:

  • Kolizja drogowa
  • Uszkodzony pojazd
  • Płonący pojazd

Model ten opierał się na Przetwarzaniu Języka Naturalnego, dzięki podzieleniu treści tweetów na tokeny, można było zaobserwować korelacje pomiędzy występowaniem danych słów, a związiem postów ruchem drogowym.

Źródło (Zhang, 2018)

Tak przygotowany model osiągnął około 80% skuteczności, więc mógł z dużą dozą pewności określić nowo pojawiające się posty jako związane z wydarzeniami na drodze. Mając do dyspozycji zmienne geograficzne, można wyszukać posty opublikowane o podobnej porze i w podobnej lokalizacji, dzięki czemu naukowcy byli w stanie określić miejsce zdarzenia.

Jak widać z pozoru nie istotne dane mogą w pozytywny sposób wpłynąć na Nasze codzienne życie, gdybyśmy dostawali powiadomienie że na Naszej trasie mógł zdarzyć się wypadek, możemy zmienić nieco trasę podróży i zaoszczędzić trochę czasu i nerwów.

OSINT

Co kryje się pod tą tajemniczą nazwą? Z pomocą do analizy tego zjawiska pomoże nam rozwinięcie skrótu, które brzmi Open Source Intelligence, są to techniki pozyskiwania informacji o firmach lub osobach korzystając z otwartych źródeł danych (co nie zawsze oznacza że są one publicznie dostępne). Analizując ślady które zostawiliśmy po Naszych ruchach można odnaleźć teoretycznie wrażliwe dane personalne. Z tych metod mogą korzystać wszyscy zajmujący się pozyskiwaniem danych, od rekruterów po śledczych.

Jedynym z ciekawszych przykładów użycia tych technik jest zlokalizowanie hakera, który umieścił na swoim profilu zdjęcie, jak później się okazało wykonując to zdjęcie telefon w metadanych zapisał lokalizacje w której było ono zrobione. Dzięki temu śledczy mogli w bardzo łatwy sposób namierzyć jego miejsce pobytu.

Analiza poglądów

Kiedy publikujemy wpisy na platformach społecznościowych, szczególnie gdy są one związane w Naszymi poglądami, można w jakiś sposób określić nasze upodobania. Jednak co w przypadku gdy jesteśmy jedynie biernymi obserwatorami. Jednak dane samych polubień, jak twierdzi Christopher Wylie w swojej książce Mindf*ck:

W rezultacie dane z Facebooka znacznie lepiej odzwierciedlają to, kim “naprawdę jesteś”, niż opinie twoich znajomych czy bliskich. Autorzy badania doszli do wniosku, że w niektórych przypadkach przewidywania dotyczące nawyków danej osoby okazują się dokładniejsze od jej własnej samooceny…

To stwierdzenie jest zarówno przerażające, ponieważ zgodnie z nim algorytmy komputerowe są w stanie lepiej Nas ocenić niż nawet doświadczeni specjaliści, jak i budujące, gdyż możemy je wykorzystać do rozwiązania wielu problemów które spotykamy w dzisiejszym świecie. To właśnie ta ten pozytywny aspekt skłaniał naukowców do pogłębiania tej analizy. Jednak cel w którym te algorytmy zostały użyte można określić przynajmniej jako wątpliwe moralnie.

Dzięki luce w działaniu Facebooka zespół C. Wylie był w stanie bardzo łatwo zbudować potężny zbiór danych. Umieścili oni na jednej z platform test, z bardzo prostymi pytaniami, oferując za jego rozwiązanie pieniądze. Jednak warunkiem ich uzyskania było połącznie się z kontem na Facebooku i udzielenie pozwolenia do wglądu w listę znajomych. To pozwoliło bardzo szybko zebrać danę kilku milionów Amerykanów , uwzględniając wszystkie polubienie pozostawione na tym portalu.

Zbudowana Sztuczna Inteligencja, zgodnie w opinią autora książki, była w stanie na podstawie kilkudziesięciu interakcji określić charakter użytkownika lepiej od jego bliskich. Niestety w tym momencie ideały o rozwiązaniu problemów ludzkości poszły w zapomnienie, twórcy algorytmu wykorzystali go do budowania napięć w społeczeństwie, tworząc ekstremistyczne grupy, które w zamyśle miały wpłynąć na wyniki wyborcze.

Podsumowanie

Prawda pozostawiona przez Nas w mediach społecznościowych, niesie ze sobą bardzo dużą odpowiedzialność. Jak wykazałem w tym artykule, często zastosowanie Sztucznej Inteligencji, w celu ujawnienia tego co pozostawało ukryte, zależy od intencji. Możemy znaleźć całą masę zastosowań które będą służyć ludzkości i ułatwiać Nasze codzienne życie, jednak w momencie gdy niektórzy ludzie skupią się bardziej na aspekcie finansowym może dojść do wielu nadużyć, co dobitnie pokazała afera Cambridge Analytica. 

Dodatkowo bardzo trudno obronić się przed wyciekiem Naszych danych wrażliwych, jednak warto próbować zabezpieczać się w miarę swojej wiedzy i umiejętności.

Literatura

  • Chan, H. K., Wang, X., Lacka, E., & Zhang, M. (2016). A mixed‐method approach to extracting the value of social media data. Production and Operations Management25(3), 568-583.
  • Zhang, Z., He, Q., Gao, J., & Ni, M. (2018). A deep learning approach for detecting traffic accidents from social media data. Transportation research part C: emerging technologies86, 580-596.
  • Wylie, C. (2019). Mindf* ck: Inside Cambridge Analytica’s plot to break the world. Profile Books.
  • Steele, R. D. (2007). Open source intelligence. In Handbook of intelligence studies (pp. 147-165). Routledge.
  • Niebezpiecznik OSINT (Biały Wywiad) czyli techniki pozyskiwania informacji o ludziach i firmach

Leave a comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Najnowsze komentarze

  1. Ciekawe jest porównanie tradycyjnej terapii z nowymi rozwiązaniami opartymi na modelach językowych. Warto zauważyć, że mimo obiecujących wyników, istnieją ważne…