Home » UJ 2022/23 » Sieci semantyczne (semantic web) – czym są, jak działają oraz jakie niosą możliwości i wyzwania

Sieci semantyczne (semantic web) – czym są, jak działają oraz jakie niosą możliwości i wyzwania

By Ewa Karoń and Weronika Brożyna in UJ 2022/23 on 10 listopada, 2022

Spread the love

Rozwój internetu nieodzownie łączy się z przetwarzaniem niezwykle dużej ilości informacji. Chociaż w ostatnich latach osiągneliśmy wiele sukcesów w porządkowaniu i rozwijaniu dostępności danych, jednak w aktualnym WWW pozostaje miejsce na usprawnienia. Fascynującym zagadnieniem w tym kontekście są sieci semantyczne, które przynoszą nadzieje na szeroko dostępny i łatwy w użyciu zbiór wiedzy.

“If HTML and the Web made all the online documents look like one huge book, RDF, schema, and inference languages will make all the data in the world look like one huge database.”

–Tim Berners-Lee, Weaving the Web, 1999

Czym są sieci semantyczne?

“Semantyczny” w najprostszym sensie sprowadza się do zrozumienia znaczenia. Stojąc w opozycji do syntaktyki, która zajmuje się analizą budowy komunikatów, semantyka zwraca uwagę przede wszystkim na treść wypowiedzi.

Technologie semantyczne mają na celu umożliwienie, zarówno użytkownikom jak i maszynie, łatwiejszego zrozumienia treści zawartych w sieci takich jak artykuły czy strony internetowe. Przez użycie tych technologii możemy umożliwić komputerowi tworzenie relewantnych połączeń między konceptami, co skutkuje w poszerzeniu możliwych do wykonania operacji. Dla użytkownika oznacza to przede wszystkim dostępność informacji, ułatwienie w zrozumieniu tematu oraz wzrost produktywności pracy.

Sieć semantyczna łączy informacje z różnych obszarów tworząc szeroką bazę wiedzy, możliwą do utrzymania, a przede wszystkim o wiele bardziej przystępną. Dostarcza również możliwości współpracy pomiędzy dziedzinami co sprawia, iż wzrasta prawdopodobieństwo odkryć naukowych.

Web 1.0, Web 2.0 i Web 3.0 – czyli skąd przyszliśmy i dokąd zmierzamy

Web 1.0

grafika przedstawiająca web 1.0

Jest to wczesne stadium rozwoju World Wide Web. Na tym etapie sieć stanowią dokumenty połączone przez hyperlinks. Temu rodzajowi sieci brakuje mechanizmów aby ukazać wiedzę i relacje między elementami w bazach danych.

Web 2.0

grafika przedstawiająca web 2.0

Terminu Web 2.0 używa się w kontekście serwisów internetowych, których podstawową rolę odgrywa treść generowana przez użytkowników. Przykładami takich serwisów są między innymi: Facebook, LinkedIn, Youtube, Twitter, Myspace, Flickr. Mankamentem Web 2.0 jest przede wszystkim brak współdziałania między aplikacjami sieciowymi. Użytkownik chcąc zaktualizować informacje na jakiś temat musi to zrobić osobno na każdej platformie. Dane nie są ze sobą połączone, chociaż istnieją linki łączące systemy.

Web 3.0

Według wielu „sieci semantyczne” odnosi się do ewolucji Web 2.0, stąd termin Web 3.0. Ideą tego etapu jest połączenie ze sobą danych, a nie dokumentów czy zaawansowanych linków pomiędzy platformami. Czyli dane przechowywane np. w serwisie LinkedIn były by możliwe do udostepnienia w serwisie Facebook bezpośrednio na najniższym poziomie, poziomie danych.

Narzędzia i technologie sieci semantycznych

Ontologie i języki Ontologii (RDF, OWL, SKOS, SPARQL, itd.)

W budowaniu bogatych modeli koncepcyjnych, które mogą być udostępniane w sieci, szczególnie wyróżniającym się narzędziem są języki ontologii, a zwłaszcza OWL. Technologie te zapewniają środowisko, w którym serwisy mogą wypytywać o dane i wyciągać wnioski.

Ontologie to formalne, konceptualne reprezentacje wiedzy dziedzinowej, na które składają się pojęcia oraz występujące między nimi relacje.

prosty przykład ontologii

Linked Data

Linked Data to zbieranie powiązanych ze sobą zbiorów danych w sieci. Aby osiągnośc taki stan rzeczy niezbędny jest nie tylko ogrom danych w sieci ale również wspólny format (RDF) by dokonać konwersji już istniejących baz danych lub chociaż łatwy dostęp. Następną istotną kwestią jest ustawienie odpowiednich queries, protokołów, które mogą programowo wydobyć informacje z sieci danych.

Zastosowania i Możliwości

Już w 2010 roku w trakcie Mistrzostw Świata w Piłce Nożnej serwis BBC użył technologii sieci semantycznych do dynamicznego wyświetlania treści. Zastosowano zapytania SPARQL oraz rozumowanie OWL 2 RL. Z powodu ogromnego sukcesu tego zastosowania, w styczniu 2013 roku, BBC zobowiązało się do rozwoju platformy Linked Data, aby umożliwić dynamiczne publikowanie semantyczne.

Inne przykłady obejmują obserwację eksplorację w farmacji, eksplorację sieci semantycznej, eksplorację dokumentów zdrowotnych w celu uzyskania spostrzeżeń i wykrywania oszustw.

Głównym celem Sieci semantycznych jest tworzenie takiej formy danych internetowych, aby były możliwe do zinterpretowania przez maszyny lub programy (tzw. Agentów) w taki sam sposób w jaki są dla ludzi. Ma to umożliwić swobodną wymianę danych oraz formalizację i unifikację dotychczasowej już zelektronizowanej wiedzy. Dzięki temu będziemy mogli w łatwiejszy i bardziej trafny sposób otrzymywać odpowiedzi na bardziej szczegółowe pytania.

Dzisiaj dostępne wyszukiwarki semantyczne pozwalają właśnie na zadawanie takich pytań w języku naturalnym (np. Google). Obecnie liczba dostępnych rozwiązań wykonanych w technologii Web 3.0 jest ograniczona. Część spośród zidentyfikowanych rozwiązań jest w fazie prototypu, a tylko na niektórych stronach umieszczony jest wirtualny bot, którego zadaniem jest wspomóc użytkownika serwisu. Technologie sieci semantycznych zostały zaadoptowane w społecznościach specjalizujących się we wdrażaniu systemów informatycznych, ale głównie w systemach zamkniętych takich jak firmy czy biblioteki. Sieci Semantyczne dają możliwość łączenia wiedzy i współpracy pomiędzy bazami danych i domenami wiedzy oraz zwiększają możliwości odkrywania nowej wiedzy.

Warto zaznaczyć jednak, że z dużym prawdopodobieństwem zastosowanie Sieci Semantycznych stanowi przyszłość serwisów internetowych.

„The semantic web is the future of the internet and always will be.” – Peter Norvig,

Tim Berners-Lee określił sieci semantyczne jako element Web 3.0. Sieci, która jest następnym, bardzo obiecującym krokiem w ewolucji internetu:

Web 3.0 krótko wytłumaczone

Ograniczenia

Siła danej ontologii jest związana z jej szczegółowością i wielkości bazy użytkowników. Uzyskanie porozumienia w ramach grupy użytkowników co do tego, które poszczególnych pojęć i co one dokładnie oznaczają, nie jest łatwe. Im większa baza użytkowników, tym trudniejsze to jest. Co więcej, wydaje się, że im większa baza użytkowników, tym mniej szczegółowa będzie ontologia. Łatwiej jest uzyskać porozumienie co do ogólnych pojęć. W związku z tym podejmowane są wysiłki aby umożliwić tłumaczenie między ontologiami. Jedno z takich podejść nazywane jest „Negocjacjami semantycznymi”

Jednym z największych ograniczeń w dzisiejszej sieci semantycznej web jest ilość informacji w niej zawartej i brak pomysłu na jej wykorzystanie. Ze względu na to, że nie ma zbyt dużego wspomagania ze strony komputerów, ilość danych publikowanych w sieci internetowej jest przytłaczająca. Jest to spowodowane też tym, że większość informacji publikowanych w intrenecie jest w formacie HTML, który przeznaczony jest do odczytywania przez ludzi, a nie maszyny. Wyszukiwarki sieci web starają się w jakiś sposób uporządkować dokumenty HTML, zazwyczaj robią to poprzez redukowanie zawartości tych dokumentów do słów kluczowych, a co za tym idzie pozwalają odnaleźć tylko dokument, który być może zawiera informacje na dany temat. Problem pojawia się, gdy trzeba odpowiedzieć na bardziej szczegółowe pytania np. Jakie fotoinicjatory wpływają najlepiej na proces fotopolimeryzacji? Aby znaleźć odpowiedź na to pytanie potrzebujemy informacji z tak zwanych głębokiej sieci web, która jest dostępna tylko poprzez formularze w dokumentach HTML. Wyszukiwarki internetowe nie rozumieją znaczenia tych formularzy, a więc nie potrafią ich wypełnić.

Wysokiej jakości szczegółowe indeksowanie jest kosztowne i na ogół wymaga wysoko wykwalifikowanego personelu. Ponadto, wszelkie ewolucyjne zmiany w ontologii mogą być problematyczne, ponieważ konieczne będzie ponowne indeksowanie. Z drugiej strony, kilku badaczy podejmuje próby zautomatyzowanego indeksowania na dużą skalę. Wysiłki te zazwyczaj wykorzystują jakąś formę przetwarzania języka naturalnego (NLP). Pomimo znacznych postępów, NLP nie jest w stanie oznaczyć dokumentów za pomocą głębokich koncepcji ontologicznych.

Wyzwania Sieci Semantycznej

Zautomatyzowane systemy wnioskowania muszą zmierzyć się ze wszystkimi wyzwaniami, które stawia im projekt sieci semantycznej, niektóre z nich to:

ogrom sieci Web – aktualnie sieć internetowa składa się z kilka miliardów stron, jak dotąd żadna technologia jeszcze nie zdołała wyeliminować wszystkich duplikatów z semantycznego punktu widzenia tej ontologii. Zautomatyzowane systemy wnioskowania będą musiały zmierzyć się z niesamowicie dużą ilością parametrów.
nieprecyzyjność – istnieje sporo pojęć nieprecyzyjnych (tj. „stary” czy „wysoki”), niemożliwym wydaje się odnalezienie szczegółowej i dokładnej odpowiedzi na pytanie, które jest niesprecyzowane.
niepewność – precyzyjne pojęcia o niepewnych wartościach. Przykładowo, pacjent może doświadczać objawów, które są przypisane różnym diagnozom.
niespójność – główne pole badań to sprzeczności, które bez wątpienia będą się pojawiać w rozwoju większych ontologii oraz w momencie łączenia dwóch ontologii pochodzących z różnych źródeł

Literatura

Antunes F., Freire M. & Costa J. P. (2016) Semantic web and decision support systems, Journal of Decision Systems
Bengtson, J. (2015) The Semantic Revolution Journal of Electronic Resources in Medical Libraries
Ferguson J. C. PhD (2007) Semantic Web Technologies, Journal of Electronic Resources in Medical Libraries,
Semantic Web: https://devopedia.org/semantic-web
Semantic Web: https://en.wikipedia.org/wiki/Semantic_Web
W3C, Query: https://www.w3.org/standards/semanticweb/query
W3C, Linked Data: https://www.w3.org/standards/semanticweb/data
Węch, T. (2014). Integracja systemów informatycznych poprzez automatyczne przepisywanie zapytań.

Tags: Data, Data Science, Linked Data, Ontologie, przetwarzanie danych, Semantic web, Sieci semantyczne, Web 3.0

Sieci semantyczne (semantic web) – czym są, jak działają oraz jakie niosą możliwości i wyzwania

Leave a comment Anuluj pisanie odpowiedzi