{"id":2171,"date":"2022-11-10T13:33:25","date_gmt":"2022-11-10T13:33:25","guid":{"rendered":"http:\/\/architeles.pl\/ethics\/?p=2171"},"modified":"2022-11-10T13:33:25","modified_gmt":"2022-11-10T13:33:25","slug":"uczenie-przez-wzmacnianie-charakterystyka","status":"publish","type":"post","link":"https:\/\/architeles.eu\/ethics\/index.php\/2022\/11\/10\/uczenie-przez-wzmacnianie-charakterystyka\/","title":{"rendered":"Uczenie przez wzmacnianie \u2013 charakterystyka"},"content":{"rendered":"<p>Gdy s\u0142yszymy o uczeniu maszynowym, od razu nasuwaj\u0105 si\u0119 na my\u015bl ogromne wolumeny danych ze \u015bwiata wirtualnego, przetwarzane w chmurze przez komercyjne aplikacje takie jak Amazon lub Spotify. Cz\u0119sto podejmuj\u0105 one decyzje biznesowe o du\u017cym stopniu abstrakcji, wyr\u0119czaj\u0105c w pracy analityk\u00f3w i marketingowc\u00f3w. Czy mog\u0142yby znale\u017a\u0107 zastosowanie w zadaniach tak podstawowych, jak nauka chodzenia? Poni\u017cszy artyku\u0142 omawia ga\u0142\u0105\u017a uczenia maszynowego wzorowan\u0105 na niskopoziomowych mechanizmach poznawczych ludzi i zwierz\u0105t.<\/p>\n<p><!--more--><\/p>\n<h2>Co wyr\u00f3\u017cnia uczenie przez wzmacnianie na tle innych metod uczenia maszynowego?<\/h2>\n<p>Istot\u0105 uczenia przez wzmacnianie jest nauka metod\u0105 pr\u00f3b i b\u0142\u0119d\u00f3w, by osi\u0105gn\u0105\u0107 za\u0142o\u017cony cel. Algorytmowi pozwala si\u0119 tu na swobodn\u0105 eksploracj\u0119 otoczenia i sprawdzanie, jakie skutki maj\u0105 podejmowane przeze\u0144 dzia\u0142ania. Akcje, kt\u00f3re przybli\u017cy\u0142y go do celu, b\u0119d\u0105 powtarzane w przysz\u0142o\u015bci. Te, kt\u00f3re nie przynios\u0142y po\u017c\u0105danych rezultat\u00f3w, zostan\u0105 zaniechane.<sup>[1]<\/sup><\/p>\n<p>G\u0142\u00f3wnym d\u0105\u017ceniem algorytmu jest stworzenie strategii, kt\u00f3ra pozwoli mu porusza\u0107 si\u0119 w otoczeniu w spos\u00f3b przybli\u017caj\u0105cy go do realizacji zadania. Jest to wi\u0119c typ uczenia maszynowego <strong>nastawiony na cel<\/strong> (<em>goal-oriented<\/em>). Najlepiej sprawdza si\u0119 w zadaniach dynamicznych, w kt\u00f3rych efekt ko\u0144cowy jest sum\u0105 decyzji roz\u0142o\u017conych w czasie.<\/p>\n<p>By lepiej zrozumie\u0107 charakterystyk\u0119 uczenia przez wzmacnianie, warto por\u00f3wna\u0107 je z innymi technikami uczenia maszynowego:<\/p>\n<ul style=\"list-style-type: square;\">\n<li>Zar\u00f3wno uczenie nadzorowane, jak i nienadzorowane operuj\u0105 na ustrukturyzowanych zestawach danych przygotowanych przez cz\u0142owieka. Dane te s\u0105 zazwyczaj u\u0142o\u017cone w rz\u0119dy, zwane obserwacjami, oraz kolumny, kt\u00f3re stanowi\u0105 cechy obserwacji.<sup>[2]<\/sup> Uczenie przez wzmacnianie nie wymaga dostarczenia danych w takiej formie.<\/li>\n<li>Podczas gdy uczenie nienadzorowane konsumuje ilo\u015bci danych niemo\u017cliwe do obj\u0119cia percepcj\u0105 cz\u0142owieka, systemy uczenia przez wzmacnianie cz\u0119sto posiadaj\u0105 &#8222;zmys\u0142y&#8221; o podobnych ograniczeniach do ludzkich. Na przyk\u0142ad roboty przemys\u0142owe s\u0105 najbardziej op\u0142acalne, gdy radz\u0105 sobie z manipulacj\u0105 przedmiotami dysponuj\u0105c jedynie s\u0142abej jako\u015bci obrazem.<sup>[3]<\/sup><\/li>\n<li>Uczenie nadzorowane otrzymuje etykiety <em>a priori<\/em>\u00a0i przechowuje je w formie zmiennych zale\u017cnych, kt\u00f3re nast\u0119pnie mog\u0105 s\u0142u\u017cy\u0107 do szczeg\u00f3\u0142owych por\u00f3wna\u0144. Etykiety cz\u0119sto nios\u0105 informacje jako\u015bciowe. Uczenie przez wzmacnianie, nawet je\u015bli wykonuje podobne zadanie, otrzyma informacj\u0119 zwrotn\u0105 <em>a posteriori<\/em>\u00a0i przyjmie ona form\u0119 ilo\u015bciow\u0105, \u015bwiadcz\u0105c\u0105 jedynie o poprawno\u015bci wykonanego zadania.<\/li>\n<\/ul>\n<h2>Anatomia systemu uczenia przez wzmacnianie<\/h2>\n<p>Systemy uczenia przez wzmacnianie mog\u0105 przyjmowa\u0107 r\u00f3\u017cne formy, jednak zawsze wyst\u0119puj\u0105 w nich dwa podstawowe komponenty: agent oraz \u015brodowisko.<\/p>\n<p>Agent jest programem komputerowym \u2013 cz\u0119\u015bci\u0105 systemu, kt\u00f3ra na podstawie pozyskanych danych przeprowadza obliczenia i podejmuje decyzj\u0119 o swojej nast\u0119pnej czynno\u015bci. Operuje wedle schematu:<\/p>\n<ol>\n<li>przyj\u0119cie informacji wej\u015bciowej o otoczeniu,<\/li>\n<li>przetwarzanie danych,<\/li>\n<li>zwr\u00f3cenie informacji wyj\u015bciowej w postaci decyzji.<\/li>\n<\/ol>\n<p>Wszystkie inne kroki, takie jak zdobycie danych z otoczenia lub wprowadzenie w \u017cycie podj\u0119tej decyzji nie s\u0105 odpowiedzialno\u015bci\u0105 agenta.<\/p>\n<p>\u015arodowisko stanowi reprezentacj\u0119 problemu postawionego przed agentem. Mo\u017ce to by\u0107 gra komputerowa, zamkni\u0119te pomieszczenie stanowi\u0105ce \u201epoligon\u201d dla ucz\u0105cego si\u0119 robota lub tor z przeszkodami. W przypadku najbardziej holistycznych system\u00f3w, \u015brodowiskiem mo\u017ce by\u0107 nawet fragment \u015bwiata fizycznego lub spo\u0142ecznego. Warto jednak zaznaczy\u0107, \u017ce tak naprawd\u0119 \u015brodowiskiem jest <strong>wszystko poza agentem<\/strong> \u2013\u00a0a wi\u0119c tak\u017ce przy\u0142\u0105czone do niego komponenty percepcyjne i wykonawcze.<sup>[3]<\/sup><\/p>\n<p>T\u0119 granic\u0119 mo\u017cna zilustrowa\u0107 na przyk\u0142adzie prostego robota je\u017cd\u017c\u0105cego, maj\u0105cego za zadanie porusza\u0107 si\u0119 po powierzchni w taki spos\u00f3b, aby rysowa\u0107 figury geometryczne. Sk\u0142ada si\u0119 on z p\u0142ytki zawieraj\u0105cej oprogramowanie, do\u0142\u0105czonych do niej urz\u0105dze\u0144 zbieraj\u0105cych informacje z otoczenia (kamera, czujniki \u015bwiat\u0142a) oraz urz\u0105dze\u0144 wykonuj\u0105cych dzia\u0142ania (ko\u0142a, diody). W tym przypadku agentem b\u0119dzie cz\u0119\u015b\u0107 oprogramowania podejmuj\u0105ca decyzje o ruchu. Istniej\u0105 niepo\u017c\u0105dane czynniki sprawiaj\u0105ce, \u017ce decyzje agenta mog\u0105 by\u0107 nieidealnie przenoszone na otoczenie, jak cho\u0107by zakrzywienie platformy czy drobne r\u00f3\u017cnice w sposobie dokr\u0119cenia k\u00f3\u0142. Musz\u0105 by\u0107 one uwzgl\u0119dnione w procesie decyzyjnym, by agent m\u00f3g\u0142 skutecznie korygowa\u0107 swoje post\u0119powanie. Nie mo\u017ce wi\u0119c traktowa\u0107 komponent\u00f3w jako niezawodnych \u201ecz\u0119\u015bci cia\u0142a\u201d realizuj\u0105cych jego wol\u0119: korzystniejsze jest potraktowanie ich jako element\u00f3w \u015brodowiska.<\/p>\n<h3>Sercem procesu nauki jest interakcja<\/h3>\n<p>Agent mo\u017ce wp\u0142ywa\u0107 na \u015brodowisko poprzez podejmowane akcje. Komunikacja ta ma charakter sekwencyjny i jest oparta na dyskretnych krokach czasowych. W ka\u017cdym kroku agent dokonuje wyboru spo\u015br\u00f3d dost\u0119pnych akcji i otrzymuje <strong>nagrod\u0119<\/strong>\u00a0\u2013 liczb\u0119 opisuj\u0105c\u0105, na ile korzystne by\u0142o ostatnie dzia\u0142anie. Na podstawie tej informacji modyfikuje on swoje zachowanie, by w nast\u0119pnym kroku zmaksymalizowa\u0107 warto\u015b\u0107 nagrody.<\/p>\n<p>Wa\u017cnym elementem tworzenia algorytmu jest zaprojektowanie funkcji nagrody, kt\u00f3ra odpowiednio skwantyfikuje takie idee jak \u201esukces\u201d czy \u201epora\u017cka\u201d, by reprezentowa\u0142y one d\u0105\u017cenie do celu. W przypadku agent\u00f3w prowadz\u0105cych interakcje ze \u015bwiatem rzeczywistym lub gr\u0105 komputerow\u0105, nagroda mo\u017ce by\u0107 naturalnie wpisana w \u015brodowisko. Przyk\u0142ady stanowi\u0105:<\/p>\n<ul>\n<li>zdobycie punktu kosztem przeciwnika,<\/li>\n<li>obr\u00f3cenie nale\u015bnika w powietrzu w taki spos\u00f3b, \u017ce trafi z powrotem na patelni\u0119, a nie na sufit<sup>[4]<\/sup>,<\/li>\n<li>przekroczenie linii mety.<\/li>\n<\/ul>\n<p>Cz\u0119sto jednak mo\u017cliwo\u015b\u0107 otrzymania naturalnej nagrody pojawia si\u0119 zbyt rzadko, by da\u0142o si\u0119 z niej efektywnie wyci\u0105ga\u0107 wnioski i korygowa\u0107 swoje post\u0119powanie. Dlatego programistka mo\u017ce wprowadzi\u0107 nagrod\u0119 premiuj\u0105c\u0105 na przyk\u0142ad:<\/p>\n<ul>\n<li>odbicie lotki pod takim k\u0105tem, \u017ce przeleci nad siatk\u0105 i znajdzie si\u0119 po stronie przeciwnika,<\/li>\n<li>poruszenie si\u0119 bli\u017cej mety w por\u00f3wnaniu do po\u0142o\u017cenia zajmowanego w poprzedniej sekundzie; im wi\u0119ksz\u0105 pokonano odleg\u0142o\u015b\u0107, tym wy\u017csza otrzymana nagroda.<\/li>\n<\/ul>\n<p>Istotne, by mechanizm nagrody nie by\u0142 zanadto skomplikowany:<\/p>\n<blockquote><p>If you use an overly complex reward signal then the proposed algorithms might overfit and learn to take advantage of a flaw in the reward signal, rather than solving\u00a0the intended problem.<sup>[5]<\/sup><\/p><\/blockquote>\n<p>Niekt\u00f3re algorytmy wzorowane na ewolucji biologicznej nie opieraj\u0105 si\u0119 na kolejnych pr\u00f3bach pojedynczego agenta, ale wprawiaj\u0105 w ruch wielu agent\u00f3w jednocze\u015bnie. W takim wypadku nie stosuje si\u0119 liczbowej kary za pora\u017ck\u0119, ale nast\u0119puje eliminacja agenta z puli.<\/p>\n<h3>Procesy Decyzyjne Markowa<\/h3>\n<p>Problemy stawiane przed agentem posiadaj\u0105 reprezentacj\u0119 matematyczn\u0105 w postaci Proces\u00f3w Decyzyjnych Markowa.<sup>[6]<\/sup><\/p>\n<p>W centrum koncepcji znajduje si\u0119 <strong>krok<\/strong>, oznaczany jako <em>t<\/em>. Jest to zmienna dyskretna, a wi\u0119c przyjmuje warto\u015bci kolejnych liczb naturalnych. Kroki reprezentuj\u0105 nast\u0119puj\u0105ce po sobie okazje do nauki.<\/p>\n<p>\u015arodowisko jest reprezentowane przez wyczerpuj\u0105cy zbi\u00f3r zmiennych, nazywany <strong>stanem<\/strong>. Wszystkie mo\u017cliwe stany s\u0105 zebrane w <strong>przestrzeni stan\u00f3w<\/strong>, czyli w zbiorze oznaczanym jako <em>S<\/em>. Elementy tego zbioru s\u0105 oznaczane jako <em>s<\/em>. Stan \u015brodowiska w danym kroku oznaczamy jako <em>S<sub>t<\/sub><\/em>.<\/p>\n<p>Agent zazwyczaj nie ma dost\u0119pu do ka\u017cdej zmiennej opisuj\u0105cej \u015brodowisko \u2013 jego percepcja jest zapo\u015bredniczona <strong>obserwacjami<\/strong>. Obserwacja mo\u017ce by\u0107 podzbiorem stanu. Mo\u017ce te\u017c zawiera\u0107 zmienne spoza stanu, kt\u00f3re po odpowiednich przekszta\u0142ceniach ujawni\u0105 przybli\u017cone warto\u015bci zmiennych stanu.<\/p>\n<p>Dzia\u0142ania podejmowane przez agenta nosz\u0105 nazw\u0119 <strong>akcji<\/strong>. Wszystkie dost\u0119pne akcje zebrane s\u0105 w <strong>zbiorze akcji<\/strong>\u00a0oznaczanym jako <em>A<\/em>. Jego elementy oznaczamy jako <em>a<\/em>. Akcja wybrana przez agenta w danym kroku nosi oznaczenie <em>A<sub>t<\/sub><\/em>.<\/p>\n<p>Te elementy pozwalaj\u0105 zdefiniowa\u0107 funkcj\u0119 przej\u015bcia pomi\u0119dzy stanami w postaci <code>p(s\u2019|s,a)<\/code>. Okre\u015bla ona prawdopodobie\u0144stwo znalezienia si\u0119 w stanie <em>s\u2019<\/em>, zak\u0142adaj\u0105c, \u017ce w poprzednim stanie <em>s<\/em> wybrano akcj\u0119 <em>a<\/em>.<sup>[3]<\/sup><\/p>\n<p>Zauwa\u017cmy, \u017ce argumentem funkcji nie jest zbi\u00f3r informacji o wszystkich poprzednich interakcjach. Procesy spe\u0142niaj\u0105ce w\u0142asno\u015b\u0107 Markowa musz\u0105 by\u0107 zdolne wyznaczy\u0107 przysz\u0142y stan wy\u0142\u0105cznie na podstawie stanu obecnego i wybranej akcji, otrzymuj\u0105c taki sam rezultat, jak gdyby argument stanowi\u0142a pe\u0142na historia interakcji.<\/p>\n<h3>R\u00f3\u017cnorodno\u015b\u0107 algorytm\u00f3w \u2013 wiele dr\u00f3g do celu<\/h3>\n<p>Nie istnieje tylko jedna, liniowa recepta na stworzenie algorytmu uczenia przez wzmacnianie. Projektantka algorytmu mo\u017ce wprowadzi\u0107 szereg modyfikacji, by uzyska\u0107 jak najlepsz\u0105 reprezentacj\u0119 problemu. Jedn\u0105 z najwa\u017cniejszych decyzji jest wyb\u00f3r pomi\u0119dzy podej\u015bciem opartym na modelu (<em>model-based<\/em>) lub pozbawionym modelu (<em>model-free<\/em>).<\/p>\n<p>Algorytmy pozbawione modelu s\u0105 \u201erzucane na g\u0142\u0119bok\u0105 wod\u0119\u201d. Agent nie ma dost\u0119pu do \u017cadnej wiedzy dziedzinowej, kt\u00f3ra pomo\u017ce mu rozwi\u0105za\u0107 problem. Wszystkie przydatne regu\u0142y dzia\u0142ania zawarte w \u015brodowisku s\u0105 przyswajane w procesie uczenia si\u0119, z pomini\u0119ciem planowania.<sup>[1][5]<\/sup>\u00a0Przyk\u0142adem algorytmu\u00a0<em>model-free<\/em> jest Q-learning.<\/p>\n<p>Algorytmy oparte na modelu posiadaj\u0105 komponenty predykcyjne, dzi\u0119ki kt\u00f3rym agent zyskuje wiedz\u0119 o potencjalnych nagrodach tu\u017c przed danym ruchem. Te informacje mog\u0105 zosta\u0107 uwzgl\u0119dnione w decyzji, by z g\u00f3ry odrzuci\u0107 niekorzystne akcje i skupi\u0107 swoje zasoby na eksploracji najbardziej obiecuj\u0105cych wybor\u00f3w.<\/p>\n<h3>Dylematy techniczne w projektowaniu algorytm\u00f3w<\/h3>\n<p>Agent stara si\u0119 opracowa\u0107 strategi\u0119 maksymalizuj\u0105c\u0105 warto\u015b\u0107 otrzymanej nagrody. Jednak dzia\u0142anie, kt\u00f3re przyniesie kr\u00f3tkotrwa\u0142\u0105 nagrod\u0119 mo\u017ce nie by\u0107 tym samym, kt\u00f3re w d\u0142u\u017cszej perspektywie prowadzi do osi\u0105gni\u0119cia celu.<\/p>\n<p>We\u017amy przyk\u0142ad robota pokonuj\u0105cego tor z przeszkodami. Gdy w danej sekundzie pomniejsza on swoj\u0105 odleg\u0142o\u015b\u0107 do linii mety, uzyskuje nagrod\u0119; w przeciwnym wypadku jest karany. Co je\u017celi przeszkoda jest tak wysoka, \u017ce do jej pokonania potrzeba wzi\u0105\u0107 rozbieg? Cho\u0107 przez kilka sekund robot oddala si\u0119 od mety, to wysi\u0142ek ten jest wynagradzany ponownym p\u00f3j\u015bciem naprz\u00f3d, kt\u00f3re nie by\u0142oby mo\u017cliwe bez chwilowego po\u015bwi\u0119cenia. Je\u015bli agent przeceni wp\u0142yw chwilowej nagrody na efekt ko\u0144cowy, mo\u017ce przyj\u0105\u0107 strategi\u0119 omijania nawet bardzo szerokich przeszk\u00f3d, kt\u00f3re sumarycznie korzystniej by\u0142oby przeskoczy\u0107 (ruch w bok skutkuje nagrod\u0105 r\u00f3wn\u0105 0; ruch w ty\u0142 niesie za sob\u0105 ujemn\u0105 warto\u015b\u0107 nagrody).<\/p>\n<p>Ten problem nosi nazw\u0119 <em>exploration vs exploitation trade-off<\/em>. Agent, kt\u00f3ry za bardzo skupia si\u0119 na eksploatacji korzystnej strategii, zamyka si\u0119 na poszukiwanie nowych rozwi\u0105za\u0144. Mo\u017ce przez to przeoczy\u0107 pozornie mniej korzystn\u0105 strategi\u0119, kt\u00f3ra d\u0142ugofalowo wi\u0105\u017ce si\u0119 z wi\u0119ksz\u0105 nagrod\u0105.<\/p>\n<h2>Zastosowania uczenia przez wzmacnianie<\/h2>\n<p>Uczenie przez wzmacnianie jest bardzo wszechstronn\u0105 technik\u0105.\u00a0Najs\u0142ynniejsze zastosowania historyczne mia\u0142y zwi\u0105zek z nauk\u0105 gier planszowych, karcianych oraz prostych gier komputerowych.\u00a0Typow\u0105 dziedzin\u0105, kt\u00f3ra w pe\u0142ni wykorzystuje jego potencja\u0142, jest robotyka.<sup>[7]<\/sup> Uczenie przez wzmacnianie doskonale radzi sobie z takimi zadaniami jak zarz\u0105dzanie zasobami i optymalizacja, na przyk\u0142ad odci\u0105\u017cenie sieci energetycznych podczas nap\u0142ywu prosument\u00f3w, zarz\u0105dzanie \u015bwiat\u0142ami drogowymi oraz poprawa wydajno\u015bci sieci komputerowych.<sup>[5]<\/sup> Istniej\u0105 r\u00f3wnie\u017c implementacje na potrzeby test\u00f3w decyzji marketingowych.<\/p>\n<h2><img decoding=\"async\" class=\"alignnone size-medium wp-image-2166\" src=\"http:\/\/architeles.pl\/ethics\/wp-content\/uploads\/2022\/11\/IMG_2524-300x200.jpg\" alt=\"Robotyczna r\u0119ka uczy si\u0119 przewraca\u0107 nale\u015bniki.\" width=\"300\" height=\"200\" srcset=\"https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/IMG_2524-300x200.jpg 300w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/IMG_2524-75x50.jpg 75w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/IMG_2524.jpg 550w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/h2>\n<h2>Jakie wyzwania prezentuje uczenie przez wzmacnianie?<\/h2>\n<p>Podstawowym problemem uczenia przez wzmacnianie jest ogromna liczba pr\u00f3b, jakie musi wykona\u0107 agent, nim nauczy si\u0119 podstaw danego zagadnienia (tzw. <em>sample efficiency<\/em>). Mo\u017ce to stanowi\u0107 szczeg\u00f3ln\u0105 przeszkod\u0119 w warunkach \u015bwiata fizycznego &#8211; ka\u017cdy obiekt uszkodzony podczas uczenia oznacza du\u017ce wydatki i marnotrawstwo surowc\u00f3w. Pewn\u0105 odpowiedzi\u0105 na ten problem mo\u017ce by\u0107 wykorzystanie wirtualnych odwzorowa\u0144 \u015brodowiska podczas pierwszych etap\u00f3w nauki i przeniesienie nauki do miejsca docelowego, gdy dzia\u0142ania podejmowane przez agenta zyskaj\u0105 po\u017c\u0105dan\u0105 precyzj\u0119 czy te\u017c ostro\u017cno\u015b\u0107. Inne rozwi\u0105zanie stanowi\u0105 algorytmy imitacyjne (<em>imitation-based<\/em>), kt\u00f3re przyswajaj\u0105 postawy obserwuj\u0105c zachowanie eksperta podczas rozwi\u0105zywania problemu, a nast\u0119pnie wyruszaj\u0105 na samodzieln\u0105 eksploracj\u0119.<\/p>\n<p><figure id=\"attachment_2167\" aria-describedby=\"caption-attachment-2167\" style=\"width: 300px\" class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"size-medium wp-image-2167\" src=\"http:\/\/architeles.pl\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-300x133.webp\" alt=\"Algorytm PoWER vs algorytm ARCHER\" width=\"300\" height=\"133\" srcset=\"https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-300x133.webp 300w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-1024x456.webp 1024w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-768x342.webp 768w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-1536x683.webp 1536w, https:\/\/architeles.eu\/ethics\/wp-content\/uploads\/2022\/11\/D4FB8E81-6239-4302-8E3F-CF29CA8DF22D-2048x911.webp 2048w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><figcaption id=\"caption-attachment-2167\" class=\"wp-caption-text\">Algorytm \u0142uczniczy PoWER potrzebuje a\u017c 19 pr\u00f3b, by trafi\u0107 do celu. Algorytmowi ARCHER wystarcza ju\u017c 5 pr\u00f3b.[4]<\/figcaption><\/figure>G\u0142\u00f3wnym zagro\u017ceniem spo\u0142ecznym zwi\u0105zanym z uczeniem przez wzmacnianie jest jego skupienie na tym, co op\u0142acalne, przy potencjalnym pomini\u0119ciu tego, co w\u0142a\u015bciwe.<\/p>\n<p>\u0141atwo jest zdefiniowa\u0107 nagrod\u0119 reprezentuj\u0105c\u0105 wzrost przychod\u00f3w danego przedsi\u0119biorstwa, du\u017co trudniej natomiast przypisa\u0107 sekwencyjne reprezentacje liczbowe tak abstrakcyjnym kategoriom, jak &#8222;poprawa\/pogorszenie jako\u015bci ludzkiego \u017cycia&#8221;. Wymaga\u0142oby to prawdopodobnie szerokiej skali, cz\u0119sto wype\u0142nianych kwestionariuszy socjologicznych i psychologicznych, kt\u00f3re r\u00f3wnie\u017c mog\u0105 pomin\u0105\u0107 niekt\u00f3re ukryte b\u0105d\u017a rozci\u0105gni\u0119te w czasie aspekty.<\/p>\n<p>Agent o za\u0142o\u017conym zadaniu, lecz umieszczony nie w grze komputerowej, a w \u015bwiecie spo\u0142ecznym, nie wp\u0142ywa przecie\u017c wy\u0142\u0105cznie na te aspekty \u015brodowiska, kt\u00f3re uwzgl\u0119dnia jego funkcja nagrody. Jego obserwacje stanu \u015brodowiska mog\u0105 by\u0107 w ca\u0142o\u015bci nastawione na osi\u0105gni\u0119cie celu i ignorowa\u0107 szereg czynnik\u00f3w, kt\u00f3re by\u0107 mo\u017ce narzuci\u0142yby si\u0119 bardziej wszechstronnemu percepcyjnie cz\u0142owiekowi. Na przyk\u0142ad algorytm oceniaj\u0105cy copy marketingowe pod k\u0105tem zwi\u0119kszenia sprzeda\u017cy niekoniecznie b\u0119dzie wra\u017cliwy na zbyt sensacyjne czy polaryzuj\u0105ce tre\u015bci, kt\u00f3re co prawda przynios\u0105 zyski, ale sprawi\u0105 dyskomfort osobom postronnym. Dlatego istotna jest spo\u0142eczna kontrola nad algorytmami wykorzystywanymi w marketingu i mediach spo\u0142eczno\u015bciowych, wychodz\u0105ca poza ramy wewn\u0119trznych zespo\u0142\u00f3w etycznych danej firmy.<\/p>\n<p>Ciekawym aspektem spo\u0142ecznym jest spos\u00f3b, w jaki rozszerzaj\u0105ca si\u0119 wiedza o danej dziedzinie sztucznej inteligencji mo\u017ce wp\u0142ywa\u0107 na nasze postrzeganie i za\u0142o\u017cenia na temat inteligencji naturalnej. W niekt\u00f3rych \u017ar\u00f3d\u0142ach nt. uczenia przez wzmacnianie mo\u017cna spotka\u0107 przyk\u0142ady operacjonalizuj\u0105ce, na potrzeby dydaktyczne, ludzki organizm jako system uczenia maszynowego. Agentem jest w tym przypadku np. odpowiedni fragment p\u0142ata czo\u0142owego, natomiast neurony po\u015brednicz\u0105ce, eferentne i aferentne s\u0105 obejmowane kategori\u0105 \u015brodowiska. Dzi\u0119ki licznym analogiom pomi\u0119dzy sposobem uczenia si\u0119 dzieci i uczeniem przez wzmacnianie, nowe doniesienia o skuteczno\u015bci poszczeg\u00f3lnych podej\u015b\u0107 algorytmicznych wobec r\u00f3\u017cnych klas problem\u00f3w mog\u0105 stanowi\u0107 inspiracj\u0119 dla bada\u0144 pedagogicznych. Agent uczenia przez wzmacnianie m\u00f3g\u0142by te\u017c imitowa\u0107 wybory rynkowe cz\u0142owieka we wst\u0119pnym testowaniu hipotez z zakresu ekonomii behawioralnej i neuromarketingu.<\/p>\n<h2>Podsumowanie<\/h2>\n<ul>\n<li>Algorytm uczenia przez wzmacnianie dokonuje sekwencyjnej eksploracji otoczenia, by osi\u0105gn\u0105\u0107 postawiony przed nim cel.<\/li>\n<li>Cz\u0119\u015bci\u0105 systemu odpowiedzialn\u0105 za dokonywanie wybor\u00f3w jest <strong>agent<\/strong>. Wszystko w jego otoczeniu stanowi <strong>\u015brodowisko<\/strong>.<\/li>\n<li>Ten typ uczenia maszynowego znajduje zastosowanie przede wszystkim w dziedzinach robotyki, optymalizacji i zarz\u0105dzania. Wci\u0105\u017c powstaj\u0105 jednak innowacyjne, cz\u0119sto zaskakuj\u0105ce implementacje z innych sektor\u00f3w.<\/li>\n<\/ul>\n<h2>Bibliografia<\/h2>\n<ol>\n<li>Sutton, R. S., &amp; Barto, A. G. (2018). <em>Reinforcement learning: An introduction.<\/em> (2nd ed.). MIT press.<\/li>\n<li>Baer, T. (2019). <em>Understand, Manage And Prevent Algorythmic Bias. A Guide For Business Users And Data Scientists.<\/em> Apress.<\/li>\n<li>Morales, M. (2020). <em>Grokking deep reinforcement learning.<\/em> Manning Publications.<\/li>\n<li>Kormushev, P. et al. (2013). Reinforcement Learning in Robotics: Applications<br \/>\nand Real-World Challenges. <em>Robotics 2<\/em>(3).<\/li>\n<li>Winder, P. (2021). <em>Reinforcement learning: industrial applications of intelligent agents.<\/em> O\u2019Reilly.<\/li>\n<li>Thomas, P. S., &amp; Okal, B. (2015). <em>A notation for Markov decision processes.<\/em> <em>arXiv preprint arXiv:1512.09075.<\/em><\/li>\n<li>Polydoros, A.S., &amp; Nalpantidis, L. (2017). Survey of Model-Based Reinforcement Learning: Applications on Robotics. <em>Journal of Intelligent &amp; Robotic Systems 86<\/em>, 153\u2013173. https:\/\/doi.org\/10.1007\/s10846-017-0468-y<\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Gdy s\u0142yszymy o uczeniu maszynowym, od razu nasuwaj\u0105 si\u0119 na my\u015bl ogromne wolumeny danych ze \u015bwiata wirtualnego, przetwarzane w chmurze przez komercyjne aplikacje takie jak Amazon lub Spotify. Cz\u0119sto podejmuj\u0105 one decyzje biznesowe o du\u017cym stopniu abstrakcji, wyr\u0119czaj\u0105c w pracy analityk\u00f3w i marketingowc\u00f3w. Czy mog\u0142yby znale\u017a\u0107 zastosowanie w zadaniach tak podstawowych, jak nauka chodzenia? Poni\u017cszy [&hellip;]<\/p>\n","protected":false},"author":94,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[185],"tags":[193,188,192],"class_list":["post-2171","post","type-post","status-publish","format-standard","hentry","category-uj-2022-23","tag-robotyka","tag-uczenie-maszynowe","tag-uczenie-przez-wzmacnianie"],"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/posts\/2171","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/users\/94"}],"replies":[{"embeddable":true,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/comments?post=2171"}],"version-history":[{"count":2,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/posts\/2171\/revisions"}],"predecessor-version":[{"id":2196,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/posts\/2171\/revisions\/2196"}],"wp:attachment":[{"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/media?parent=2171"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/categories?post=2171"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/architeles.eu\/ethics\/index.php\/wp-json\/wp\/v2\/tags?post=2171"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}