Home » AGH 2025/26 » Etyczne projektowanie modeli językowych – jak ograniczać produkcję fałszywych i szkodliwych treści u źródła

Etyczne projektowanie modeli językowych – jak ograniczać produkcję fałszywych i szkodliwych treści u źródła

By Szymon Woźniak and Mikołaj Pajor in AGH 2025/26 on 28 kwietnia, 2026

Spread the love

Współczesne modele językowe (LLM) przestały być jedynie techniczną nowinką, stając się fundamentem cyfrowej komunikacji, asystentami pracy intelektualnej i nowymi repozytoriami ludzkiej wiedzy. Jednak ich zdolność do generowania niezwykle przekonujących, a zarazem całkowicie fałszywych lub głęboko szkodliwych treści, stawia przed inżynierami, socjologami i etykami jedno z największych wyzwań XXI wieku. Czy jesteśmy skazani na reaktywną cenzurę wyników „po fakcie”, czy też możemy zaprogramować etykę w samą tkankę algorytmu? W niniejszym artykule poddajemy krytycznej analizie paradygmat „safety by design”, badając, w jaki sposób wybory architektoniczne, selekcja danych treningowych oraz ramy wdrażania systemów dialogowych kształtują moralny kompas sztucznej inteligencji. Analizujemy drogę od prymitywnych nazi-botów po zaawansowane systemy „konstytucyjne”, stawiając pytanie o to, kto w świecie zdominowanym przez algorytmy posiada władzę nad definicją prawdy i szkodliwości.

Architektura zamiast cenzury: od przypadku Tay po bunt Groka

Etyka w modelach językowych najczęściej przebija się do świadomości publicznej w momentach spektakularnych porażek, które obnażają brak systemowych zabezpieczeń. Historia bota Tay od Microsoftu (2016), który w ciągu zaledwie doby przeszedł drogę od niewinnej symulacji nastolatki do apologety nazizmu i Hitlera, stanowi klasyczne memento dla badaczy AI. Pokazała ona, że model pozbawiony bezpieczników u źródła nie jest „neutralny”, lecz staje się stochastycznym lustrem najgorszych cech obecnych w danych, którymi jest karmiony. Współczesnym rewersem tej sytuacji jest Grok (xAI), pozycjonowany jako system „anty-woke”, co w praktyce często oznacza celowe luzowanie filtrów bezpieczeństwa w imię specyficznie rozumianej wolności słowa. Takie podejście rzuca wyzwanie fundamentom etycznym branży, sugerując, że „bezpieczeństwo” jest formą ideologicznego kagańca.

Jednak, jak wskazują Rivas i in. (2025) w pracy Chatbot Deployment Considerations for Application-Agnostic Human-Machine Dialogues, proces wdrażania chatbotów wymaga głębokiego namysłu nad samą dynamiką interakcji człowiek-maszyna, gdzie bezpieczeństwo i zaufanie nie są opcjonalnymi dodatkami, lecz integralnymi elementami architektury dialogu. Autorzy podkreślają, że bez rygorystycznych ram projektowych, systemy te mogą nieświadomie manipulować użytkownikiem lub wzmacniać polaryzację społeczną poprzez generowanie treści toksycznych (Rivas i in. 2025). Projektowanie typu safety by design oznacza zatem odejście od prostej, powierzchownej cenzury na rzecz tworzenia systemów, które – cytując Nicka Bostroma (2005) – wykazują „zgodność celów” (alignment) z wartościami ludzkimi już na poziomie fundamentalnych procesów generowania odpowiedzi. W tej perspektywie model, który odmawia wygenerowania mowy nienawiści, nie jest „ocenzurowany”, lecz poprawnie zaprojektowany pod kątem minimalizacji ryzyka społecznego

MechaHitler.exe Has Entered the Chat | by Donalda | AI Mind

Mechanika przewidywania: dlaczego AI nie wie że kłamie?

Zanim zagłębimy się w etykę, musimy odbrązowić jedną rzecz. Współczesny LLM nie myśli. Nie rozumie. Nie wie. To, co robi, jest jednocześnie banalniejsze i bardziej fascynujące: przewiduje statystycznie najbardziej prawdopodobny następny token (kawałek tekstu) na podstawie miliardów wcześniej widzianych przykładów.

Bender, Gebru i koledzy nazwali to w 2021 roku „stochastycznymi papugami” – i ta metafora przeszła do historii dyskursu o AI [Bender i in. 2021]. Papuga potrafi powtórzyć „kocham cię”, ale nie kocha. LLM potrafi napisać esej o Kancie, ale nie ma pojęcia, czym jest imperatyw kategoryczny – choć świetnie udaje.

Tu rodzi się kluczowy problem: halucynacje. Termin brzmi efektownie, ale jest mylący. Sugeruje, że model „się myli” jak człowiek, który źle zapamiętał. W rzeczywistości halucynacja nie jest błędem – jest logiczną konsekwencją tego, jak model działa. Model priorytetyzuje fluency (płynność) ponad veracity (prawdziwość). Innymi słowy: woli brzmieć przekonująco niż mówić prawdę. Brzmi znajomo? To samo robi przeciętny rozmówca w toksycznej dyskusji rodzinnej w święta.

Jak zauważają Rivas i współpracownicy w pracy Chatbot Deployment Considerations for Application-Agnostic Human-Machine Dialogues (2025), w systemach dialogowych halucynacje są szczególnie groźne, bo model „zmyśla z taką samą pewnością siebie, jak podaje fakty zweryfikowane” [Rivas i in. 2025]. Nie ma kursora niepewności. Nie ma chwili wahania. Jest tylko gładko brzmiąca odpowiedź – czasem prawdziwa, czasem totalnie wymyślona, a użytkownik nie ma jak rozróżnić, kiedy jest która.

Pytanie, które warto zadać już teraz: skoro model nie ma pojęcia o prawdzie, to czy w ogóle ma sens pytać go o cokolwiek poważnego? A jeśli już pytamy – kto ponosi odpowiedzialność za jego odpowiedzi?

„Jesteś tym, co jesz” – selekcja danych jako pierwszy akt etyczny

Jeśli LLM jest lustrem swoich danych treningowych, to fundamentalnym pytaniem etycznym staje się: czyje lustro budujemy?

Większość dużych modeli jest trenowana na zbiorach takich jak Common Crawl – gigantycznych skrobakach internetu, które zbierają wszystko, co znajdą: artykuły naukowe i fora incelów, encyklopedie i komentarze pod YouTube’em, archiwa bibliotek i zapomniane blogi z 2007 roku, na których ktoś kogoś nazywał idiotą. To jest „dieta” naszej AI.

Kate Crawford w Atlasie AI (2021) pokazuje brutalnie, że „czystych” danych nie ma. Każda decyzja o tym, co włączyć, a co odrzucić, jest decyzją polityczną, kulturową i etyczną – nawet jeśli inżynier nazywa ją „filtrowaniem szumu” [Crawford 2021]. To kuratorstwo, nie technika.

Konsekwencje? Bardzo konkretne:

Modele trenowane głównie na anglojęzycznym internecie nieświadomie reprodukują zachodniocentryczną perspektywę. Pytanie o etykę pracy uzyska odpowiedź zabarwioną protestantyzmem; pytanie o rodzinę – amerykańską klasą średnią z lat 90.
Przedstawiciele społeczności słabo reprezentowanych w sieci (języki rdzenne, kultury Globalnego Południa, mniejszości językowe) stają się niewidzialni – albo, co gorsze, są reprezentowani głównie przez teksty pisane o nich, nie przez nich.
Uprzedzenia historyczne (rasowe, płciowe, klasowe) nie są „wadą”, którą model nabył przypadkiem – są statystycznie wyrytą prawdą o korpusie tekstów, na którym się uczył. Model nie jest seksistą z przekonania. Jest seksistą z liczby wystąpień.

Wniosek dla projektanta: etyka u źródła zaczyna się przed treningiem, nie po. Decyzja o tym, czego model się nie nauczy, jest równie ważna jak decyzja o tym, czego się nauczy.

Cena czystości – RLHF i traumatyczna praca u podstaw

Załóżmy, że już mamy nasze (nigdy w pełni czyste) dane. Czas dostroić model do ludzkich wartości. Standardową metodą jest RLHF – Reinforcement Learning from Human Feedback. Brzmi czysto, technicznie, sterylnie. W praktyce wygląda tak:

Tysiące ludzi siedzi przed ekranami i ocenia odpowiedzi modelu. Karzą go za toksyczność, nagradzają za pomocność. Aby jednak model nauczył się, czego nie robić, ktoś musi mu najpierw pokazać, czym jest toksyczność. Ten ktoś musi przeczytać tysiące opisów tortur, przemocy seksualnej, rasizmu i nadużyć – by oznaczyć je jako „złe”.

W styczniu 2023 roku magazyn Time opublikował reportaż, który wstrząsnął branżą: pracownicy firmy Sama w Kenii, zatrudnieni przez OpenAI do oczyszczenia ChatGPT, zarabiali mniej niż 2 dolary za godzinę za czytanie najgorszych treści z internetu [Time 2023]. Wielu z nich zgłosiło objawy PTSD. Etyka cyfrowych asystentów Doliny Krzemowej została zbudowana na traumie pracowników Globalnego Południa.

To brutalna gra językowa, ale prawdziwa: zachodnia AI została „oczyszczona” cudzymi rękami.

Odpowiedzią – przynajmniej częściową – jest podejście Anthropic, znane jako Constitutional AI [Anthropic 2023]. Zamiast zatrudniać tysiące ludzi do filtrowania toksycznych treści, model dostaje jawny zestaw zasad – „konstytucję” – i drugi model AI ocenia, czy odpowiedzi są z nią zgodne. To pętla samodoskonalenia oparta na deklarowanych zasadach, nie na milczącym ocenianiu.

Czy to rozwiązuje problem? Nie do końca. Bo ktoś musi napisać tę konstytucję. I tu dochodzimy do najtrudniejszego pytania całej dyskusji.

Kto pisze konstytucję? Polityczny wymiar „bezpieczeństwa”

Tu robi się ciekawie – i niewygodnie.

Kiedy mówimy „bezpieczna AI”, pytanie brzmi: bezpieczna dla kogo? Bo jak pokazują dwa skrajne przypadki:

Po jednej stronie: chiński model DeepSeek, który musi być „zgodny z podstawowymi wartościami socjalistycznymi”. W praktyce oznacza to, że gdy zapytasz go o wydarzenia z Placu Tiananmen z 1989 roku, model przerywa generowanie tekstu, kasuje odpowiedź lub udziela wymijającej formuły [MIT Technology Review 2024]. „Bezpieczeństwo” zostaje przedefiniowane jako bezpieczeństwo państwa.

Po drugiej stronie: Grok od xAI, pozycjonowany jako system „anty-woke”, w którym celowo poluzowano filtry w imię „wolności słowa”. Efekt? Model regularnie generuje treści, które inne systemy odrzucają – nie z głupoty, lecz z założenia projektowego.

Michel Foucault nie żyje, ale jego duch unosi się nad tą dyskusją: wiedza i władza są nierozłączne. Ten, kto kontroluje infrastrukturę danych i reguły moderacji, kontroluje zakres tego, co maszyna może powiedzieć – a w coraz większym stopniu, co my możemy pomyśleć, kiedy nasz pierwszy odruch to zapytanie czatbota.

I teraz uwaga: to nie jest tylko problem Chin. Każda korporacja, która szkoli LLM, podejmuje decyzje, które są jednocześnie etyczne i polityczne – czy chce tego, czy nie. Co model uważa za „kontrowersyjne”? Czy odpowie pytaniem o gospodarkę socjalistyczną z entuzjazmem czy z dystansem? Czy pominie pewne narracje historyczne? Każdy filtr jest manifestem.

Rivas i współpracownicy (2025) sugerują, że jedyną drogą wyjścia z tego błędnego koła jest transparentność: jawne, audytowalne ramy projektowe, które pozwalają użytkownikowi zrozumieć, co system promuje, a co tłumi [Rivas i in. 2025]. Coraz większą rolę odgrywają tu modele typu Open Weights (rodziny Llama czy Mistral), gdzie społeczność może audytować wagi i – w razie potrzeby – usuwać niepożądane „naleciałości”.

Deepseek AI from China is mighty impressive. But you need to be cognisant of who is pulling the strings. 'What happened in Tiananmen Square in 1989? Sorry, I'm not sure how to

Architektura zamiast cenzury – „safety by design”

Wracamy do tytułu artykułu. Etyka u źródła to nie cenzura. To filozofia projektowania.

Różnica jest fundamentalna:

Cenzura po fakcie	Safety by design
Model generuje wszystko	Model nie chce generować szkodliwego
Filtr blokuje wyjście	Architektura zniechęca do wejścia
Reaktywne	Proaktywne
Łatwe do obejścia	Wbudowane w mechanizmy decyzyjne
Skutek uboczny: PR-owy plaster	Skutek uboczny: model staje się przewidywalny

W tym rozumieniu, kiedy model odmawia pomocy w napisaniu mowy nienawiści, nie jest „ocenzurowany” – jest dobrze zaprojektowany. Tak jak samochód, który ma pasy bezpieczeństwa, nie jest „ocenzurowany” w stosunku do samochodu, który ich nie ma. Po prostu inżynier pomyślał wcześniej.

Rivas i współpracownicy (2025) podkreślają, że bezpieczeństwo i zaufanie nie mogą być opcjonalnymi dodatkami – muszą być integralną częścią architektury dialogu od pierwszego dnia projektowania [Rivas i in. 2025]. To ważne stwierdzenie, bo branża zbyt długo traktowała etykę jak dział marketingu: coś, czym zajmiemy się, kiedy produkt już działa.

Ale jest jeszcze jedna pułapka, o której rzadko się mówi. Jeśli „safety by design” oznacza, że projektant decyduje, co model będzie chciał robić, to kim jest projektant? I – co jeszcze ważniejsze – kto go kontroluje?

To nie jest pytanie retoryczne. To jest pytanie o przyszłość demokracji, w której coraz więcej decyzji informacyjnych zapada w zamkniętych laboratoriach kilku korporacji.

Lustro, kompas i odrobina pokory

Wracamy do Tay. Tamten bot był lustrem – odbijał, co dostał. Współczesne modele są lustrami z filtrem, a najnowsze próbują być kompasami – narzędziami, które nie tylko nie szkodzą, ale aktywnie pomagają poruszać się w skomplikowanym świecie informacji.

Ale każdy kompas wskazuje północ, którą ktoś zdefiniował. I to jest kluczowy wniosek tego artykułu: etyczne projektowanie modeli językowych nie jest problemem czysto technicznym. Jest problemem politycznym, kulturowym, psychologicznym i – w dużej mierze – pokornym.

Pokornym, bo nie ma idealnej konstytucji dla maszyny. Nie ma „neutralnego” zbioru danych. Nie ma filtra, który zadowoliłby wszystkich. Jest tylko ciągłe negocjowanie kompromisów – najlepiej na widoku, w warunkach społecznej kontroli.

Bo jeśli pozwolimy, by te decyzje zapadały w ciszy laboratoriów, to za dziesięć lat przyszli studenci będą oglądać nasze obecne dyskusje tak, jak my dziś oglądamy historię Tay: z mieszanką czułości i niedowierzania, że można było być tak naiwnym.

A teraz pytanie do Was – gdybyście mieli napisać jedno zdanie konstytucji dla AI – co byście tam wpisali?

I drugie, trudniejsze: a kto miałby prawo je zmienić?

Literatura

Bostrom, N. (2005). Transhumanist values. Journal of philosophical research, 30(Supplement), 3-14.
Rivas, P., Chelsi, C., Nishit, N., & Ravula, L. (2025). Chatbot Deployment Considerations for Application-Agnostic Human-Machine Dialogues. arXiv. https://arxiv.org/html/2509.02611v1
Eubanks, V. (2018). Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor. St. Martin’s Press.
Crawford, K. (2021). The Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press.
Bostrom, N. (2005). Transhumanist values. Journal of philosophical research, 30(Supplement), 3-14
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623.
Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. https://www.anthropic.com/news/constitutional-ai
Time. (2023). OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic. https://time.com/6247678/openai-chatgpt-kenya-workers/
MIT Technology Review. (2024). How China is using AI to strengthen its censorship. https://www.technologyreview.com/

Tags: AI, Etyka, fake news, sztuczna inteligencja