Home » AGH 2025/26 » Krzywe zwierciadło w kodzie: Jak sztuczna inteligencja wymazuje mniejszości i utrwala nasze stereotypy

Krzywe zwierciadło w kodzie: Jak sztuczna inteligencja wymazuje mniejszości i utrwala nasze stereotypy

By Grzegorz Piśkorski and Michał Nożkiewicz in AGH 2025/26 on 25 maja, 2026

Spread the love

Przez dekady karmiono nas utopijną wizją technologii jako ostatecznego, obiektywnego arbitra. Wierzyliśmy, że komputery to chłodne, matematyczne narzędzia, całkowicie pozbawione ludzkich emocji, lęków i uprzedzeń. Dziś jednak, w dobie wykładniczego rozwoju sztucznej inteligencji, ten paradygmat ostatecznie upadł.

Zrozumieliśmy brutalną prawdę: algorytmy nie są neutralnymi obserwatorami rzeczywistości. Wielkie modele językowe, takie jak ChatGPT czy Gemini, oraz generatory obrazów pokroju Midjourney i DALL·E, stały się w istocie cyfrowym lustrem ludzkości. Ponieważ trenowano je na niewyobrażalnych ilościach danych pobranych z globalnej sieci, wchłonęły one nie tylko naszą wiedzę naukową, ale również najgłębiej zakorzenione stereotypy i systemowe nierówności.

Sytuacja, w której system odpowiedzialny za treści biznesowe, edukacyjne czy medyczne zaczyna systematycznie wymazywać określone grupy społeczne lub narzucać im krzywdzące cechy, przestała być tylko błędem w kodzie – stała się krytycznym zagrożeniem dla sprawiedliwości społecznej.

Czym właściwie jest algorytmiczny bias?

Zanim zanurkujemy w twarde dane empiryczne, musimy zrozumieć, z czym tak naprawdę mamy do czynienia. Kiedy w potocznym języku używamy słowa „uprzedzenie”, niemal automatycznie kojarzy nam się to z celowym działaniem, dyskryminacją lub złą wolą konkretnego człowieka. Wyobrażamy sobie programistę, który z premedytacją pisze kod faworyzujący jedną grupę społeczną kosztem innej.

W świecie wielkich modeli językowych (LLM) i wizualnych mechanizm ten wygląda zupełnie inaczej. Bias (algorytmiczne uprzedzenie) jest zjawiskiem niezwykle subtelnym, głęboko strukturalnym i – co najbardziej przerażające – matematycznie „logicznym” dla samej maszyny. Jest to emergentna właściwość skomplikowanych procesów optymalizacyjnych. Innymi słowy, algorytmy uczą się widzieć świat nie takim, jakim chcielibyśmy, żeby był, ale takim, jaki utrwaliliśmy w historii rozkładu władzy i nierówności.

Współczesna informatyka, czerpiąc garściami z nauk socjologicznych, wyodrębnia cztery główne, nieustannie przenikające się rodziny algorytmicznych uprzedzeń:

Bias historyczny (reprezentacyjny) – Brzemię przeszłości: To fundament problemu. Kiedy model analizuje miliardy tekstów, artykułów i książek z ostatnich dekad czy stuleci, naturalnie wychwytuje dawne, często niesprawiedliwe relacje społeczne. Modele językowe nie rozumieją znaczenia słów, lecz jedynie ich wektorową odległość od innych słów (tzw. osadzenie, word embeddings). Z tego powodu, jeśli historycznie kobiety rzadziej pojawiały się w kontekście technologicznym, algorytm matematycznie uzna, że słowo „kobieta” leży po prostu dalej od słów takich jak „inżynieria”, „przywództwo” czy „prezes” niż słowo „mężczyzna”. Narzędzia badawcze (takie jak testy WEAT) brutalnie obnażają, że w czołowych modelach (np. GPT-4) uprzedzenia kolonialne i rasowe wciąż mają się doskonale.
Bias selekcji i pomiaru – Skrzywione fundamenty: Ten błąd powstaje na najwcześniejszym etapie tworzenia AI, czyli podczas budowania, wybierania i etykietowania potężnych zbiorów danych (tzw. datasetów). Jeśli marginalizowana grupa nie zostanie uwzględniona w zbiorze danych, dla modelu po prostu przestaje istnieć.

Klasyczny przykład: System rekrutacyjny rozwijany niegdyś przez firmę Amazon. Algorytm był trenowany na życiorysach przesłanych do firmy na przestrzeni poprzedniej dekady. Ponieważ w tamtym czasie branża IT była w przytłaczającej większości męska, system z chłodną, statystyczną logiką „nauczył się”, że cechy męskie są bardziej pożądane. Efekt? Algorytm zaczął systematycznie obniżać oceny doskonałych CV tylko dlatego, że zawierały słowa takie jak „żeński” (np. „kapitanka żeńskiej drużyny”) lub nazwy szkół dla kobiet.
Bias algorytmiczny (optymalizacyjny) – Kalkulacja strat: Ten rodzaj dyskryminacji ujawnia się w momencie, gdy inżynierowie definiują cele dla sztucznej inteligencji. Modele generatywne to z natury maszyny, które mają za zadanie optymalizować prawdopodobieństwo i minimalizować margines błędu. Jeśli w kodzie nie narzuci się rygorystycznych ograniczeń dotyczących sprawiedliwości (tzw. fairness constraints), algorytmowi statystycznie bardziej „opłaca się” całkowicie ignorować rzadsze przypadki (mniejszości), aby osiągnąć wyższą ogólną trafność predykcji dla grupy większościowej. W imię wyższej wydajności, AI poświęca różnorodność.
Samowzmacniający się bias – Cyfrowy Uroboros: Eksperci ostrzegają, że to najbardziej niebezpieczne zjawisko ery generatywnej sztucznej inteligencji. Mamy z nim do czynienia tu i teraz. Codziennie modele takie jak ChatGPT, Claude czy Midjourney generują miliony artykułów, esejów i obrazów. Te syntetyczne treści błyskawicznie trafiają do globalnej sieci, stając się częścią internetu. Kiedy giganci technologiczni trenują nowe, kolejne generacje swoich algorytmów, zaciągają te dane z powrotem do systemu. Powstaje zamknięta pętla, tzw. cyfrowy Uroboros: sztuczne, uprzedzone wizje rzeczywistości wygenerowane przez maszyny stają się fundamentem „obiektywnej wiedzy” dla przyszłych maszyn, zniekształcając obraz świata nie do poznania.

Mityczny Uroboros w wersji zdygitalizowanej

Zrozumienie tych czterech wymiarów – swoistej ontologii algorytmicznego uprzedzenia – jest absolutnie niezbędne, abyśmy mogli poddać krytycznej ocenie treści, które codziennie serwują nam współczesne platformy. Skoro wiemy już, w jaki sposób sztuczna inteligencja niejako „uczy się” dyskryminacji na poziomie matematycznym, czas sprawdzić, jak te strukturalne wady manifestują się w praktyce.

Architektura wymazywania. Kto znika z obrazków wygenerowanych przez AI?

Narzędzia Text-to-Image (T2I), takie jak Midjourney, Stable Diffusion oraz rozwijany przez OpenAI system DALL·E, zrewolucjonizowały rynek kreatywny, edukacyjny i marketingowy. Analiza obrazów, które te modele produkują, dostarcza jednak przerażających dowodów na to, w jak ogromnym stopniu technologia ta uległa zjawisku systematycznego wymazywania i wyolbrzymiania naszych stereotypów tożsamościowych.

Aby to obiektywnie zmierzyć, na przełomie 2024 i 2025 roku zespoły badawcze zrezygnowały z wyrywkowych testów na rzecz zmasowanych, zautomatyzowanych audytów algorytmów.

Jak badano algorytmy? Metodyka „neutralnego zapytania”

Zespół badawczy z Carnegie Mellon University zrealizował gigantyczny audyt, którego metodyka opierała się na konfrontacji sztucznej inteligencji z tzw. neutralnymi płciowo promptami (zapytaniami). Zamiast sugerować modelowi konkretny wygląd postaci, inżynierowie wydawali proste polecenia wygenerowania portretów dla konkretnych grup zawodowych, pozostawiając algorytmowi całkowitą swobodę w doborze cech demograficznych.

W ten sposób wygenerowano i poddano analizie ponad osiem tysięcy portretów zawodowych w systemach Midjourney, Stable Diffusion oraz DALL·E 2. Następnie wyniki te rygorystycznie zestawiono z twardymi danymi amerykańskiego Bureau of Labor Statistics (BLS), co pozwoliło udowodnić, że generatywna AI nie odbija rzeczywistości jeden do jednego, lecz nakłada na nią gruby filtr historycznych zniekształceń.

Wyniki ukazały istnienie potężnego, podwójnego standardu – uprzedzenia skrzyżowanego, które uderza jednocześnie w płeć oraz pochodzenie etniczne:

W modelu Midjourney średni odsetek kobiet na wygenerowanych portretach zawodowych wyniósł zaledwie 23%, oddając 77% reprezentacji mężczyznom.
Co więcej, w ponad połowie zestawów obrazów (52%) wygenerowanych przez Midjourney nie pojawiła się absolutnie ani jedna postać kobieca.
W przypadku modelu Stable Diffusion kobiety stanowiły 35% generowanych postaci, a w systemie DALL·E 2 odsetek ten sięgnął 42%.
Dla porównania: wspomniane dane referencyjne BLS wykazują, że kobiety stanowią niemal 47% całkowitej siły roboczej.

Jeszcze gorzej sytuacja wygląda w przypadku mniejszości rasowych. Osoby czarnoskóre zostały niemal całkowicie wymazane z neutralnych narracji wizualnych: stanowiły zaledwie 2% reprezentacji w DALL·E 2, 5% w Stable Diffusion i 9% w Midjourney. To gigantyczna anomalia, biorąc pod uwagę, że na amerykańskim rynku pracy pracownicy czarnoskórzy to ponad 12% siły roboczej.

Zobrazowanie takiego krzywego zwierciadła – mimo neutralnego prompta dostaliśmy poprawne politycznie zdjęcie

Zjawisko wyolbrzymiania stereotypów na masową skalę

Kolejny, jeszcze głębszy poziom metodyki badawczej objął szeroko zakrojony audyt ponad półtora miliona person zawodowych. Objął on 41 profesji w Stanach Zjednoczonych i został wykonany za pomocą wielkich modeli językowych o różnych architekturach bezpieczeństwa. Skala tego badania udowodniła, że modele cierpią na zjawisko wyolbrzymiania stereotypów (stereotype exaggeration).

Jak to działa w praktyce? Kiedy algorytm zauważa drobną dysproporcję w rzeczywistych danych (np. lekką nadreprezentację danej grupy w jakimś zawodzie), automatycznie doprowadza ją do statystycznego ekstremum. Doskonałym i szokującym przykładem są zawody związane z utrzymaniem czystości – w przypadku pokojówek (housekeepers) badane modele wygenerowały wizerunki w niemal 100% przedstawiające osoby o latynoskim pochodzeniu etnicznym (Hispanic), wymazując jednocześnie osoby czarnoskóre z wielu innych profesji.

To uprzedzenie jest najsilniejsze na skrzyżowaniu płci i prestiżu zawodowego. Potwierdziło to precyzyjne badanie jednego z najnowszych modeli DALL·E 3 z 2025 roku, skupiające się wyłącznie na reprezentacji środowiska medycznego. Badacze przeanalizowali próbkę 44 obrazów (obejmujących zarówno portrety indywidualne, jak i ujęcia grupowe), na których znalazły się łącznie 123 postacie. Wynik neutralnego polecenia „wygeneruj wizerunek kardiologa” nie pozostawił złudzeń: algorytm w 86% przypadków stworzył mężczyzn, a w 93% przypisał im bardzo jasną karnację skóry.

Przykład takiego wyolbrzymienia stereotypów (w tym wypadku celowy)

Semantyka ciała, czyli jak AI programuje autorytet

Wizualna dyskryminacja w AI to jednak nie tylko surowe procenty z tabel badawczych, to również dyskretna „semantyka” wyrazu twarzy i mowy ciała. Badacze dostrzegli powtarzalny schemat: kobiety na wygenerowanych obrazach są znacznie częściej portretowane w sposób uległy, uśmiechnięty i łagodny emocjonalnie. Z kolei mężczyźni otrzymują wyraz twarzy neutralny lub nacechowany surowością i złością.

Dodatkowo postacie męskie w rolach zawodowych systematycznie otrzymują atrybuty fizyczne sugerujące starszy wiek oraz większy autorytet. W ten sposób sztuczna inteligencja, bazująca na archaicznych bankach zdjęć, niepostrzeżenie programuje w nowych pokoleniach przekaz, że naturalnym uosobieniem władzy i wiedzy specjalistycznej jest wyłącznie płeć męska.

Krótkie podsumowanie skali zjawiska

Aby uporządkować te uderzające dane zebrane przez badaczy, spójrzmy na zestawienie głównych graczy na rynku:

Model Generatywny	Średnia Reprezentacja Kobiet	Średnia Reprezentacja Osób Czarnoskórych	Dominujący Wzorzec Stereotypizacji Wizualnej
Midjourney	23%	9%	Atrybuty autorytetu, wieku i surowości twarzy zarezerwowane niemal wyłącznie dla postaci męskich.
Stable Diffusion	35%	5%	Głębokie osadzenie w historycznych stereotypach rasowych, wynikające z bezpośredniego trenowania na nieskorygowanych danych LAION.
DALL·E	42%	2%	Radykalne wymazanie mniejszości z zawodów specjalistycznych (np. w kardiologii 93% postaci wygenerowano jako osoby o jasnej karnacji).
Dane referencyjne (BLS)	46.8%	~12.6%	Rzeczywisty obraz współczesnego, zróżnicowanego amerykańskiego rynku pracy.

Guardrails i Reinforcement Learning: Sposoby mitygacji biasu

Zważywszy, że wielkie modele językowe wykazują strukturalną skłonność do powielania uprzedzeń osadzonych w historycznych danych treningowych, pojawia się fundamentalne pytanie: w jaki sposób inżynierowie mogą skutecznie kontrolować ich zachowanie? Proces mitygacji algorytmicznych uprzedzeń (tzw. debiasing) oraz korygowania niepożądanych generacji stanowi obecnie jedno z wyzwań badawczych w obszarze uczenia maszynowego.

Zanim przejdziemy do zaawansowanych algorytmów, warto zaznaczyć, że walka z biasem odbywa się na kilku frontach:

Filtrowanie danych treningowych (Pre-training): To pierwszy krok. Zamiast wrzucać do modelu cały internet, można się starać czyścić zbiory danych, balansując ich zawartość.
Supervised Fine-Tuning (SFT): Po wstępnym treningu model jest „douczany” na wysokiej jakości, starannie wyselekcjonowanych przykładach (np. idealnie napisanych, neutralnych i bezpiecznych odpowiedziach), co ukierunkowuje jego styl.
Mitygacja na etapie wnioskowania (Inference-time): To działania doraźne, takie jak wbudowane filtry słów zakazanych czy niewidoczne dla użytkownika modyfikacje promptów.

Jednak prawdziwą rewolucją, która zmieniła surowe generatory tekstu w uprzejmych asystentów (takich jak ChatGPT czy Claude), stało się Reinforcement Learning (Uczenie ze wzmocnieniem).

Reinforcement Learning po krótce: Od Maximum Likelihood do Funkcji Nagrody

What is reinforcement learning? | IBM

Reinforcement Learning feedback loop

Aby zrozumieć potęgę RL, musimy spojrzeć na to, jak model uczy się u samych podstaw. Standardowe modele (tzw. modele bazowe) są trenowane przy użyciu podejścia opartego na Maximum Likelihood Estimation (MLE). Ich funkcja kosztu optymalizuje tylko jedną rzecz: prawdopodobieństwo odgadnięcia kolejnego słowa w zdaniu. MLE to czysto statystyczna funkcja, która ukierunkowuje model tak, aby powtarzał najczęściej występujące w danym kontekście słowa.

Uczenie ze wzmocnieniem działa zupełnie inaczej, to proces zbliżony do tresury psa. Zamiast optymalizować zgadywanie kolejnego słowa na podstawie danych z sieci, wkracza tutaj funkcja nagradzająca (Reward Function). Model generuje odpowiedź, a następnie „algorytmiczny sędzia” (Reward Model) ocenia całą tę wypowiedź pod kątem tego, czy jest pomocna, bezpieczna i bezstronna. Za dobrą odpowiedź model dostaje nagrodę, za niepasującą do kryteriów – karę.

Dzięki temu system przestaje być statystyczną papugą, a zaczyna optymalizować swoje zachowanie pod kątem z góry narzuconych wartości.

RLHF i RLAIF: Ewolucja sędziów

Na początku złotym standardem była metoda RLHF (Reinforcement Learning from Human Feedback). Wymagała ona armii ludzkich ewaluatorów, którzy ręcznie oceniali tysiące odpowiedzi generowanych przez AI. To właśnie RLHF sprawiło, że dzisiejsze chatboty niemal zawsze witają się uprzejmie, rozbijają skomplikowane problemy na wypunktowane listy, używają pogrubień i starają się brzmieć obiektywnie. Model po prostu zauważył, że ludzie wyżej oceniają przejrzyste, ustrukturyzowane wizualnie teksty.

Niestety, ludzie bywają zmęczeni i mają własne uprzedzenia. Prowadziło to do „zapaści preferencji” (preference collapse) – model uśredniał odpowiedzi, dopasowując się do bezpiecznej przeciętności.

Dlatego dziś branża przechodzi na RLAIF (Reinforcement Learning from AI Feedback). Zamiast ludzi, odpowiedź ocenia inny model językowy wyposażony w nadrzędną „Konstytucję” (zbiór praw i zasad). Model ocenia ocenia wypowiedź pod kątem ewentualnej dyskryminacji czy innych kryteriów. Ostatecznie takie podejście jest także szybsze i tańsze.

Wpadka Gemini: Efekt wymuszonej różnorodności

Jednak nawet najlepsze intencje mogą zakończyć się spektakularną porażką, gdy algorytmy „przedobrzają”. Najlepszym i najbardziej pouczającym przypadkiem zjawiska, które nazywamy „pułapką nadkompensacji”, jest kryzys wizerunkowy generatora obrazów Google Gemini z początku 2024 roku.

Twórcy modułu graficznego doskonale wiedzieli, że standardowe modele dyfuzyjne cierpią na historyczny bias (np. rysując lekarzy niemal wyłącznie jako jasnoskórych mężczyzn). Postanowili temu zaradzić, stosując tzw. Dream World Approach – sztuczna inteligencja miała kreować świat zróżnicowany i utopijny, a nie odzwierciedlać historyczne nierówności.

Z technicznego punktu widzenia zastosowano agresywną modyfikację zapytania w tle (prompt injection). Kiedy użytkownik wpisywał: „wygeneruj zdjęcie lekarza”, system językowy Google niezauważalnie dopisywał do polecenia: „…zadbaj o to, by na zdjęciu znaleźli się przedstawiciele różnych ras i płci”.

Model był całkowicie pozbawiony wyczucia historycznego – jego dyrektywa o różnorodności była nadrzędna. Gdy użytkownicy wpisywali prośby o wygenerowanie wizerunków konkretnych postaci historycznych, prompt injection nadal działał bezlitośnie. W efekcie użytkownicy otrzymywali:

Fotorealistyczne obrazy czarnoskórych i azjatyckich żołnierzy Wehrmachtu z 1943 roku.
Zróżnicowanych etnicznie i płciowo Ojców Założycieli Stanów Zjednoczonych.
Średniowiecznych wikingów oraz dawnych papieży przedstawianych jako osoby reprezentujące współczesne mniejszości.

Algorytm stracił zdolność rozróżniania sytuacji, w których różnorodność jest pożądana (współczesne zawody), od tych, gdzie stanowi zafałszowanie prawdy materialnej. Internet zalała fala oburzenia, oskarżająca korporację o celowe przepisywanie historii.

Google musiało natychmiast wyłączyć funkcję generowania postaci ludzkich, a współzałożyciel firmy, Sergey Brin, publicznie przyznał, że firma „zdecydowanie to zepsuła”. Ten incydent pozostanie podręcznikowym przykładem tego, że walka z biasem nie może polegać na dodawaniu ukrytych linijek kodu zmuszających model do sztucznej różnorodności w każdym możliwym scenariuszu.

Google pauses AI-generated images of people after ethnicity criticism | AI (artificial intelligence) | The Guardian

Czterech żołnierzy Wehrmachtu wygenerowanych przez Google Gemini

Podsumowanie

Modele generatywne przebyły błyskawiczną drogę od ciekawostek laboratoryjnych do potężnych narzędzi kształtujących naszą rzeczywistość edukacyjną, prawną i wizualną. Jak udowadnia to śledztwo, utknęliśmy pomiędzy dwoma skrajnościami.

Z jednej strony – jeśli pozostawimy modele samym sobie i oprzemy je wyłącznie na Maximum Likelihood – staną się one soczewkami powiększającymi nasze wady i będą generować groźne halucynacje kulturowe.

Z drugiej strony – jeśli wdrożymy powierzchowne nakładki korygujące bez głębokiej zmiany architektury i zrozumienia kontekstu – doprowadzimy do toksycznej nadkompensacji i absurdalnego zakłamywania rzeczywistości, z którym zderzyło się Google.

Przyszłość generatywnej AI, nadzorowana przez nowe ramy prawne takie jak EU AI Act, nie leży w cenzurze, lecz w przejrzystości zbiorów danych szkoleniowych oraz inteligentnych architekturach.

Cytowane prace

Bias in AI systems: integrating formal and socio-technical approaches – Frontiers https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2025.1686452/full
On Artificial Intelligence: 'Existing biases that were already present are now just being replicated.’ – UNH Law Blog https://law.unh.edu/blog/2025/02/artificial-intelligence-existing-biases-were-already-present-are-now-just-being-replicated
Ethics & Bias Mitigation in AI and Algorithmic Decision Systems | by Daniel Damilare Ezekiel – Medium https://medium.com/@eddamilare/ethics-bias-mitigation-in-ai-and-algorithmic-decision-systems-bee1cbf635d2
Bias in Generative AI (Work in Progress) – Carnegie Mellon University https://www.andrew.cmu.edu/user/ales/cib/bias_in_gen_ai.pdf
Gender Bias in Text-to-Image Generative Artificial Intelligence When Representing Cardiologists – MDPI https://www.mdpi.com/2078-2489/15/10/594
Race and Gender in LLM-Generated Personas: A Large-Scale Audit of 41 Occupations – arXiv https://arxiv.org/html/2510.21011v1
Google Blog: Prabhakar Raghavan, „Gemini image generation got it wrong. We’ll do better.” (Luty 2024) – https://blog.google/products-and-platforms/products/gemini/gemini-image-generation-issue/
The Guardian: „‘We definitely messed up’: why did Google AI tool make offensive historical images?”) – https://www.theguardian.com/technology/2024/mar/08/we-definitely-messed-up-why-did-google-ai-tool-make-offensive-historical-images
Anthropic Research: „Constitutional AI: Harmlessness from AI Feedback” – https://arxiv.org/pdf/2212.08073
OpenAI Research: „Learning to summarize from human feedback” – https://arxiv.org/pdf/2009.01325

Tags: AI, dane, generowanie obrazów, generowanie tekstu, sztuczna inteligencja