Home » AGH 2024/25 » Benchmarking w analizie wielkich modeli językowych – wykrywanie biasów dotyczących płci, rasy, narodowości oraz preferencji seksualnych w generowanych treściach

Tagi

Wyróżnione posty

Zobacz też

Statystyki

  • 215
  • 1 447
  • 45 701
  • 15 892
  • 65

Benchmarking w analizie wielkich modeli językowych – wykrywanie biasów dotyczących płci, rasy, narodowości oraz preferencji seksualnych w generowanych treściach

Spread the love

Wielkie modele językowe (LLM – Large Language Models, takie jak GPT, Gemini czy Claude) odgrywają coraz większą rolę w komunikacji, edukacji, biznesie, badaniach naukowych i wielu innych obszarach życia codziennego. Algorytmy sztucznej inteligencji coraz częściej wpływają na decyzje mające realne konsekwencje społeczne. W związku z tym, oprócz oceny ich skuteczności i funkcjonalności, rośnie potrzeba analiza uprzedzeń (biasów) obecnych w generowanych treściach — dotyczących płci, rasy, narodowości oraz preferencji seksualnych.

Wprowadzenie

Definicja biasu w kontekście LLM
Bias w modelach językowych odnosi się do systematycznych uprzedzeń obecnych w danych treningowych, które model może następnie reprodukować w generowanych treściach. Te uprzedzenia mogą obejmować różnorodne aspekty i wpływać na sposób, w jaki model interpretuje oraz produkuje tekst.

Kategorie biasu w LLM
Zgodnie z literaturą naukową, bias w LLM można podzielić na:

  1. Bias wewnętrzny (intrinsic bias): Wynika z danych treningowych oraz architektury modelu.

  2. Bias zewnętrzny (extrinsic bias): Pojawia się podczas stosowania modelu w rzeczywistych zadaniach, gdzie interakcje z użytkownikami lub konkretne konteksty mogą ujawniać lub wzmacniać istniejące uprzedzenia.

Znaczenie problemu
Uprzedzenia w LLM mają poważne konsekwencje społeczne i etyczne, ponieważ mogą prowadzić do dyskryminacji, utrwalania stereotypów oraz marginalizacji określonych grup społecznych. Modele generujące treści oparte na wadliwych danych mogą wpływać na decyzje w kluczowych dziedzinach życia, takich jak rekrutacja, prawo, czy opieka zdrowotna, co rodzi pytania o sprawiedliwość i odpowiedzialność ich twórców.

AI BIas

Benchmarking w kontekście LLM
Systematyczna ocena i porównywanie wyników modelu względem zdefiniowanych standardów, odgrywa kluczową rolę w identyfikacji i redukcji tych uprzedzeń. Dzięki dobrze zaplanowanym procesom oceny, możliwe jest wykrywanie błędów systematycznych oraz wprowadzanie ulepszeń, które mogą sprawić, że modele będą bardziej sprawiedliwe i neutralne w generowanych treściach.

Źródła uprzedzeń w modelach językowych

LLM są trenowane na ogromnych zbiorach danych, które pochodzą głównie z internetu, książek, artykułów naukowych oraz mediów społecznościowych. Jeśli w danych treningowych znajdują się treści zawierające uprzedzenia lub stereotypy, model je przyswaja i odtwarza w generowanych odpowiedziach. Jednak, jak zauważyli autorzy raportu There’s More to AI Bias Than Biased Data, uprzedzenia w systemach sztucznej inteligencji nie wynikają wyłącznie z błędnych danych treningowych czy algorytmów, ale są również zakorzenione w ludzkich i systemowych uprzedzeniach obecnych w społeczeństwie.

Kluczowe wnioski z raportu

Kategorie Uprzedzeń NIST

  • Znaczenie kontekstu społecznego: Raport podkreśla, że systemy AI nie działają w izolacji, lecz są częścią szerszego kontekstu społecznego. Dlatego też techniczne podejścia do eliminowania uprzedzeń są niewystarczające bez uwzględnienia czynników społecznych i instytucjonalnych.

  • Podejście społeczno-techniczne: NIST zaleca przyjęcie podejścia społeczno-technicznego do identyfikacji i zarządzania uprzedzeniami w AI. Oznacza to integrację wiedzy z różnych dziedzin, takich jak socjologia, psychologia czy etyka, w procesie projektowania, wdrażania i oceny systemów AI.

  • Rekomendacje praktyczne: Organizacja sugeruje m.in. wdrażanie procesów testowania i walidacji systemów AI z udziałem różnorodnych interesariuszy oraz promowanie modeli „człowiek w pętli”, gdzie decyzje AI są monitorowane i weryfikowane przez ludzi.

Analiza przypadków

Bias płciowy

Badanie „Man is to computer programmer as woman is to homemaker?” pokazuje, jak modele językowe mogą nieświadomie odzwierciedlać stereotypy płciowe, w tym przypisywanie tradycyjnych ról płciowych — takich jak „programista” dla mężczyzn i „gospodyni domowa” dla kobiet. Takie tendencyjne reprezentacje słów prowadzą do generowania treści, które mogą utrwalać stereotypy i np. ograniczać szanse kobiet w zawodach technicznych.

Z kolei autorzy pracy „Men also like shopping” koncentrują się na amplifikacji uprzedzeń płciowych w LLM, szczególnie w kontekście generowania treści, które mogą wzmacniać stereotypy. Wskazują oni, że modele językowe mogą faworyzować jedną płeć w określonych rolach społecznych (tytułowe zakupy), co podkreśla potrzebę wprowadzenia technik de-biasingu.

Bias rasowy i etniczny

W jednym z badań opublikowanych w czasopiśmie AI & Society, model GPT-3 generował odpowiedzi, które były zgodne z negatywnymi stereotypami rasowymi, sugerując m.in., że osoby czarnoskóre są bardziej skłonne do popełniania przestępstw. Podobnie, w badaniu przeprowadzonym przez University of Washington wykazano, że systemy AI przypisują określone negatywne cechy, jak np. „agresywność”, do osób z określonych grup etnicznych.

Bias narodowościowy

W tym samym badaniu przeprowadzonym przez University of Washington, które dotyczyło modelu GPT-3, zauważono, że model wykazywał uprzedzenia narodowościowe, generując treści, które stereotypowo przypisywały pewne cechy ludziom z krajów takich jak Nigeria czy Afganistan. Przykładowo, model często generował teksty, które sugerowały, że osoby z tych krajów są biedne, brutalne lub niedoedukowane, co jest przykładem negatywnego biasu narodowościowego.

Inny bias narodowościowy wykazano w badaniu How AI Models Reinforce National Stereotypes przez Princeton University (2021), gdzie systemy AI, w tym modele językowe, były testowane pod kątem ich reprezentacji narodowościowej. Okazało się, że modele te częściej przypisywały pozytywne cechy (np. inteligencję, ambicję) osobom z krajów zachodnich, takich jak USA, Wielka Brytania czy Niemcy, podczas gdy osoby z krajów Azji Południowej czy Afryki były przedstawiane w sposób mniej pochlebny (np. „biedni”, „mało wykształceni”).

Bias dotyczący orientacji seksualnej

W badaniach przeprowadzonych przez AI Now Institute (2019), zwrócono uwagę, że modele generowały treści, w których społeczność LGBTQ+ była rzadko reprezentowana, a jeśli już, to często w sposób negatywny lub stereotypowy. Na przykład, w niektórych przypadkach model generował treści, które bagatelizowały tożsamość płciową lub orientację seksualną, co powodowało wykluczenie tej grupy z dyskusji.

Artykuł Fairness for unobserved characteristics wskazuje, że systemy AI często pomijają cechy takie jak orientacja seksualna i tożsamość płciowa, ponieważ nie są one łatwo mierzalne ani oznaczane w danych. Autorzy podkreślają, że taka niewidoczność nie oznacza braku wpływu – wręcz przeciwnie, queerowe społeczności często doświadczają pośrednich szkód. Proponowane są metody oceny sprawiedliwości bez konieczności identyfikacji wrażliwych danych, z wykorzystaniem podejść etycznych i partycypacyjnych.

Autorzy reprezentujący inicjatywę Queer in AI argumentują, że zarządzanie ryzykiem w AI wymaga uwzględnienia doświadczeń marginalizowanych społeczności. Tekst promuje inkluzywne praktyki rozwoju technologii, oparte na zasadach sprawiedliwości społecznej, projektowania partycypacyjnego i transparentności. Zwraca uwagę na znaczenie tworzenia przestrzeni dla queerowych głosów w debacie nad etyką AI.

Badanie przeprowadzone przez Carnegie Mellon University analizuje, jak duże modele językowe wzmacniają stereotypy związane z tożsamością seksualną. Autorzy pokazują, że modele często wiążą queerowe tożsamości z negatywnymi lub hiperseksualizującymi kontekstami. Wskazują na potrzebę kuracji danych treningowych i rozwijania metod redukcji biasu w celu poprawy reprezentacji queerowych użytkowników.

Warstwa językowa

Bias wobec użytkowników posługujących się afroamerykańskim angielskim (AAVE)

Badanie przeprowadzone przez zespół z Uniwersytetu Kalifornijskiego w Berkeley wykazało, że modele takie jak ChatGPT (GPT-3.5 i GPT-4) przejawiają systematyczne uprzedzenia wobec użytkowników posługujących się afroamerykańskim angielskim (AAVE) oraz innymi odmianami języka angielskiego, takimi jak nigeryjski, indyjski czy jamajski. W porównaniu do standardowego amerykańskiego angielskiego, odpowiedzi modeli na zapytania w tych odmianach języka były:

  • o 19% bardziej nacechowane stereotypami,

  • o 25% bardziej obraźliwe,

  • o 9% mniej zrozumiałe,

  • o 15% bardziej protekcjonalne.

Co więcej, próby dostosowania stylu odpowiedzi do odmiany językowej użytkownika często pogłębiały te problemy.

Dodatkowo, raport opublikowany przez The Guardian podkreśla, że zaawansowane narzędzia AI, takie jak ChatGPT i Gemini, wykazują coraz bardziej subtelne formy rasizmu, szczególnie wobec użytkowników posługujących się AAVE. Badacze z Allen Institute for Artificial Intelligence stwierdzili, że te modele AI utrzymują uprzedzone stereotypy wobec użytkowników AAVE, co może wpływać na ich szanse na zatrudnienie oraz decyzje sądowe.

Nadmierna reprezentacja języków o dużych zasobach

Modele językowe są zazwyczaj trenowane na obszernych korpusach tekstów w językach o dużych zasobach, takich jak angielski czy chiński. To prowadzi do sytuacji, w której około 6 miliardów rodzimych użytkowników innych języków jest marginalizowanych przez te technologie. Przykładowo, ChatGPT, mimo że potrafi odpowiadać w wielu językach, często lepiej radzi sobie z pytaniami w językach dominujących, co może prowadzić do nierówności w dostępie do informacji i technologii.

Ponadto, badanie opublikowane w Journal of Data and Information Quality wskazuje, że wybór danych treningowych, takich jak Wikipedia, może wprowadzać uprzedzenia, ponieważ niektóre tematy są nadreprezentowane, podczas gdy inne są pomijane. To może prowadzić do nierównomiernego rozwoju modeli językowych i ich zdolności do obsługi różnych języków i tematów.

Różnice w odpowiedziach w zależności od języka zapytania

Badania opublikowane w Journal of Computational Social Science wykazały, że modele językowe mogą udzielać różnych odpowiedzi na to samo pytanie w zależności od języka, w którym zostało zadane. Na przykład, modele takie jak Llama3-70B wykazywały większe skłonności do udzielania jednoznacznych odpowiedzi na kontrowersyjne tematy w języku niemieckim, podczas gdy w języku angielskim były bardziej neutralne. Może to wynikać z różnic w danych treningowych oraz z niuansów językowych wpływających na interpretację pytań i formułowanie odpowiedzi.

Metody wykrywania biasów

Analiza stereotypowych skojarzeń

Jednym z najprostszych sposobów wykrywania biasów w LLM jest przeprowadzenie analizy stereotypowych skojarzeń. Badacze tworzą zestawy testowe zawierające zdania lub frazy, które mają na celu ujawnienie stereotypowych skojarzeń związanych z określonymi grupami demograficznymi, takimi jak płeć, rasa, narodowość czy orientacja seksualna. W ramach tych testów modele językowe są oceniane pod kątem tendencji do przypisywania określonych cech, zawodów lub ról społecznych jednej płci, rasie lub innej grupie.

Przykład
Badanie przeprowadzone przez University of Oxford zatytułowane „Bias Out-of-the-Box” wykazało, że model GPT-2 przypisywał określone zawody głównie jednej płci. Na przykład, w generowanych treściach, mężczyźni byli częściej kojarzeni z rolami inżynierów, naukowców czy kierowców, a kobiety – z rolami nauczycielek, pielęgniarek czy sekretarek. Takie wyniki sugerują, że model powiela tradycyjne stereotypy płciowe obecne w danych treningowych.

Testy na specjalnych zbiorach danych

W odpowiedzi na rosnącą potrzebę oceny biasów w LLM, powstały specjalne benchmarki i zbiory danych stworzone specjalnie w celu mierzenia uprzedzeń w modelach językowych. Najpopularniejsze z nich to StereoSet i WinoBias. Oba zbiory zawierają zestawy testowe zaprojektowane do wykrywania stereotypów dotyczących takich cech jak płeć, rasa, narodowość, wiek czy religia.

  • StereoSet – Zawiera zestaw przykładów mających na celu ocenę, w jakim stopniu model reprodukuje stereotypy związane z płcią i rasą. Testy polegają na sprawdzaniu, czy model przywiązuje stereotypowe cechy do danych grup (np. przypisując kobiecie cechy „opiekuńczości” lub „emocjonalności”, a mężczyźnie cechy „logiczności” lub „zaradności”).

StereoSet

  • WinoBias – Jest narzędziem stworzonym do wykrywania uprzedzeń w kontekście przyimków i relacji w generowanych treściach. Używa testów porównawczych, aby zobaczyć, jak różne modele przypisują płeć, rasę czy narodowość do wybranych obiektów i osób w tekstach.

    WinoBias


Metryki oceny biasów

Metryki ilościowe

WEAT

Mierzy, jak łatwo model przypisuje pozytywne lub negatywne skojarzenia do określonych grup demograficznych. Mierzy siłę skojarzeń między dwiema kategoriami słów (np. mężczyzna vs. kobieta) i dwiema kategoriami cech (np. kariera vs. rodzina). W ramach omawianego badania przeprowadzono 8 testów.

WEAT

Bias Score

Ogólne określenie miary (metryki) służącej do ilościowej oceny stronniczości (biasu) w modelach uczenia maszynowego lub danych. W przeciwieństwie do konkretnych metryk, takich jak WEAT, termin „Bias Score” nie odnosi się do jednej, ściśle zdefiniowanej formuły – raczej do grupy wskaźników używanych w różnych kontekstach. Przykłady to m.in. Fairness Score, BERTScore, BEATS.Bias Score

Mitygacja problemu biasów w LLM

Strategie redukcji biasów

Metody mitygacji problemu biasów w LLM

  • Podejścia techniczne:
    • Debiasing danych treningowych: Usuwanie lub balansowanie uprzedzeń w danych wejściowych.
    • Fine-tuning z użyciem zrównoważonych danych: Dostosowywanie modelu na danych wolnych od uprzedzeń.
    • Użycie adapterów debiasujących: Wprowadzenie warstw w modelu redukujących uprzedzenia.
  • Podejścia organizacyjne:
    • Transparentność w procesie tworzenia modeli: Dokumentowanie źródeł danych i metod treningu.
    • Współpraca z różnorodnymi społecznościami: Uwzględnianie perspektyw różnych grup społecznych w procesie tworzenia i testowania modeli.

Mitygacja na poziomie danych (pre-processing)

a) Curacja i balansowanie danych

Usuwanie lub równoważenie uprzedzeń w danych treningowych poprzez:

  • Usuwanie stronniczych przykładów: Identyfikacja i eliminacja danych zawierających uprzedzenia.
  • Balansowanie reprezentacji: Zapewnienie równowagi w reprezentacji różnych grup społecznych.
  • Augmentacja danych: Tworzenie syntetycznych przykładów dla niedoreprezentowanych grup.

Badania wskazują, że takie podejścia mogą skutecznie redukować biasy w LLM, jednak wymagają starannego doboru danych i metod augmentacji .

b) Counterfactual Data Augmentation (CDA)

Tworzenie par zdań różniących się tylko jedną cechą (np. płcią), aby model uczył się neutralnych reprezentacji.

Przykład:

  • „On jest lekarzem.” vs. „Ona jest lekarzem.”

CDA pomaga w identyfikacji i redukcji uprzedzeń związanych z konkretnymi cechami.


Mitygacja podczas treningu (in-training)

a) Adversarial Training

Wprowadzenie przeciwnika (adversary), który stara się wykryć uprzedzenia w modelu, zmuszając model do nauki bardziej neutralnych reprezentacji.

Takie podejście może skutecznie redukować biasy, ale wymaga dodatkowych zasobów obliczeniowych.

b) Regularization Techniques

Dodanie do funkcji straty komponentów penalizujących uprzedzenia, np. poprzez:

  • Fairness Constraints: Ograniczenia zapewniające równość w przewidywaniach dla różnych grup.
  • Debiasing Loss: Funkcje straty skupione na redukcji uprzedzeń.

Takie podejście może pomóc w utrzymaniu równowagi między dokładnością a sprawiedliwością modelu.


Mitygacja po treningu (post-processing)

a) Rewriting Outputs

Modyfikacja wygenerowanych odpowiedzi w celu usunięcia uprzedzeń, np. poprzez:

  • Filtrowanie treści: Usuwanie lub zastępowanie stronniczych fragmentów.
  • Parafrazowanie: Przekształcanie zdań w bardziej neutralne wersje.

Takie podejścia są stosunkowo łatwe do implementacji, ale mogą nie zawsze skutecznie eliminować głęboko zakorzenione biasy.

b) Calibration Techniques

Dostosowanie prawdopodobieństw przewidywań modelu, aby zmniejszyć uprzedzenia, np. poprzez:

  • Temperature Scaling: Regulacja „temperatury” w funkcji softmax.
  • Isotonic Regression: Dopasowanie monotonicznej funkcji do wyników modelu.

Zamiast zmieniać samą architekturę modelu, techniki kalibracji zmieniają sposób, w jaki model interpretuje swoje wyniki, aby zmniejszyć wpływ biasu. Takie podejście może poprawić sprawiedliwość modelu bez konieczności jego retreningu.


Inne podejścia

a) Reinforcement Learning from Human Feedback (RLHF)

Wykorzystanie opinii ludzkich do nagradzania lub karania modelu za odpowiedzi zawierające uprzedzenia. Może skutecznie redukować biasy, ale wymaga dużej ilości danych z ocenami ludzkimi.

b) Multi-LLM Debiasing Framework

Zastosowanie wielu modeli językowych do wzajemnej oceny i korekty odpowiedzi, co może pomóc w identyfikacji i eliminacji uprzedzeń.


Podsumowanie

Wykrywanie i eliminowanie biasów w wielkich modelach językowych to wyzwanie, które wymaga kompleksowego podejścia. Benchmarking stanowi kluczowe narzędzie w tym procesie, umożliwiając identyfikację problematycznych obszarów i porównywanie skuteczności różnych metod ich eliminacji.

Przyszłość modeli językowych powinna opierać się na równowadze między wydajnością a etycznym podejściem do generowania treści. Odpowiedzialne zarządzanie danymi, ulepszanie algorytmów oraz transparentność w zakresie badań nad biasami pozwolą na stworzenie bardziej sprawiedliwych i obiektywnych systemów AI.

Jednakże, jak zauważa Philip Resnik, bias może być nieodłącznym elementem obecnych architektur LLM, co sugerowałoby potrzebę fundamentalnych zmian w projektowaniu tych modeli.

Literatura

  1. Guo, Y., Guo, M., Su, J., Yang, Z., Zhu, M., Li, H., Qiu, M., & Liu, S. S. (2024). Bias in large language models: Origin, evaluation, and mitigation. arXiv. https://doi.org/10.48550/arXiv.2411.10915
  2. Johri, Aditya, et al. (2024) Parity Benchmark for Measuring Bias in LLMs. AI and Ethics, vol. 5, 2024, https://doi.org/10.1007/s43681-024-00613-4.
  3. National Institute of Standards and Technology. (2022, March 16). There’s more to AI bias than biased data, NIST report highlights. https://www.nist.gov/news-events/news/2022/03/theres-more-ai-bias-biased-data-nist-report-highlights
  4. AI Business. (2022, March 17). NIST calls for socio-technical to challenge AI biases. AI Business. https://aibusiness.com/verticals/nist-calls-for-socio-technical-to-challenge-ai-biases
  5. Fleisig, E., Smith, G., Bossi, M., Rustagi, I., Yin, X., & Klein, D. (2024). Linguistic bias in ChatGPT: Language models reinforce dialect discrimination. W Y. Al-Onaizan, M. Bansal & Y.-N. Chen (Red.), Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (s. 13541–13564). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.emnlp-main.750
  6. Sasani, A. (2024, March 16). As AI tools get smarter, they’re growing more covertly racist, experts find. The Guardian. https://www.theguardian.com/technology/2024/mar/16/ai-racism-chatgpt-gemini-bias
  7. Snyder, A. (2023, September 8). AI’s language gap. Axios. https://www.axios.com/2023/09/08/ai-language-gap-chatgpt
  8. Navigli, R., Conia, S., & Ross, B. (2023). Biases in large language models: Origins, inventory, and discussion. Journal of Data and Information Quality, 15(2), Article 10. https://dlnext.acm.org/doi/10.1145/3597307
  9. Rettenberger, L., Reischl, M., & Schutera, M. (2025). Assessing political bias in large language models. Journal of Computational Social Science, 8(1), Article 42. https://doi.org/10.1007/s42001-025-00376-w
  10. Torres, N., Ulloa, C., Araya, I., Ayala, M., & Jara, S. (2024). A comprehensive analysis of gender, racial, and prompt-induced biases in large language models. International Journal of Data Science and Analytics, 8(1), Article 10. https://doi.org/10.1007/s41060-024-00696-6
  11. Xie, Z., & Lukasiewicz, T. (2023). An empirical analysis of parameter-efficient methods for debiasing pre-trained language models. arXiv. https://doi.org/10.48550/arXiv.2306.04067
  12. Girdhar, A. (2025, May 4). De-biasing LLMs: From Theory to Practice. Appy Pie. https://www.appypie.com/blog/strategies-for-de-biasing-llms
  13. Zhao, J., Wang, T., & Yatskar, M. (2017). Men also like shopping: Reducing gender bias amplification using corpus-level constraints. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing(pp. 2979-2989). https://arxiv.org/abs/1707.09457
  14. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. In Proceedings of the 34th International Conference on Machine Learning (Vol. 70, pp. 1321-1330). PMLR. https://proceedings.mlr.press/v70/guo17a.html
  15. Nadeem, M., Bethke, A., Reddy, S. (2020). StereoSet: Measuring stereotypical bias in pretrained language models. arXiv. https://arxiv.org/abs/2004.09456
  16. Kurita, K., Vyas, N., Pareek, A., Black, A. W., Tsvetkov, Y. (2019). Measuring bias in contextualized word representations. arXiv. https://arxiv.org/abs/1906.07337
  17. Bolukbasi, T., Chang, K.-W., Zou, J. Y., Saligrama, V., Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. NeurIPS. https://arxiv.org/abs/1607.06520
  18. Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys, 54(6). https://arxiv.org/abs/1908.09635
  19. Liang, P., Li, T., Tsai, Y.-H. H., Salakhutdinov, R., Morency, L.-P. (2021). Towards debiasing sentence representations. arXiv. https://arxiv.org/abs/2007.08100
  20. Gallegos, I. O., & Rossi, R. A. (2024). Bias and Fairness in Large Language Models: A Survey. Computational Linguistics, 50(3), 1097–1154. https://aclanthology.org/2024.cl-3.8/
  21. Owens, M., et al. (2024). A Multi-LLM Debiasing Framework. arXiv preprint. https://arxiv.org/abs/2409.13884
  22. Mitchell, M. (2025). AI Is Spreading Old Stereotypes to New Languages and Cultures. WIRED Magazine. https://www.wired.com/story/ai-bias-spreading-stereotypes-across-languages-and-cultures-margaret-mitchell/
  23. Marchiori Manerba, M., Stańczak, K., Guidotti, R., & Augenstein, I. (2024). Social Bias Probing: Fairness Benchmarking for Language Models. EMNLP 2024. https://arxiv.org/abs/2311.09090
  24. Sun, T., He, J., Qiu, X., & Huang, X. (2022). BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation. EMNLP 2022. https://arxiv.org/abs/2210.07626
  25. Omrani Sabbaghi, S., Wolfe, R., & Caliskan, A. (2023). Evaluating Biased Attitude Associations of Language Models in an Intersectional Context. AIES 2023. https://arxiv.org/abs/2307.03360
  26. Simpson, S., Nukpezah, J., Brooks, K., & Pandya, R. (2024). Parity Benchmark for Measuring Bias in LLMs. AI and Ethics. https://link.springer.com/article/10.1007/s43681-024-00613-4
  27. Resnik, P. (2025). Large language models are biased because they are large language models. arXiv. https://doi.org/10.48550/arXiv.2406.13138
  28. Bender, E. M., Gebru, T., McMillan-Major, A., & Mitchell, M. (2021). On the dangers of stochastic parrots: Can language models be too big? W Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency(s. 610–623). Association for Computing Machinery. https://doi.org/10.1145/3442188.3445922
  29. Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183–186. https://doi.org/10.1126/science.aal4230
  30. AI & Society. (2023). At the intersection of humanity and technology: A technofeminist intersectional critical discourse analysis of gender and race biases in the natural language processing model GPT-3. AI & Society. https://doi.org/10.1007/s00146-023-01804-z
  31. Kirk, H., Jun, Y., Iqbal, H., Benussi, E., Volpin, F., Dreyer, F. A., Shtedritski, A., & Asano, Y. M. (2021). Bias Out-of-the-Box: An Empirical Analysis of Intersectional Occupational Biases in Popular Generative Language Models. arXiv. https://doi.org/10.48550/arXiv.2102.04130
  32. Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K.-W. (2018). Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), 15–20. https://doi.org/10.18653/v1/N18-2003
  33. West, S.M., Whittaker, M. and Crawford, K. (2019). Discriminating systems: Gender, race, and power in AI. AI Now Institute. https://ainowinstitute.org/publication/discriminating-systems-gender-race-and-power-in-ai-2
  34. Tomasev, N., Sim, R., & Ledsam, J. R. (2021). Fairness for unobserved characteristics: Insights from technological impacts on queer communities. arXiv. https://arxiv.org/abs/2102.04257
  35. Ashwin, S., Shoemaker, K., Rodríguez, M., & Queer in AI. (2021). Rebuilding trust: Queer in AI approach to artificial intelligence risk management. arXiv. https://arxiv.org/abs/2110.09271
  36. Patel, M., Zech, J. R., Sabbaghi, S. O., & Mohebbi, A. (2023). Queer people are people first: Deconstructing sexual identity stereotypes in large language models. arXiv. https://arxiv.org/abs/2307.00101
  37. Agarwal, A., Agarwal, H., & Agarwal, N. (2023). Fairness score and process standardization: Framework for fairness certification in artificial intelligence systems. AI and Ethics, 3(1), 267–279. https://doi.org/10.1007/s43681-022-00147-7
  38. Abhishek, A., Erickson, L., & Bandopadhyay, T. (2025). BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models. arXiv. https://arxiv.org/abs/2503.24310
  39. Lin, Z., Guan, S., Zhang, W., Zhang, H., Li, Y., & Zhang, H. (2024). Towards trustworthy LLMs: A review on debiasing and dehallucinating in large language models. Artificial Intelligence Review, 57(1), 243. https://doi.org/10.1007/s10462-024-10896-y

Leave a comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Najnowsze komentarze

  1. […] poprzednim artykule skupiliśmy się na seks robotach w ogólności, a także na najpopularniejszej formie tego […]

  2. W 2023 nastąpiło też ,,ożywienie'' Boczka i Paździocha (za zgodą rodziny) w specjalnym odcinku ,,Świata według Kiepskich'': https://www.polsat.pl/news/2023-03-20/swiat-wedlug-kiepskich-zobacz-odcinek-specjalny/ Niestety, wyszło…

  3. W kwestii obrony przed nadużywaniem metod z tej rodziny przy stawianiu oskarżeń, jako pewne rozwinięcie tematu mogę polecić przesłuchanie w…