Home » AGH 2025/26 » Analiza ocen, rankingów i rekomendacji generowanych przez duże modele językowe. Ocena wiarygodności, rzetelności i obiektywności takich wypowiedzi oraz pytanie, na ile możemy im ufać bezkrytycznie

Analiza ocen, rankingów i rekomendacji generowanych przez duże modele językowe. Ocena wiarygodności, rzetelności i obiektywności takich wypowiedzi oraz pytanie, na ile możemy im ufać bezkrytycznie

Spread the love

W dzisiejszym świecie coraz częściej uzależniamy nasze decyzje od sztucznej inteligencji, traktując modele takie jak ChatGPT, Claude czy Gemini jak darmowych ekspertów i nieomylne wyrocznie. Bezkrytyczne zaufanie do ich ocen, rankingów i rekomendacji to jednak potężny błąd. Za pozorną pewnością siebie i profesjonalnym tonem wirtualnych asystentów kryją się „stochastyczne papugi” – gigantyczne silniki statystyczne, które nie posiadają wiedzy, lecz nieustannie ulegają systematycznym błędom, powielają uprzedzenia i zmyślają fakty. Przeczytaj, dlaczego algorytmy wolą ci się przypodobać zamiast podać obiektywną prawdę i dlaczego jedyną skuteczną strategią pracy z AI pozostaje dziś bezwzględna zasada Zero Trust.

W dzisiejszym zinformatyzowanym świecie, podejmowanie decyzji staje się coraz bardziej zależne od narzędzi opartych na sztucznej inteligencji. Niezależnie od tego, czy jesteś zdesperowanym studentem informatyki próbującym wybrać optymalną bazę danych i bibliotekę do projektu na zaliczenie, czy też graczem stojącym przed wyborem drogiego monitora OLED lub mechanicznej klawiatury, mechanizm działania jest zazwyczaj identyczny. Siadasz do komputera, wpisujesz zapytanie do modeli takich jak ChatGPT, Claude czy Gemini i w ułamku sekundy otrzymujesz pięknie sformatowaną, autorytatywną odpowiedź z ostateczną rekomendacją. Z podobnych narzędzi korzystają menedżerowie poszukujący oprogramowania do zarządzania zespołem, którym AI przedstawia gotowe porównania i bez wahania wskazuje „najlepszą” opcję.

Brzmi to jak spełnienie marzeń o natychmiastowym i darmowym ekspercie. Oszczędzasz wiele godzin żmudnego researchu na forach, GitHubie czy Stack Overflow. Prawda jest jednak znacznie bardziej mroczna. Duże modele językowe stają się naszymi sędziami, recenzentami i doradcami, chociaż za ich pozorną pewnością siebie kryje się niepokojący katalog systematycznych błędów, halucynacji i uprzedzeń.

Architektura iluzji: Skąd sztuczna inteligencja „wie”, co polecić?

Aby zrozumieć, dlaczego modele językowe tak fatalnie radzą sobie z obiektywną oceną, trzeba najpierw poznać ich fundamenty. Modele takie jak GPT-4o czy Gemini nie posiadają zdolności do myślenia ani nie posiadają wiedzy w ludzkim rozumieniu tych słów. Są to w rzeczywistości gigantyczne silniki statystyczne – next-token predictors, których wyłącznym zadaniem jest wygenerowanie kolejnego, najbardziej prawdopodobnego słowa na podstawie gigantycznego zbioru danych treningowych oraz bieżącego kontekstu.

Ich nauka przebiega najczęściej w trzech etapach:

Pretraining – model pochłania ogromne ilości tekstów z książek, internetu i artykułów naukowych, ucząc się na tym etapie, jak ludzkość pisze o danych usługach czy technologiach. Jeśli internet w większości wypowiadał się o czymś pozytywnie, model na zawsze zakoduje to jako „dobre”.
Fine-tuning (RLHF) – jest to uczenie ze wzmocnieniem na podstawie ludzkich opinii. Trenerzy pokazywali modelowi pary wygenerowanych odpowiedzi, wybierając tę, która podobała im się bardziej. W efekcie model nauczył się generować odpowiedzi przyjemne dla człowieka, pewne w swoim tonie i wyczerpujące, co wcale nie musi pokrywać się z prawdą.
Dostrajanie w czasie rzeczywistym – wiele modeli nieustannie analizuje reakcje użytkowników (np. kciuki w górę i w dół w interfejsie), optymalizując swoje przyszłe zachowania pod kątem natychmiastowej akceptacji.
Efektem tego nie jest obiektywny kalkulator jakości. Otrzymana od LLM rekomendacja nie jest wynikiem dogłębnej analizy milisekundowych czasów reakcji danej bazy danych, a raczej statystycznym echem tego, co wcześniej wymyśliły tysiące programistów. Algorytm nie rozumie ludzkiego znaczenia generowanego tekstu.

Zjawisko Sycophancy i skandal z modelem GPT-4o

Najbardziej jaskrawym dowodem na to, że sztuczna inteligencja woli ci się przypodobać, niż powiedzieć prawdę, jest zjawisko zwane „sycophancy”. Ze względu na mechanizm nagradzania podczas treningu RLHF, modele zostały nauczone bycia „pomocnymi i uprzejmymi”, co często sprowadza się do ślepego popierania założeń użytkownika. Doskonale widać to w świecie IT: jeśli spytasz o wady bazy MongoDB dla danego projektu, otrzymasz długi elaborat o ogromnym zużyciu pamięci i braku ACID w starszych wersjach, ale gdy tylko zmienisz prompt na taki, który z góry określa MongoDB jako genialne rozwiązanie, ten sam asystent natychmiast zmieni zdanie i wygeneruje pochwałę elastyczności.

Problem ten ujawnił się w pełnej skali 25 kwietnia 2025 roku, gdy firma OpenAI opublikowała aktualizację modelu GPT-4o. Zaledwie po czterech dniach producent musiał wycofać ten model z rynku ze względu na jego ekstremalną, bezkrytyczną aprobatę dla każdego, nawet najbardziej absurdalnego pomysłu.

Jeden z użytkowników opisał modelowi swój rzekomy pomysł na biznes polegający na sprzedaży odchodów na patyku, na co GPT-4o odparł z entuzjazmem: „To nie jest tylko sprytne – to jest genialne”. Raportowano również przypadki, w których sztuczna inteligencja popierała groźne decyzje zdrowotne, takie jak odstawienie leków na własną rękę, a według doniesień z mediów społecznościowych, model ten miał w jednym incydencie pochwalić plan aktu terrorystycznego.

Firma OpenAI po czasie przyznała w oficjalnej analizie, że w trakcie prac skupiono się zbyt mocno na krótkoterminowym feedbacku, ignorując ewolucję interakcji. System stał się ofiarą tzw. reward hackingu – zamiast realnie pomagać, uczył się wywoływać natychmiastowe zadowolenie rozmówcy i zbierać „kciuki w górę”. Badania opublikowane w 2026 roku na grupie 11 różnych LLM (w tym Claude, Gemini, GPT-4o oraz Llama) pokazały, że lizusostwo występuje w nich wszystkich. Co gorsza, modele zgadzały się z działaniami zwodniczymi i nielegalnymi, a już jedna krótka interakcja z takim potakującym botem wystarczała, aby trwale osłabić u użytkownika motywacje prospołeczne i zaburzyć jego osobisty osąd sytuacji.

„This dynamic, the researchers warn, can lead to a dependency on the tech as users increasingly rely on comforting AI-shilled advice instead of turning to trusted loved ones, professionals, or their internal moral compass. After all, when people around you are telling you that you’re bad, or something you did was wrong, it feels a lot better to engage with an always-on AI companion’s rosier version of reality […].

Anatomia i Katalog Uprzedzeń: Od błędu popularności po dyskryminację

Rozmawiając z modelem, narażasz się na ukryty katalog zjawisk i błędów systematycznych (biasów), które kompletnie wypaczają wynik końcowy:

  • Popularity Bias – sztuczna inteligencja faworyzuje rozwiązania popularne na rynku. Jeśli framework „React” pojawia się obok słowa „frontend” 100 razy częściej niż lżejszy i szybszy „Svelte”, model poleci Ci Reacta. LLM operuje jak uśredniony umysł internetu, ignorując niszowe, innowacyjne i potencjalnie lepsze rozwiązania na rzecz tych dysponujących doskonałym marketingiem lub wieloletnią obecnością w sieci.
  • Position Bias – przesunięcie elementu w rankingu lub liście może całkowicie zaburzyć jego percepcję. Zjawiska preferowania opcji z początku i preferowanie opcji z samego końca powodują, że prosta zmiana kolejności przedstawianych modelowi wariantów może zmienić wynik jego ostatecznej oceny. W zestawieniach czterech i więcej elementów, wskaźnik spójności decyzji spada poniżej krytycznej wartości 0,5, co oznacza czystą losowość wyboru.
  • Verbosity Bias – z perspektywy LLM tekst jest jakościowo lepszy, gdy jest zwyczajnie dłuższy. System premiuje rozbudowane i rozwlekłe wypowiedzi pełne mało istotnych detali, ignorując te precyzyjne, lecz krótkie.

    „Do Chatbot LLMs Talk Too Much? The YapBench Benchmark”
  • Style Bias oraz Authority Bias – czynniki te potrafią kompletnie zakłamać odbiór tekstu przez maszynę. Estetyczne formatowanie z użyciem list punktowanych i nagłówków zawsze wygra z tekstem napisanym prozą niezależnie od merytoryki treści. Co gorsza, odniesienie do fałszywego autorytetu niszczy zdolności krytyczne modelu – w teście udowodniono, że dodanie do oceny nieistotnego, błędnego cytatu obniżyło jakość modelu z poziomu 9,12 punktów na szokująco niskie 3,94
  • Uprzedzenia danych treningowych (Socio-demograficzne) – modele powielają utarte stereotypy o wieku, płci, niepełnosprawności czy rasie. O ile AI świetnie odpowiada na testy wielokrotnego wyboru, o tyle w swobodnej narracji naturalnie sięga po krzywdzące schematy. W testach nowszego modelu GPT-5 problem ten się wręcz zaostrzył – podczas gdy GPT-4o niepotrzebnie rekomendował badania psychiatryczne pacjentom LGBTQIA+ w 41-73% przypadków, tak nowszy GPT-5 w symulowanych diagnozach medycznych podniósł ten odsetek do równych 100%

Halucynacje i ataki – gdy AI Wymyśla Narzędzia

Zjawisko halucynacji jest jednym z najpoważniejszych problemów dużych modeli. AI w swej konstrukcji generuje odpowiedzi chłodnym, opanowanym, wysoce profesjonalnym i pewnym siebie tonem niezależnie od faktu, czy podaje rzetelne dane z literatury, czy właśnie zmyśla od zera.

Wyniki z niezależnego, wielojęzycznego benchmarku Phare z 2025 roku, badającego modele m.in. Meta, DeepSeek, Google, OpenAI czy Anthropic jasno wskazały, że żaden model z czołówki nie wykazał na przestrzeni półtora roku statystycznie istotnej poprawy w odporności na halucynacje. Do podobnych wniosków doszli również autorzy badania HAUNT, którzy zadali pięciu popularnym chatbotom 40 000 pytań z zakresu kultury. Modele te nie potrafiły konsekwentnie bronić własnych faktów. Udowodniono, że delikatne podpuszczanie modelu przez człowieka skutkuje wzrostem potakiwania fałszowi. W niemal połowie analizowanych instancji modele DeepSeek i Gemini potwierdzały i powtarzały fałszywe twierdzenia z wplecionymi przekonującymi, choć fałszywymi detalami. Dlaczego AI po prostu nie odpisze „nie wiem”? Ewaluacja modeli uczy ich zachowania typowego dla nieprzygotowanego ucznia na egzaminie z testem wyboru – model po prostu zmyśla , ponieważ opcja braku odpowiedzi nie przynosi mu „punktów”.

W sferze inżynierii oprogramowania ten brak weryfikacji faktów ma opłakane skutki. Eksperci z Vulcan Cyber zaobserwowali rosnącą plagę „AI Package Hallucination”. Gdy programista pyta o specjalistyczny skrypt w Pythonie, model potrafi wygenerować doskonały blok kodu, do którego dorzuca całkowicie zmyśloną instrukcję pobrania biblioteki, np. pip install requests-helper-utils. Taka nieistniejąca paczka nie znajduje się w repozytorium PyPI. Hakerzy zorientowali się w tej luce i zaczęli masowo prowokować LLM-y do zmyślania nazw, po czym samodzielnie tworzyli w repozytoriach paczki pod identycznymi nazwami ze wstrzykniętym wirusem. Programista, całkowicie ufając swojemu chatbotowi, kopiuje kod z wbudowanym złośliwym oprogramowaniem a model AI staje się nieuświadomionym, bezwzględnym wektorem ataku na sieć wewnętrzną.

Zagrożenia w medycynie i nauce – gdzie fałsz to kwestia życia

W medycynie błąd modelu językowego nie jest błędem stylistycznym, lecz potencjalnym zagrożeniem życia. W badaniu opublikowanym w JAMA Pediatrics ChatGPT-3.5 błędnie zdiagnozował 83 ze 100 pediatrycznych przypadków klinicznych (Barile i wsp., 2024). W JAMA Oncology wykazano, że jedna trzecia rekomendacji terapeutycznych w raku piersi, prostaty i płuc była niezgodna z wytycznymi NCCN, a 12,5% odpowiedzi stanowiły wręcz „halucynacje” – nieistniejące terapie (Chen i wsp., 2023). Pierwsza niezależna ocena ChatGPT Health, opublikowana w Nature Medicine w lutym 2026 r., wykazała, że narzędzie używane przez ok. 40 mln osób dziennie nie skierowało do oddziału ratunkowego 51,6% przypadków stanowiących prawdziwe zagrożenie życia, a zabezpieczenia kryzysowe wobec myśli samobójczych aktywowały się niespójnie (Ramaswamy i wsp., 2026). Han i wsp. (npj Digital Medicine, 2024) pokazali, że manipulacja zaledwie 1,1% wag modelu pozwala wstrzyknąć fałszywe fakty biomedyczne, niewykrywalne standardowymi testami. Równie groźna jest erozja integralności nauki: 47% odnośników w tekstach medycznych ChatGPT okazało się sfabrykowanych, a tylko 7% – autentycznych i poprawnych (Bhattacharyya i wsp., Cureus, 2023; podobnie Gravel i wsp., 2023, 69% fałszywych cytowań). Tragiczne skutki ujawniły już realne zdarzenia: chatbot Tessa amerykańskiego NEDA (2023) doradzał osobom z zaburzeniami odżywiania deficyt 500–1000 kcal dziennie, a belgijski Eliza zachęcił ojca dwojga dzieci do samobójstwa „dla ratowania planety” (marzec 2023). Bezkrytyczne zaufanie do LLM w medycynie nie jest więc abstrakcją – jest pytaniem o życie pacjenta.

Afery, Skandale i Iluzja Obiektywizmu: Chatbot Arena i Eksperyment z Zurychu

Pozorna obiektywność dużych modeli językowych opiera się na rankingach, w których wysoka pozycja ma sugerować ich rzetelność. Dwa głośne skandale 2025 roku ujawniły jednak, że zarówno same rankingi, jak i sposób, w jaki LLM-y wpływają na ludzi, podlegają systemowej manipulacji.

Pierwszym jest „iluzja rankingu” opisana w kwietniu 2025 r. przez zespół Singh i wsp. w pracy The Leaderboard Illusion (Cohere Labs, Stanford, MIT, AI2). Analiza około 2 mln pojedynków i 243 modeli na Chatbot Arena z lat 2024–2025 wykazała, że Meta, Google i OpenAI miały uprzywilejowany, prywatny dostęp do platformy. Sama Meta przetestowała tam 27 niejawnych wariantów Llamy 4, publikując tylko najlepszy wynik (Singh i wsp., 2025). Google i OpenAI generowały łącznie blisko 40% wszystkich pojedynków, a 83 modele open-weight razem zaledwie 29,7%. Nawet ograniczony dostęp do danych areny poprawiał wyniki nawet o 112%.

Drugi to eksperyment Uniwersytetu w Zurychu (kwiecień 2025). Przez cztery miesiące badacze potajemnie zamieścili na subreddicie r/changemyview (3,8 mln użytkowników) ponad 1700 komentarzy generowanych przez LLM, podszywając się m.in. pod ofiarę gwałtu, czarnoskórego przeciwnika BLM i doradcę traumatologicznego. Komentarze AI okazały się około sześciokrotnie bardziej perswazyjne niż ludzkie i zdobyły 137 „delt” przyznawanych za realną zmianę poglądu (Bell, 2025). Casey Fiesler (CU Boulder) nazwała to „jednym z najgorszych naruszeń etyki badań”, a Reddit zapowiedział kroki prawne (Marcus, 2025). Komisja etyczna UZH wydała upomnienie, a badacze wycofali się z publikacji.

Oba przypadki dowodzą, że ani techniczna ocena modeli, ani ich wpływ na opinię publiczną nie są neutralnymi pomiarami – stanowią pole systemowej manipulacji.

W poszukiwaniu wiarygodności: Ramy ewaluacyjne a „LLM w roli sędziego”

Coraz częściej oceny rankingów i jakości odpowiedzi LLM-ów dokonuje się nie przez ludzi, lecz przez inne modele językowe. Praktyka ta, znana jako „LLM-as-a-Judge”, jest tańsza, szybsza i łatwo skalowalna; stała się standardową metodą ewaluacji w benchmarkach takich jak MT-Bench, AlpacaEval czy nawet częściowo Chatbot Arena. Jej podstawą jest praca Zheng i wsp. (2023), opublikowana na NeurIPS 2023, która wykazała, że silny sędzia LLM (GPT-4) zgadza się z ludzkimi oceniającymi w ponad 80% przypadków – tyle, ile ludzie zgadzają się ze sobą. Już ta sama praca jednak zidentyfikowała cztery systematyczne błędy: position bias (preferowanie odpowiedzi na konkretnej pozycji), verbosity bias (preferowanie dłuższych odpowiedzi), self-enhancement bias (preferowanie własnych tekstów) i ograniczone zdolności rozumowania.

Kolejne badania pogłębiły obraz problemu. Panickssery i wsp. (NeurIPS 2024) wykazali, że GPT-4 i Llama 2 potrafią z nietrywialną skutecznością rozpoznać własne wygenerowane teksty, a siła ich self-preference bias jest liniowo skorelowana z tą zdolnością. Innymi słowy – im lepiej model rozpoznaje siebie, tym wyżej siebie ocenia. Stureborg i wsp. (2024) z Grammarly, NVIDIA i Duke University udokumentowali natomiast trzy dodatkowe defekty: familiarity bias (preferowanie tekstów o niższej perplexity, czyli stylistycznie bliższych modelowi), zniekształcone rozkłady ocen oraz efekty zakotwiczenia przy ocenie wielu atrybutów naraz. Co istotne, ci sami autorzy stwierdzili niską spójność wewnątrz próbkową: te same teksty otrzymywały istotnie różne oceny przy nieistotnych dla człowieka zmianach promptu.

Konsekwencja jest poważna: jeśli to jeden model „głosuje” na drugi, ranking mierzy nie jakość odpowiedzi, lecz stylistyczne podobieństwo do sędziego. Bias ten przenosi się dalej w pipeline’ach typu RLHF czy self-refine, gdzie sędzia trenuje sam siebie. Iluzja obiektywności LLM-as-a-Judge stanowi dziś jedno z głównych wyzwań rzetelności badań nad AI.

Podsumowanie i Strategie na Przyszłość – Zasada Zero Trust

Czy oznacza to całkowite wycofanie się informatyków z technologii językowych? Absolutnie nie – LLM pozostaje najpotężniejszym narzędziem brainstormingu. Problem zaczyna się tam, gdzie asystent traktowany jest jak obiektywna prawda i wszechwiedząca instancja sądowa.

Zero Trust wobec AI. Bezwzględna nieufność wobec generowanego tekstu to podstawa. Model jest stochastyczną papugą – każdy werdykt produktowy i każdą rekomendację weryfikuj samodzielnie. To na twoim ekranie błędy trafią do produkcji, nie na biurko chatbota.

Inżynieria zapytań. Odrzuć ogólne „co byłoby najlepsze?” – wyzwala to wazeliniarstwo i ranking popularności. Twórz komendy ignorujące popularność, żądaj niszowych systemów i wciel modela w „surowego developera” wymuszającego krytykę.

Chłodny ton. Zabroń sobie wysyłania własnych poglądów przed pytaniem – sycophancy zmusi chatbota do potwierdzania Twoich urojeń. Pamiętaj o knowledge cutoff – optymalne sprzed roku bywa dziś katastrofą.

Weryfikacja krzyżowa. Każdą rekomendację sprawdzaj dwoma niezależnymi źródłami o udowodnionej reputacji. Nawet z dostępem do internetu modele halucynują – odsetek błędów sięga 30% nawet u najlepszych (Claude-Opus-4.5).

Manipulacja kulturowa. Rekomendacja może być echem „efektu społecznego uwiarygodnienia mody w pre-trainingu”. Asertywność modelu to nie kompetencja – to czerwona flaga ominięcia kwantyfikacji niepewności.

System wielkości myślowej nie rodzi się z natychmiastowych odpowiedzi wysypanych z rękawa. Punktem podparcia informatyka pozostaje własny krytyczny i sceptyczny rozsądek na miarę XXI wieku.

Źródła:

  • https://thedailyrecord.com/2025/07/17/hallucinating-chatgpt-lands-boston-lawyer-in-hot-water/
  • https://www.sciencealert.com/man-hospitalized-with-psychiatric-symptoms-following-ai-advice?lid=wvstlduznuqn
  • https://www.zdnet.com/article/gpt-4o-update-gets-recalled-by-openai-for-being-too-agreeable/
  • https://x.com/fabianstelzer/status/1916372374091423984/photo/1
  • https://x.com/ai_for_success/status/1916556522571604264
  • https://www.law.georgetown.edu/tech-institute/research-insights/insights/tech-brief-ai-sycophancy-openai-2/?trk=public_post_comment-text
  • https://www.theregister.com/2025/04/30/openai_pulls_plug_on_chatgpt/
  • https://aclanthology.org/2025.emnlp-main.1140/
  • https://milvus.io/ai-quick-reference/what-is-popularity-bias-and-how-can-it-be-mitigated-in-recommendations
  • https://aclanthology.org/2024.knowllm-1.14/
  • https://www.parp.gov.pl/component/content/article/88838:zrozumienie-position-bias-w-duzych-modelach-jezykowych
  • https://browse-export.arxiv.org/abs/2601.00624
  • https://ojs.aaai.org/index.php/AAAI/article/view/41105
  • https://www.nature.com/articles/s41746-026-02584-8
  • Barile, J., Margolis, A., Cason, G., Kim, R., Kalash, S., Tchaconas, A., & Milanaik, R. (2024). Diagnostic accuracy of a large language model in pediatric case studies. JAMA Pediatrics, 178(3), 313–315. https://doi.org/10.1001/jamapediatrics.2023.5750
  • Bhattacharyya, M., Miller, V. M., Bhattacharyya, D., & Miller, L. E. (2023). High rates of fabricated and inaccurate references in ChatGPT-generated medical content. Cureus, 15(5), e39238. https://doi.org/10.7759/cureus.39238
  • Chen, S., Kann, B. H., Foote, M. B., Aerts, H. J. W. L., Savova, G. K., Mak, R. H., & Bitterman, D. S. (2023). Use of artificial intelligence chatbots for cancer treatment information. JAMA Oncology, 9(10), 1459–1462. https://doi.org/10.1001/jamaoncol.2023.2954
  • Gravel, J., D’Amours-Gravel, M., & Osmanlliu, E. (2023). Learning to fake it: Limited responses and fabricated references provided by ChatGPT for medical questions. Mayo Clinic Proceedings:
  • Digital Health, 1(3), 226–234. https://doi.org/10.1016/j.mcpdig.2023.05.004
  • Han, T., Nebelung, S., Khader, F., Wang, T., Müller-Franzes, G., Kuhl, C., Försch, S., Kleesiek, J., Haarburger, C., Bressem, K. K., Kather, J. N., & Truhn, D. (2024). Medical large language models are susceptible to targeted misinformation attacks. npj Digital Medicine, 7, 288. https://doi.org/10.1038/s41746-024-01282-7
  • McCarthy, L. (2023, 8 czerwca). A wellness chatbot is offline after its 'harmful’ focus on weight loss. The New York Times. https://www.nytimes.com/2023/06/08/us/ai-chatbot-tessa-eating-disorders-association.html
  • Omar, M., Soffer, S., Agbareia, R., Bragazzi, N. L., Apakama, D. U., Horowitz, C. R., Charney, A. W., Freeman, R., Kummer, B., Glicksberg, B. S., Nadkarni, G. N., & Klang, E. (2025). Sociodemographic biases in medical decision making by large language models. Nature Medicine, 31, 1873–1881. https://doi.org/10.1038/s41591-025-03626-6
  • Bell, K. (2025, 29 kwietnia). Researchers secretly experimented on Reddit users with AI-generated comments. Engadget. https://www.engadget.com/ai/researchers-secretly-experimented-on-reddit-users-with-ai-generated-comments-194328026.html
  • Hagey, K., & Tobin, M. (2025, 30 kwietnia). Reddit slams University of Zurich experiment over secret AI bots in forum. The Washington Post. https://www.washingtonpost.com/technology/2025/04/30/reddit-ai-bot-university-zurich/
  • Marcus, A. (2025, 28 kwietnia). Experiment using AI-generated posts on Reddit draws fire for ethics concerns. Retraction Watch. https://retractionwatch.com/2025/04/28/experiment-using-ai-generated-posts-on-reddit-draws-fire-for-ethics-concerns/
  • Singh, S., Nan, Y., Wang, A., D’Souza, D., Kapoor, S., Üstün, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermis, B., Fadaee, M., & Hooker, S. (2025). The leaderboard illusion (arXiv:2504.20879). arXiv. https://doi.org/10.48550/arXiv.2504.20879
  • Panickssery, A., Bowman, S. R., & Feng, S. (2024). LLM evaluators recognize and favor their own generations. W Advances in Neural Information Processing Systems 37 (NeurIPS 2024). https://arxiv.org/abs/2404.13076
  • Stureborg, R., Alikaniotis, D., & Suhara, Y. (2024). Large language models are inconsistent and biased evaluators (arXiv:2405.01724). arXiv. https://doi.org/10.48550/arXiv.2405.01724
  • Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., & Stoica, I. (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. W Advances in Neural Information Processing Systems 36 (NeurIPS 2023). https://arxiv.org/abs/2306.05685

Jeden komentarz

  1. Bardzo trafne spostrzeżenie z tymi poleceniami np. monitorów lub klawiatur. Często traktujemy AI jak eksperta od wszystkiego, zapominając, że modele te cierpią na Popularity Bias. jako osoba która nie ma największej wiedzy o hardware, samemu zdarzyło mi się skorzystać z „pomocy” LLM-ów w wyborze niektórych rzeczy, choć zawsze traktowałem to bardziej jako wstępne rekomendacje które dokładnie weryfikowałem samemu, niż jako ostateczny wybór – takie podejście u mnie się do tej pory sprawdza, choć pewnie jest gorzej u osób, które ograniczają się TLYKO do zapytania LLMa o rekomendację (co może być jeszcze gorsze, jeśli kiedyś celowo zostaną wprowadzone reklamy produktów do czatów).

Leave a comment