Home » AGH 2025/26 » Ślepa 👀 sprawiedliwość czy zaprogramowane uprzedzenia? Bias w systemach AI wymiaru sprawiedliwości.

Ślepa 👀 sprawiedliwość czy zaprogramowane uprzedzenia? Bias w systemach AI wymiaru sprawiedliwości.

Spread the love

Wyobraź sobie, że o tym, czy trafisz za kratki, decyduje nie człowiek, lecz algorytm — oprogramowanie, którego działania nie możesz sprawdzić ani zakwestionować. Brzmi jak science fiction? To rzeczywistość amerykańskich sądów, prokuratur i komisariatów policji od ponad dwóch dekad. Systemy sztucznej inteligencji takie jak COMPAS, PredPol czy narzędzia rozpoznawania twarzy weszły do wymiaru sprawiedliwości pod hasłem obiektywizmu i efektywności. Tymczasem coraz obszerniejsza literatura naukowa dowodzi, że algorytmy te powielają, a często wzmacniają, systemowe uprzedzenia rasowe, klasowe i płciowe — z daleko idącymi konsekwencjami dla życia konkretnych ludzi.

Obietnica obiektywnego wymiaru sprawiedliwości

Idea zastąpienia subiektywnego ludzkiego osądu zimną logiką danych jest stara jak sama statystyka. W kontekście wymiaru sprawiedliwości przybrała ona postać tzw. narzędzi oceny ryzyka (risk assessment tools) — algorytmów prognozujących prawdopodobieństwo, że oskarżony popełni kolejne przestępstwo (recidivism). Zwolennicy tych rozwiązań wskazują na tzw. hungry judge effect — udokumentowane zjawisko, w którym decyzje sędziów o zwolnieniu za kaucją są statystycznie korzystniejsze tuż po przerwie na lunch niż bezpośrednio przed nią (Danziger i in., 2011, za: COMPAS Wikipedia). Jeśli ludzki osąd jest tak podatny na biologiczne i kulturowe zniekształcenia, czy nie lepiej powierzyć decyzje maszynie?

Odpowiedź, którą przynosi ostatnia dekada badań, jest jednoznacznie przecząca: algorytm nie jest ani neutralny, ani obiektywny. Jest produktem danych, na których go wytrenowano — a te dane odzwierciedlają historyczne nierówności. Jak trafnie podsumowuje to środowisko data science: garbage in, garbage out (WEB1). W wymiarze sprawiedliwości ta zasada nabiera szczególnie dramatycznego wymiaru — bo „śmieci na wyjściu” to latami więzienia.

Od COMPAS 🧭 do rozpoznawania twarzy 👧

Centralnym przypadkiem w debacie nad biasem algorytmicznym w sądownictwie jest system COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), stworzony przez firmę Northpointe w 1998 roku. Punktem zwrotnym stał się rok 2016, kiedy organizacja dziennikarska ProPublica opublikowała raport „Machine Bias”, opierający się na analizie danych ponad 7 000 oskarżonych z hrabstwa Broward na Florydzie. Analiza wykazała, że czarnoskórzy oskarżeni byli znacznie częściej niż biali błędnie klasyfikowani jako osoby wysokiego ryzyka, podczas gdy biali oskarżeni byli częściej błędnie etykietowani jako osoby niskiego ryzyka ProPublica.

Producent algorytmu odparł, że COMPAS jest równie dokładny dla obu grup rasowych — i z matematycznego punktu widzenia miał rację. Analiza wykazała, że zarówno ProPublica, jak i Northpointe miały rację — tyle że odnosiły się do dwóch wzajemnie wykluczających się definicji sprawiedliwości: pierwsi koncentrowali się na wskaźniku błędów klasyfikacji, drudzy na ogólnej dokładności predykcji Wikipedia. Ten paradoks — znany w literaturze jako impossibility theorem of fairness — pokazuje, że nie istnieje jedna, matematycznie spójna definicja „sprawiedliwego algorytmu” (Chouldechova, 2017, za: WEB1).

Badania Dressel i Farida (2018) z Dartmouth College przyniosły kolejny cios dla wizerunku COMPAS: algorytm okazał się nie być dokładniejszy w prognozowaniu recydywy niż ochotnicy rekrutowani przez platformę crowdsourcingową, niemający żadnego przeszkolenia w zakresie wymiaru sprawiedliwości Artificial Intelligence Incident Database. Innymi słowy, kosztowne, proprietary oprogramowanie nie przewyższało zbiorowej intuicji przypadkowych internautów.

Kolejnym obszarem są systemy predykcyjnego patrolowania (predictive policing). PredPol (obecnie Geolitica) i podobne narzędzia analizują historyczne dane przestępcze, by wskazywać policji miejsca i czasy podwyższonego ryzyka. Systemy takie jak PredPol tworzą „mapy predykcyjne” i są pozycjonowane jako efektywne narzędzia alokacji zasobów policji, jednak w praktyce często wzmacniają istniejące uprzedzenia Springer. Mechanizm jest banalnie prosty: jeśli historycznie więcej patroli kierowano do dzielnic zamieszkanych przez mniejszości, tam też odnotowywano więcej aresztowań — a algorytm, ucząc się na tych danych, wskazuje dokładnie te same miejsca. Badania Brennan Center wykazały silną korelację między składem rasowym i socjoekonomicznym społeczności a wskaźnikami aresztowań za wykroczenia Brennan Center for Justice.

Trzeci obszar to rozpoznawanie twarzy (facial recognition technology, FRT). Niedokładność tych systemów wobec osób o ciemniejszym odcieniu skóry jest dobrze udokumentowana w literaturze — badania Gender Shades wykazały, że współczynniki błędów mogą być nawet 40 razy wyższe dla ciemnoskórych kobiet niż dla jasnoskórych mężczyzn (Buolamwini i Gebru, 2018). Czarnoskórzy stanowią co najmniej osiem na dziesięć osób bezpodstawnie aresztowanych na podstawie błędnych wskazań systemu rozpoznawania twarzy Brennan Center for Justice.

Jaskrawe przykłady i konsekwencje realne

Statystyki nabierają ludzkiego wymiaru, gdy spojrzymy na konkretne przypadki. Robert Williams z Detroit stał się pierwszą publicznie udokumentowaną ofiarą błędnego dopasowania przez system rozpoznawania twarzy, które doprowadziło do aresztowania (WEB2). Porcha Woodruff, będąca w ósmym miesiącu ciąży, została aresztowana za kradzież samochodu, przesłuchiwana przez 11 godzin w areszcie, zanim prokurator umorzył sprawę z braku dowodów Innocence Project.

Inny przypadek dotyczy Michaela Williamsa z Chicago: spędził niemal rok w areszcie w związku z morderstwem, mimo braku motywu, świadków i fizycznych dowodów łączących go z miejscem zbrodni — sprawa opierała się wyłącznie na alercie systemu ShotSpotter, który lokalizuje strzały na podstawie sieci mikrofonów Innocence Project.

ShotSpotter sam w sobie jest studium przypadku zawodności algorytmów bezpieczeństwa. Badanie MacArthur Justice Center obejmujące 21 miesięcy działania ShotSpotter w Chicago wykazało, że 89% alertów prowadziło policję do miejsc, gdzie nie stwierdzono przestępstwa z użyciem broni, a 86% nie ujawniło żadnego przestępstwa w ogóle — generując około 40 000 bezowocnych interwencji policji DEV Community. Mimo to Nowy Jork wydał od 2015 do 2025 roku 54 miliony dolarów na utrzymanie tego systemu i podpisał kolejny trzyletni kontrakt na 22 miliony dolarów Salon.

Osobnym problemem jest nieprzejrzystość algorytmów (opacity). COMPAS jest oprogramowaniem własnościowym — jego kod stanowi tajemnicę handlową. Ogólna krytyka stosowania tego rodzaju zastrzeżonego oprogramowania polega na tym, że skoro używane algorytmy są tajemnicą handlową, nie mogą być badane przez opinię publiczną ani strony postępowania, co jest opisywane jako naruszenie prawa do rzetelnego procesu Wikipedia. Sprawa Loomis v. Wisconsin (2016) stała się precedensem: Sąd Najwyższy stanu Wisconsin orzekł, że score COMPAS może być brany pod uwagę przy wydawaniu wyroku, ale muszą mu towarzyszyć zastrzeżenia dotyczące ograniczeń narzędzia.

Czy sprawiedliwy algorytm jest możliwy?

Fundamentalne pytanie, które stawia literatura naukowa, brzmi: czy poprawa techniczna algorytmów wystarczy, by rozwiązać problem biasu? Odpowiedź jest niejednoznaczna.

Część badaczy stoi na stanowisku, że dokładniejsze dane i lepiej zaprojektowane modele mogą zredukować dysproporcje. Analiza danych ProPublica wykazała, że zaproponowana korekta algorytmu zwiększa ogólną dokładność i osłabia antyrasistowski i antymłodzieżowy bias, choć nieznacznie zwiększa ryzyko zwolnienia oskarżonych, którzy popełnią nowe przestępstwo przed procesem Springer.

Radykalnie odmienne stanowisko prezentuje Ben Green, profesor Uniwersytetu Michigan: nawet doskonale dokładny algorytm będzie reprodukował bias, jeśli system prawny, na którym się opiera, jest sam w sobie niesprawiedliwy. Jak twierdzi Green, perfekcyjna ocena ryzyka mogłaby mieć paradoksalny efekt nadania większej legitymizacji polityce, która prowadzi do pozbawienia wolności, i sprawiania, że osoby zatrzymane wydają się bardziej zasługiwać na tę karę Massive Science.

Istnieje też problem automation bias — ludzkiej skłonności do bezkrytycznego ufania decyzjom maszyny. Badacze i prawnicy ostrzegają przed niebezpieczną tendencją do bezkrytycznego polegania na wynikach algorytmów, w pewnych przypadkach opisując, jak funkcjonariusze traktowali wyniki oprogramowania jako „100% dopasowanie” Jones Walker LLP. Gdy algorytm staje się autorytetem, sędzia nie podejmuje samodzielnej decyzji — jedynie sankcjonuje decyzję kodu.

Warto też zadać pytanie o odpowiedzialność. Gdy algorytm wydaje błędną decyzję prowadzącą do krzywdy człowieka — kto ponosi odpowiedzialność? Producent oprogramowania, który ukrywa kod za tajemnicą handlową? Sędzia, który powołał się na score nie rozumiejąc jego mechanizmu? Sąd, który go dopuścił? Crawford i Schultz w raporcie „AI Systems as State Actors” nazywają tę sytuację „luką odpowiedzialności”, która może prowadzić zarówno do odpowiedzialności państwa, jak i jej unikania przez prywatnych dostawców technologii. JSTOR.

Prawo do wiedzy o algorytmie

Wymiar sprawiedliwości jest instytucją, której legitymizacja zależy od zaufania społecznego. Zaufanie to buduje się m.in. przez przejrzystość procedur — prawo do wiedzy, dlaczego podjęto określoną decyzję, i prawo do jej zakwestionowania. Algorytmy czarnej skrzynki podważają oba te filary.

Nie oznacza to, że AI nie ma miejsca w sądownictwie. Oznacza to, że jej wdrożenie wymaga: obowiązkowych audytów pod kątem biasu przed dopuszczeniem do użytku, transparentności kodu wobec stron postępowania, mechanizmów odwoławczych uwzględniających decyzje algorytmiczne oraz regulacji określających, które decyzje w ogóle nie mogą być delegowane do maszyny.

Debata nad COMPAS, ShotSpotter i rozpoznawaniem twarzy to w istocie debata o tym, jakie wartości chcemy wbudować w naszą technologię — i czy zgadzamy się, by prawa jednostki były ważone przez oprogramowanie, za które nikt nie odpowiada.

„The underlying problem here is that we have racialized hierarchies of what crime means and who is at 'risk’ of committing those crimes, combined with a policy that punishes those at high risk with the loss of liberty. Even if risk assessments could attain some type of perfect prediction, that wouldn’t solve the problem.” — Ben Green, profesor Uniwersytetu Michigan (cyt. za WEB1)

 

Literatura

Buolamwini, J., & Gebru, T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification. Proceedings of Machine Learning Research, 81, 1–15.

Dressel, J., & Farid, H. (2018). The accuracy, fairness, and limits of predicting recidivism. Science Advances, 4(1), eaao5580. https://doi.org/10.1126/sciadv.aao5580

Freeman, K. (2016). Algorithmic injustice: How the Wisconsin Supreme Court failed to protect due process rights in State v. Loomis. North Carolina Journal of Law & Technology, 18(5), 75–106.

Scherrer, A., Schönberger, A., & Fuentes, M. (2024). Code is law: how COMPAS affects the way the judiciary handles the risk of recidivism. Artificial Intelligence and Law. https://doi.org/10.1007/s10506-024-09389-8

Washington, A. (2019). How to argue with an algorithm: Lessons from the COMPAS-ProPublica debate. Colorado Technology Law Journal, 17(1), 131–160.

WEB1: Can the criminal justice system’s AI ever be truly fair? — Massive Science https://massivesci.com/articles/machine-learning-compas-racism-policing-fairness/

WEB2: When Artificial Intelligence Gets It Wrong — Innocence Project https://innocenceproject.org/news/when-artificial-intelligence-gets-it-wrong/

 


2 komentarze

  1. Najbardziej przeraża „paradoks sprawiedliwości” – skoro nie da się stworzyć algorytmu matematycznie sprawiedliwego dla wszystkich grup jednocześnie, to każda linijka kodu w sądownictwie staje się decyzją polityczną, a nie techniczną.

Leave a comment