Moderacja AI zjada własny ogon? Claude i ChatGPT coraz częściej odmawiają pomocy

Płacisz za Claude Pro. Otwierasz czat i wpisujesz zadanie matematyczne, które chcesz rozwiązać razem z dzieckiem. Po chwili dostajesz informację o zawieszeniu konta, ponieważ system uznał cię za osobę niepełnoletnią. Taką sytuację opisał jeden z użytkowników Reddita na r/ClaudeAI. To tylko jeden z kilku podobnych przypadków, które w ostatnich tygodniach przewinęły się przez anglojęzyczne i polskie społeczności. W innym przypadku student kierunku aerospace otrzymał odmowę pomocy przy projekcie modelarskim, ponieważ system powiązał jego pytanie z budową rakiet. Kolejny użytkownik chciał jedynie zmienić ubrania na zdjęciu znajomego, a ChatGPT zakwalifikował prośbę jako treści związane z samookaleczeniem. Zdarzały się również sytuacje, w których zwykła rozmowa o starym laptopie kończyła się nieoczekiwanym moralizowaniem ze strony asystenta. Sami producenci od dawna przyznają, że ich systemy mogą generować fałszywe alarmy. W ostatnim czasie użytkownicy mają jednak wrażenie, że takich przypadków jest coraz więcej.

Różne sytuacje, ale ten sam problem

Wszystkie te historie mają jednak wspólny mianownik. Użytkownik zadaje zwykłe pytanie dotyczące nauki, hobby, edycji zdjęcia lub codziennego sprzętu, a system interpretuje je tak, jakby dotyczyły treści wymagających szczególnej ostrożności. W przypadku Claude’a może to prowadzić nawet do blokady konta. W ChatGPT natomiast najczęściej kończy się odmową odpowiedzi i wyjaśnieniem, dlaczego asystent nie może pomóc.

Część użytkowników zauważyła jednak, że te same pytania działały poprawnie w sesjach bez logowania. Może to sugerować, że źródłem problemu nie jest sam model językowy, lecz dodatkowa warstwa moderacji stosowana wobec zalogowanych użytkowników.

Co na to sami producenci

Zarówno Anthropic, jak i OpenAI otwarcie przyznają, że ich systemy moderacji nie są idealne. W dokumentacji Claude Help Center Anthropic informuje na przykład, że mechanizmy bezpieczeństwa mogą generować zarówno fałszywe alarmy, jak i nie wychwycić części problematycznych treści. Podobne zastrzeżenia znajdują się z kolei w dokumentacji Moderation API OpenAI. W teorii są to zwykłe informacje techniczne. W praktyce oznacza to jednak, że pojedyncze błędne decyzje nie są traktowane jako awarie systemu, lecz jako naturalna konsekwencja sposobu jego działania.

Drugi kontekst dotyczy przede wszystkim OpenAI. Firma mierzy się obecnie z presją regulatorów i kilkoma postępowaniami dotyczącymi reakcji modeli na potencjalnie niebezpieczne rozmowy. Całość wpisuje się również w szerszy obraz, który opisywaliśmy przy okazji złożenia przez Anthropic dokumentów S-1 do SEC. W odpowiedzi OpenAI rozwija natomiast system “safety summaries”, który analizuje przebieg całej rozmowy pod kątem sygnałów związanych z samookaleczeniem, samobójstwem lub przemocą. Według danych firmy około 0,15 procent użytkowników wykazuje w ciągu tygodnia oznaki kryzysu psychicznego. Przy skali działania ChatGPT daje to około 1,2 miliona osób tygodniowo. Skala jest więc realna, dlatego firma idzie w coraz większą czujność moderacyjną. Problem polega jednak na tym, że większa ostrożność może prowadzić również do błędnych reakcji w zupełnie zwyczajnych rozmowach.

Kto płaci za to wszystko? Ostatecznie użytkownik

Z perspektywy osoby płacącej za Claude Pro lub ChatGPT Plus sytuacja może wyglądać dość paradoksalnie. Uzytkownik, z jednej strony otrzymuje bowiem narzędzie reklamowane jako profesjonalny asystent. Z drugiej natomiast coraz częściej spotyka się z odmowami w sprawach, które jeszcze niedawno nie budziły żadnych kontrowersji. Chodzi o zadania matematyczne, projekty techniczne, prostą edycję zdjęć czy zwykłe rozmowy o sprzęcie.

W efekcie część osób zaczyna korzystać z drugiej karty w przeglądarce i powtarzać to samo pytanie w trybie anonimowym. Sytuacja, w której płacący klient otrzymuje bardziej restrykcyjną wersję usługi niż niezalogowany użytkownik, może wydawać się dość nietypowa. Szczególnie wtedy, gdy subskrypcja została wykupiona właśnie z myślą o codziennej pracy.

Pierwsza Misja AI · Kodożercy

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Kurs Pierwsza Misja AI ma dedykowaną lekcję o ciemnej stronie AI: halucynacje, deepfakes, manipulacja. Zanim zaczniesz się bać – zacznij rozumieć.

Poznaj pełny program

Podsumowanie

Historie z ostatnich tygodni pokazują pewien powtarzający się schemat. Zadanie matematyczne zostaje uznane za aktywność osoby niepełnoletniej, projekt modelarski za temat związany z rakietami, a prosta edycja zdjęcia za treści dotyczące samookaleczenia. Jednocześnie sami producenci przyznają, że ich systemy bezpieczeństwa mogą popełniać błędy. Presja regulatorów i rosnące wymagania dotyczące bezpieczeństwa sprawiają, że warstwa moderacji staje się coraz bardziej rozbudowana. Pytanie brzmi, gdzie znajduje się granica między ochroną użytkowników a utrudnianiem korzystania z narzędzi, za które użytkownicy płacą każdego miesiąca.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Moderacja AI zjada własny ogon? Claude i ChatGPT coraz częściej odmawiają pomocy

Różne sytuacje, ale ten sam problem

Co na to sami producenci

Kto płaci za to wszystko? Ostatecznie użytkownik

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Moderacja AI zjada własny ogon? Claude i ChatGPT coraz częściej odmawiają pomocy

Różne sytuacje, ale ten sam problem

Co na to sami producenci

Kto płaci za to wszystko? Ostatecznie użytkownik

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up