Degradacja modeli AI: dlaczego nowsze nie znaczy lepsze

Zadaj modelowi AI dziesięć trudnych pytań i sprawdź dokładność odpowiedzi. Powtórz to samo za rok na nowszej wersji modelu. Jeśli odpowiedzi są gorsze, choć wersja jest większa i droższa, to nie błąd treningu. To efekt nowego badania, które wstrząsa branżą. Modele uczone na danych z internetu z 2025 i 2026 roku tracą zdolność rozumowania, a w teście ARC-Challenge ich wynik spada z 74,9 punktu do 57,2. Wszystko z jednego prostego powodu. Internet, na którym karmimy modele, w dużej mierze został wyprodukowany przez inne modele. Pokazujemy, co dokładnie znaleźli badacze, dlaczego retrenowanie nie pomaga oraz co to znaczy dla codziennego użytkownika ChatGPT, Claude czy Gemini.

Co badacze znaleźli w czterech otwartych modelach

Zespół z trzech amerykańskich uczelni (Texas A&M, Uniwersytet Teksański w Austin i Purdue) opublikował w październiku 2025 roku badanie wstępne o tytule “LLMs Can Get Brain Rot”. Eksperyment był prosty, dlatego wyniki łatwo odtworzyć. Cztery otwarte modele (Llama 3 8B, Qwen 2.5 7B i 0,5B oraz Qwen 3 4B) douczono ciągłym treningiem na danych z Twittera (X) o różnym poziomie jakości. Z jednej strony posty wartościowe merytorycznie, natomiast z drugiej viralowe zaśmiecone treści (“zobacz tylko”, “nie uwierzysz”, clickbait, śmieci promocyjne).

Wyniki są bezlitosne. W teście rozumowania ARC-Challenge z analizą myślową (chain of thought, czyli model pokazuje swoje rozumowanie krok po kroku) wynik spadł z 74,9 do 57,2 punktu. Spadek pojawił się w miarę jak udział śmieciowych danych w treningu rósł od 0% do 100%. Test pamięci długiego kontekstu RULER-CWE spadł jeszcze ostrzej, z 84,4 do 52,3 punktu. Niezależne pomiary pokazały też, że modele po treningu na śmieciu są mniej skłonne do potwierdzania faktów, częściej halucynują i omijają trudniejsze kroki rozumowania.

Modele AI nie psują się dlatego, że są zbyt małe. Psują się, ponieważ karmimy je niezbyt mądrym jedzeniem.

To jak człowiek, który przez pół roku ogląda tylko TikToki nastawione na kliknięcie. Mózg wciąż ma tę samą architekturę, jednak nawyki się zmieniają, a skupienie zanika. Co więcej, jak pokazują badania nad LLM, ten sam mechanizm działa na modelach języka.

Skąd “zgnilizna mózgu” w modelach AI

Korzenie problemu są starsze. W lipcu 2024 roku w czasopiśmie Nature ukazała się praca Iliii Shumailova z zespołem, która jako pierwsza opisała zjawisko nazwane “model collapse”. Reguła jest następująca. Jeśli model uczy się na danych wytworzonych przez inne modele, traci najpierw informacje z tak zwanych ogonów rozkładu, czyli rzadkie i nietypowe przypadki. Następnie, w kolejnych pokoleniach, jego dystrybucja danych zbiega się do uśrednionej karykatury rzeczywistości. Innymi słowy, model coraz bardziej brzmi jak inny model, a coraz mniej jak prawdziwy człowiek.

Dlaczego to nas dotyczy dziś? Internet z 2025 i 2026 roku jest w dużej mierze wyprodukowany przez generatory tekstu. Posty na X-ie, treści blogów, wiadomości generowane masowo, zdjęcia w mediach społecznościowych. Co więcej, badania niezależnych organizacji szacują, że nawet 50% wpisów w niektórych kategoriach (porady, opisy produktów, marketingowe artykuły) to dziś tekst maszynowy. W rezultacie kolejne pokolenia modeli, które mają być nowsze i mądrzejsze, ćwiczą w coraz większym stopniu na własnych poprzednich wymiocinach.

Ekonomista Toby Ord oraz organizacja Epoch AI ostrzegały już rok temu, że branża zbliża się do “ściany danych”. Ich szacunki mówią, że dobrej jakości tekstu od ludzi przy obecnym tempie zabraknie nam między 2026 a 2028 rokiem. To jest dokładnie ten moment, w którym dostawcy modeli sięgają po dane syntetyczne, a tym samym wpadają w sprzężenie zwrotne opisane w Nature.

Dlaczego retrenowanie nie pomaga

Najbardziej zaskakujący wynik z badania zespołu Texas A&M nie dotyczy spadku punktów, lecz nieodwracalności. Badacze sprawdzili, czy doszkolenie zepsutego modelu na czystych, dobrych danych przywróci jego pierwotne zdolności. Odpowiedź brzmi: nie do końca. W efekcie po pełnym retrenowaniu wyniki rozumowania wracają tylko częściowo, natomiast niektóre testy pamięci pozostają trwale niższe.

To ważna informacja, ponieważ wywraca jedno z założeń branży. Dotychczas dostawcy mówili: “spokojnie, jeśli kolejna wersja modelu okaże się słabsza, dotrenuje się ją na lepszych danych i wszystko wróci do normy”. Eksperyment pokazuje, że tak się nie dzieje. Nawyki nabyte na śmieciowym treningu zostają wbudowane w wagi modelu. Działa to jak hipoteka, której nie da się szybko spłacić, mimo że pensja jest wyższa.

Dlatego dostawcy zaczynają pilnie szukać “dobrych” danych poza internetem. Płatne archiwa wydawnictw, dane z książek, transkrypcje audio, anotacje od ludzi w dużych projektach. Tylko że to jest droższe i wolniejsze, a rynek wycenia firmy AI po tempie wypuszczania kolejnych wersji. W efekcie powstaje napięcie między biznesem a jakością. To napięcie zaczyna decydować o tym, co dostajesz w swoim okienku ChatGPT.

Co to znaczy dla codziennego użycia ChatGPT i innych modeli

Trzy wnioski praktyczne dla osoby, która używa AI w pracy. Po pierwsze, nowsza wersja modelu nie zawsze znaczy lepsza. Dlatego sprawdzaj wyniki w swoich konkretnych zadaniach, a nie w ogólnych tabelkach na stronie dostawcy. Jeśli wersja 5.5 daje gorsze odpowiedzi w Twoim przypadku użycia niż 5.0, to jest realna obserwacja, a nie złudzenie.

Dalej, im bardziej szczegółowe i niszowe pytanie, tym większe ryzyko, że odpowiedź będzie z ogona rozkładu, czyli z tej części, która znika najszybciej. Dlatego do tematów rzadkich (specyficzne dziedziny, języki o mniejszej liczbie tekstów, lokalne realia) warto dwa razy weryfikować odpowiedź modelu lub rozsądnie sięgnąć po źródło spoza AI.

Z kolei jeśli budujesz coś z modelami AI w automatyzacjach, warto zaplanować w przepływie pracy mechanizm porównania dwóch dostawców (na przykład Claude versus ChatGPT) na tym samym wejściu, żeby wcześnie zauważyć dryf jakości. Praktyczny przykład tego rodzaju budowy znajdziesz w artykule o 12 zasadach budowania agentów AI w produkcji, który rozkłada inżynierską stronę takich systemów.

Na koniec, nie panikuj. Badanie z Texas A&M jest pre-printem, nie zostało jeszcze zrecenzowane, a skala efektu w produkcyjnych modelach (ChatGPT, Claude, Gemini) jest większą niewiadomą niż w laboratorium. Co więcej, dostawcy są świadomi problemu i już dziś inwestują w czyszczenie zbiorów treningowych. Niemniej kierunek trendu jest jasny i warto go znać.

Pierwsza Misja AI · Kodożercy

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Kurs Pierwsza Misja AI ma dedykowaną lekcję o ciemnej stronie AI: halucynacje, deepfakes, manipulacja. Zanim zaczniesz się bać – zacznij rozumieć.

Poznaj pełny program →

Podsumowanie

Badanie zespołu z Texas A&M, Uniwersytetu Teksańskiego i Purdue z października 2025 roku pokazuje wyraźną stratę. Modele uczone na śmieciowych danych z internetu tracą do 17 punktów procentowych w teście rozumowania, a szkody są tylko częściowo odwracalne. Zjawisko nakłada się na “model collapse” opisany rok wcześniej w Nature i na ostrzeżenia o ścianie danych do 2028 roku. Co z tego dla Ciebie? Pierwsza zasada: mierz jakość modelu na własnych zadaniach, a nie na sloganie ze strony dostawcy. Druga: do niszowych pytań weryfikuj odpowiedź AI niezależnym źródłem. Z kolei jeśli budujesz automatyzacje, planuj mechanizm porównania dwóch dostawców. Branża zna problem i szuka wyjścia, ale czas między diagnozą a naprawą może wynieść kilka cykli wydawniczych. W tym czasie przewagę ma ten, kto rozumie, co naprawdę dzieje się pod maską modelu.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Degradacja modeli AI: dlaczego nowsze nie zawsze znaczy mądrzejsze

Co badacze znaleźli w czterech otwartych modelach

Skąd “zgnilizna mózgu” w modelach AI

Dlaczego retrenowanie nie pomaga

Co to znaczy dla codziennego użycia ChatGPT i innych modeli

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Degradacja modeli AI: dlaczego nowsze nie zawsze znaczy mądrzejsze

Co badacze znaleźli w czterech otwartych modelach

Skąd “zgnilizna mózgu” w modelach AI

Dlaczego retrenowanie nie pomaga

Co to znaczy dla codziennego użycia ChatGPT i innych modeli

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up