Grok 5 AGI? Co mówią benchmarki i eksperci

19 kwietnia 2026 roku Elon Musk opublikował krótki plan rozwoju kolejnych modeli xAI. Grok 4.4 z bilionem parametrów na początek maja, Grok 4.5 z półtora biliona na koniec maja. Potem ma przyjść Grok 5, który według Muska będzie AGI, czyli sztuczną inteligencją ogólną na poziomie człowieka. Sam autor szacuje prawdopodobieństwo tego ostatniego wydarzenia na dziesięć procent i rosnące. Brzmi ekscytująco, dopóki nie sprawdzisz, co o tym mówią badacze, którzy tę branżę budowali od podstaw. Yann LeCun, laureat Turinga, twierdzi wprost, że taki plan jest niemożliwy do wykonania. François Chollet, twórca biblioteki Keras, ma konkretny benchmark pokazujący dlaczego. Poniżej rozkładamy fakty, głosy i liczby, żeby zobaczyć co tak naprawdę zaplanował xAI i co branża o tym wie.

Co dokładnie zapowiedział xAI na najbliższe 60 dni

Plan Muska opiera się na superkomputerze Colossus 2 w Memphis w stanie Tennessee. To pojedyncze centrum danych o mocy jednego gigawata, czyli porównywalnej z małą elektrownią jądrową. Trenują tam równolegle modele w skalach od biliona do dziesięciu bilionów parametrów. Oficjalny plan xAI przewiduje Grok 4.4 z bilionem parametrów na początek maja i Grok 4.5 z półtora biliona na koniec maja. Grok 5 ma opierać się na architekturze Mixture-of-Experts, czyli mieszaninie ekspertów, w której model aktywuje różne podzbiory neuronów dla różnych zadań. Liczba parametrów w Grok 5 ma sięgnąć sześciu bilionów. Ten ostatni model ma pojawić się w drugim kwartale 2026 roku.

Dla porównania z liczbami, z którymi masz do czynienia na co dzień. Claude Opus 4.7 od Anthropic ma szacunkowo około biliona parametrów. GPT-5.4 od OpenAI znajduje się w podobnej skali. Grok 5, jeśli faktycznie osiągnie sześć bilionów, będzie około sześć razy większy od obecnych modeli klasy topowej. Pytanie tylko, czy to wystarczy, żeby przeskoczyć granicę AGI.

Historia obietnic AGI Elona Muska – co się sprawdziło, co nie

Obietnice AGI ze strony Muska mają konkretną historię, którą warto znać, zanim uwierzy się w kolejną. W maju 2024 roku w rozmowie z Loganem Kilpatrickiem Musk stwierdził, że AGI pojawi się “w przyszłym roku”, czyli w 2025. Nie pojawiło się. W sierpniu 2025 roku obiecał, że Grok-3 zostanie udostępniony jako open source w ciągu sześciu miesięcy, czyli w lutym 2026. Grok-3 wciąż jest modelem zamkniętym, podobnie jak Grok-4 i zapowiadany Grok-5. W grudniu 2025 roku termin AGI przesunął się na “najbliższą parę lat, może 2026”.

Wzorzec jest czytelny. Obietnica idzie naprzód o rok, a kiedy termin mija, pojawia się nowa obietnica z nowym terminem. Anonimowy badacz OpenAI skomentował tę sytuację z przymrużeniem oka w rozmowie z Futurism. Jego zdaniem dziesięcioprocentowa szansa Grok 5 na AGI to także dziesięcioprocentowa szansa, że Elon czwarty raz ogłosi osiągnięcie AGI. Żart celny, bo chwyta mechanizm. Branża nauczyła się słuchać tych zapowiedzi jak prognoz pogody z aplikacji, która pokazuje zawsze dziewięćdziesiąt procent prawdopodobieństwa deszczu, niezależnie od nieba za oknem.

Dziesięć procent to tyle samo, co szansa na to, że Elon po raz czwarty ogłosi osiągnięcie AGI.

Dlaczego Yann LeCun mówi, że skalowanie nie prowadzi do AGI

Yann LeCun to postać, której trudno wyciąć z historii nowoczesnego AI. Laureat nagrody Turinga z 2018 roku, jeden z ojców głębokiego uczenia, przez siedem lat szef naukowy AI w Meta. W grudniu 2025 roku odszedł z Meta po dwunastu latach i założył AMI Labs, stawiając na podejście zwane world models, czyli modele świata uczące się reprezentacji fizycznej rzeczywistości. Jego stanowisko w sprawie scalingu jest od lat takie samo i po odejściu tylko mocniejsze. Skalowanie się wysyca, a duże modele językowe nie są drogą do AGI.

Jego argument ilościowy jest prosty i trudny do zignorowania. Czteroletnie dziecko miało ekspozycję na dane około pięćdziesiąt razy większą niż najlepszy model LLM, tyle że są to dane wizualne, dotykowe, słuchowe, a nie tekstowe. Dziecko uczy się fizyki świata przez interakcję z nim, a model uczy się z tekstu, w którym opisy tej fizyki są wtórne. Dlatego według LeCuna nie da się dorzucić kolejnego zera do liczby parametrów i liczyć, że z tego wyłoni się ogólna inteligencja. To jak próba nauczenia się pływania przez czytanie podręcznika. Można znać każdą technikę, a po wejściu do wody i tak trzeba dopiero zacząć.

ARC-AGI – benchmark, którego żaden model jeszcze nie zdał

Drugim argumentem przeciw obietnicom AGI są twarde dane z benchmarku ARC-AGI, który zbudował François Chollet, twórca biblioteki Keras i jeden z najbardziej szanowanych inżynierów AI. ARC-AGI testuje coś, czego modele językowe są bardzo słabe. Rozpoznawanie wzorców w zadaniach, których nie było w treningu, oraz przenoszenie reguł z jednego kontekstu do innego. Czyli te umiejętności, które odróżniają ogólną inteligencję od dobrego dopasowania do zbioru treningowego.

Liczby są bezlitosne. GPT-4.5, mimo masywnego skalowania, osiągnął na ARC-AGI-1 około dziesięciu procent. Ludzie średnio powyżej dziewięćdziesięciu pięciu procent. 28 marca 2026 roku, przy okazji premiery ARC-AGI-3, nowsze modele GPT-5.4 High oraz Claude Opus 4.6 Max osiągnęły zaledwie 0,3 procent. Ludzie sto procent. To nie jest zaokrąglony wynik. To jest skala przepaści.

Dla Grok 4 dane są równie ciekawe, bo pokazują, że sama wielkość nie wystarczy. Na ARC-AGI-2 Grok 4 osiągnął 15,9 procent, podczas gdy Claude Opus 4.6 skończył z wynikiem 68,8 procent. Grok jest większy od Claude’a, a mimo tego wypada dramatycznie gorzej na tym konkretnym zadaniu. Sam Chollet nie owija w bawełnę. Stwierdził, że samo skalowanie nie doprowadzi do AGI, i poparł to liczbami.

Ludzie mają sto procent, najlepsze modele zero i trzy dziesiąte. Przepaść mierzona w porządkach wielkości.

Plot twist – nawet Anthropic cofnął własne zobowiązania bezpieczeństwa

Tu pojawia się nieoczekiwany wątek. Można by założyć, że Musk i xAI to jeden biegun, a bardziej ostrożni gracze typu Anthropic reprezentują drugi. Tak było jeszcze kilka miesięcy temu. W lutym 2026 roku Anthropic zmienił swoją politykę odpowiedzialnego skalowania modeli, z której usunął zapis zobowiązujący firmę do zatrzymania treningu silniejszych modeli, jeśli ich możliwości wyprzedzą zdolność do kontrolowania bezpieczeństwa. CNN opisała tę decyzję jako rezygnację ze sztandarowego zobowiązania bezpieczeństwa w środku sporu o czerwoną linię AI z Pentagonem.

To nie unieważnia całej filozofii Anthropic. Firma wciąż trzyma silniejszy model Mythos w szafie, o czym szerzej pisaliśmy przy okazji wycieku modelu Claude Mythos. Przy premierze nowego modelu Claude Opus 4.7 Anthropic przyznał wprost, że Mythos zostaje zamknięty z powodu ryzyka w obszarze cyberbezpieczeństwa. Jednocześnie firma wycofała twardą zasadę pauzy treningu. Wniosek smutny, ale realistyczny. Żaden gracz z czołówki branży, nawet ten który przez lata pozycjonował się jako firma stawiająca bezpieczeństwo na pierwszym miejscu, nie jest dziś gotowy stanąć na drodze wyścigu o AGI.

Co z tego wynika dla polskiej firmy wybierającej model AI

Jeśli prowadzisz firmę, która rozważa wdrożenie AI do obsługi klienta, automatyzacji procesów czy generowania treści, ten spór o AGI wydaje się odległy. Nie jest. Ma dwa praktyczne konsekwencje dla Twoich decyzji. Pierwsza brzmi prosto. Marketing producentów modeli rozjeżdża się z rzeczywistością i nie jest dobrym źródłem informacji o tym, co model faktycznie zrobi w Twoim projekcie. Drugie stwierdzenie jest jeszcze ważniejsze. Benchmarki, na które warto patrzeć, zależą od zadania, jakie stawiasz modelowi. Piszesz kod? Sprawdź SWE-bench. Budujesz agenta, który musi rozumować w nowych sytuacjach? Zerknij na ARC-AGI-2. Model ma tworzyć tekst w Twoim języku? Test z zadaniami właśnie w Twoim języku pokaże więcej niż jakikolwiek ranking globalny.

Dla porównania warto wiedzieć, że w tej chwili na SWE-bench wyniki są bliskie między Grok 4, GPT-5.4 i Claude Opus 4.6. Na benchmarku rozumowania ARC-AGI-2 Claude Opus prowadzi zdecydowanie. Na generowaniu tekstu w języku polskim najlepsze wyniki ma Claude. Nie kupujesz “AGI”. Kupujesz konkretne narzędzie do konkretnego zadania. Więcej porównań open source znajdziesz w przeglądzie modeli Qwen3.6-Plus.

Pierwsza Misja AI · Kodożercy

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

Kurs Pierwsza Misja AI ma dedykowaną lekcję o ciemnej stronie sztucznej inteligencji. Halucynacje, deepfake’i, manipulacja i hype. Zanim zaczniesz się bać albo wierzyć w każdą obietnicę, zacznij rozumieć jak to działa.

Poznaj pełny program →

FAQ – najczęstsze pytania o Grok 5 i AGI

Czy Grok 5 rzeczywiście będzie AGI?

Prawie na pewno nie. Sam Elon Musk daje tej tezie dziesięć procent szans. Najpoważniejsi badacze branży, od Yanna LeCuna po François Cholleta, twierdzą że skalowanie parametrów nie jest drogą do sztucznej inteligencji ogólnej. Benchmarki typu ARC-AGI pokazują, że nawet obecne największe modele wypadają na poziomie poniżej jednego procenta tam, gdzie ludzie osiągają sto procent.

Co to jest ARC-AGI i dlaczego jest ważny?

ARC-AGI to benchmark stworzony przez François Cholleta, twórcę biblioteki Keras. Testuje on zdolność rozumowania w zadaniach, których model nie widział w treningu, oraz przenoszenia reguł z jednego kontekstu do innego. Wielu ekspertów uważa ten test za najbliższy mierze rzeczywistej ogólnej inteligencji, bo sprawdza generalizację, a nie dopasowanie do danych treningowych.

Czy skalowanie parametrów jest bez sensu?

Nie, ale nie prowadzi do AGI. Więcej parametrów oznacza lepsze wyniki na zadaniach podobnych do tych z treningu, takich jak kod, matematyka czy rozpoznawanie faktów. Nie oznacza natomiast pojawienia się nowej, ogólnej inteligencji. Stanfordzki artykuł z 2023 roku pokazał wręcz, że tak zwane emergentne zdolności wielkich modeli są w dużej części artefaktem wyboru metryki, a nie realnych skoków w możliwościach.

Czy Anthropic jest teraz mniej bezpieczny niż był?

Firma zmieniła swoją politykę odpowiedzialnego skalowania modeli, usuwając w lutym 2026 zobowiązanie do pauzowania treningu silniejszych modeli, gdy ich możliwości wyprzedzają zdolność do kontroli. Jednocześnie wciąż trzyma silniejszy model Mythos w szafie. To sygnał, że nawet gracze stawiający bezpieczeństwo na pierwszym miejscu czują presję wyścigu.

Który model powinienem wybrać do mojego projektu?

Zależy od zadania. Do kodu Claude Opus 4.7 i Grok 4 są blisko siebie na SWE-bench. Przy rozumowaniu i zadaniach wymagających generalizacji Claude prowadzi wyraźnie. Z kolei w pisaniu po polsku Claude wypada najlepiej. Nie kupuj narracji AGI, tylko sprawdź benchmarki pokrywające Twoje realne potrzeby.

Podsumowanie

Plan Elona Muska zakłada, że Grok 5 z sześcioma bilionami parametrów trafi do odbiorców w drugim kwartale 2026 i ma dziesięć procent szans na bycie AGI. Najpoważniejsi badacze branży, od Yanna LeCuna po François Cholleta, twierdzą że taki scenariusz jest praktycznie niemożliwy, a dane z benchmarku ARC-AGI to potwierdzają. W tym samym czasie Anthropic, który jeszcze niedawno uchodził za sumienie branży, zdjął własne zobowiązanie pauzy treningu silniejszych modeli. Morał nie brzmi dramatycznie, tylko praktycznie. Obietnice AGI są dziś narzędziem marketingowym, a nie prognozą technologiczną. Jeśli wybierasz model AI do swojego projektu, patrz na konkretny benchmark pokrywający Twoje zadanie i na realne wyniki modelu w Twoim języku.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Grok 5 AGI – czy plan Elona Muska ma pokrycie w rzeczywistości

Co dokładnie zapowiedział xAI na najbliższe 60 dni

Historia obietnic AGI Elona Muska – co się sprawdziło, co nie

Dlaczego Yann LeCun mówi, że skalowanie nie prowadzi do AGI

ARC-AGI – benchmark, którego żaden model jeszcze nie zdał

Plot twist – nawet Anthropic cofnął własne zobowiązania bezpieczeństwa

Co z tego wynika dla polskiej firmy wybierającej model AI

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

FAQ – najczęstsze pytania o Grok 5 i AGI

Czy Grok 5 rzeczywiście będzie AGI?

Co to jest ARC-AGI i dlaczego jest ważny?

Czy skalowanie parametrów jest bez sensu?

Czy Anthropic jest teraz mniej bezpieczny niż był?

Który model powinienem wybrać do mojego projektu?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Grok 5 AGI – czy plan Elona Muska ma pokrycie w rzeczywistości

Co dokładnie zapowiedział xAI na najbliższe 60 dni

Historia obietnic AGI Elona Muska – co się sprawdziło, co nie

Dlaczego Yann LeCun mówi, że skalowanie nie prowadzi do AGI

ARC-AGI – benchmark, którego żaden model jeszcze nie zdał

Plot twist – nawet Anthropic cofnął własne zobowiązania bezpieczeństwa

Co z tego wynika dla polskiej firmy wybierającej model AI

Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa

FAQ – najczęstsze pytania o Grok 5 i AGI

Czy Grok 5 rzeczywiście będzie AGI?

Co to jest ARC-AGI i dlaczego jest ważny?

Czy skalowanie parametrów jest bez sensu?

Czy Anthropic jest teraz mniej bezpieczny niż był?

Który model powinienem wybrać do mojego projektu?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up