Caveman prompting - 75% tańszy Claude? Sprawdzamy

“Me talk short. No explain. Tool first. Result first.” Siedem słów systemowego prompta, których używa szesnastoletni developer, żeby Claude odpowiadał mu jak prehistoryczny myśliwy. Oryginalny post na podgrupie dyskusyjnej r/ClaudeAI zebrał dziesięć tysięcy głosów i czterysta komentarzy, rozszedł się viralowo po X i Mediumie, a społeczność zaczęła mówić o “najpotężniejszej technice promptowej 2026 roku”. Liczby były dramatyczne: 75% mniej tokenów, 75% mniejsze rachunki za API. Tydzień później deweloperzy puścili benchmark na prawdziwych zadaniach i otrzymali zupełnie inne wyniki. Dlatego warto rozebrać caveman prompting na części, zrozumieć kiedy rzeczywiście działa i kiedy to tylko marketing.

Co to jest caveman prompting i skąd się wzięło

Caveman prompting to technika, w której dajesz modelowi AI systemową instrukcję: odpowiadaj krótko, bez uprzejmości, bez wypełniaczy, jak jaskiniowiec uczący się języka. Zamiast “Oczywiście, z chęcią pomogę. Oto wyjaśnienie, dlaczego Twój komponent React renderuje się ponownie…”, model odpowiada “New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo.” Ta sama informacja, jedna czwarta tokenów, zero uprzejmości.

Pomysł nie jest nowy, ale wybuchł dopiero w kwietniu 2026 po poście na r/ClaudeAI, który rozszedł się po X w wersji polskiej dzięki Pawłowi Hurynowi. “Szesnastolatek obciął tokeny wyjściowe Claude o 75%. Trik: każ mu mówić jak jaskiniowiec. Mniej ‘z chęcią pomogę’, więcej ‘zrobione'” – brzmiał wiral. To jak włożenie knebla modelowi, który ma naturalny odruch grzeczności i musi wszystko opakować w dyplomatyczny ton.

W tydzień pojawiły się dwa otwarte projekty na GitHubie, które pakują tę technikę w oficjalne skille dla Claude Code. JuliusBrussee/caveman zebrał ponad pięćset gwiazdek i oferuje cztery poziomy kompresji – Lite, Full, Ultra i nawet Wenyan (klasyczny chiński, jeszcze gęstszy niż caveman angielski). Shawnchee/caveman-skill ma benchmarki pokazujące 68% redukcji na zapytaniach webowych, 50% na edycjach kodu i 72% na pytania i odpowiedzi.

Jak działa – zasady i przykłady

Cały trik mieści się w kilku zasadach, które model dostaje w prompcie systemowym. Wersja skrócona, która w testach pokonała oryginalny pięciusetlinijkowy tutorial, wygląda tak:

Mów jak sprytny jaskiniowiec. Wytnij wypełniacze, zostaw techniczną substancję. Skreśl rodzajniki, grzeczności, niepewność. Fragmenty OK. Krótkie synonimy. Terminy techniczne bez zmian. Bloki kodu bez zmian. Wzorzec: [co] [akcja] [powód]. [następny krok].

W praktyce model dostaje cztery rzeczy do usunięcia: pełne zdania z łącznikami, uprzejmości typu “z chęcią”, ostrożnościowe hedge’owanie (“mogłoby być”, “prawdopodobnie”) oraz wszystkie powtórzenia kontekstu. Zostaje techniczna substancja – dokładnie to, po co odpala się model.

Porównanie: pytanie o sieci neuronowe. Normalna odpowiedź Claude’a to 460 tokenów z całą warstwą pedagogicznej otoczki. Caveman: “Sieci neuronowe: warstwy połączonych węzłów. Warstwa wejściowa bierze dane. Warstwy ukryte znajdują wzorce. Warstwa wyjściowa daje wynik.” – 80 tokenów. Ta sama esencja, bez dydaktycznej wyściółki.

Model już wie, jak być krótki. On nie potrzebuje pięciuset linii tutorialu. Potrzebuje sześciu linii zgody.

To brzmi prosto, ale w praktyce zmienia obraz tego, kto tu komu płaci. Jeśli płacisz za tokeny wyjściowe, a odpowiedzi mają 300 słów grzeczności na 100 słów treści, to 75% twojego rachunku idzie na dyplomację modelu. W tym sensie caveman prompting to nie technika promptowania, tylko cięcie kosztów zamaskowane jako zabawa stylistyczna.

Skąd 75%? Skąd 14%? Co mówi benchmark

Gdy technika zaczęła wirować, polski developer Kuba Guzik zrobił rzetelny benchmark na Medium i dev.to. Przetestował trzy wersje prompta na Claude Sonnet 4.6 i Opus 4.7. Warianty to baseline bez instrukcji, pełny caveman z 552 tokenami oraz minimalistyczny mikro-prompt z 85 tokenów. Zadania realne: diagnozowanie awarii produkcyjnych z logów i wyciąganie ustawień z kodu. Każdy scenariusz powtarzany 36 razy, z automatyczną weryfikacją jakości odpowiedzi względem znanych prawidłowych wyników.

Rezultaty były chłodzące:

Claude Sonnet: baseline 259 tokenów, caveman pełny 225 tokenów (redukcja 13%), mikro-wersja 223 tokeny (redukcja 14%)
Claude Opus: baseline 227 tokenów, caveman pełny 207 tokenów (redukcja 9%), mikro-wersja 180 tokenów (redukcja 21%)

Żaden wynik nie zbliżył się nawet do 50%, nie mówiąc o 75%. Co więcej, krótka wersja prompta (85 tokenów) pobiła pełną wersję (552 tokeny) – bo sam prompt caveman jest kosztem, który liczy się do bilansu. Dlaczego więc wiralowe claimy mówiły o 75%? Bo były szczere pod jednym warunkiem. Liczyły tylko tokeny wyjściowe, w wybranych zadaniach pytanie-odpowiedź, gdzie model naturalnie się rozpisuje. Gdy twoja rozmowa to długie kodowanie z czterema plikami w kontekście, wejście pożera 90% rachunku. Caveman nie zrobi tu żadnej różnicy.

Guzik ujął to bezlitośnie: “14 do 21 procent to nie jest 75 procent. Ta rozbieżność jest najważniejszą częścią tej historii.” Cięcia są realne, ale rząd wielkości inny niż marketing.

Kiedy caveman prompting ma sens, a kiedy nie

Po spojrzeniu na benchmark łatwo ocenić, kiedy ta technika zwróci się szybciej niż trzy minuty jej wdrożenia.

Ma sens, gdy:

Robisz dużo krótkich zapytań typu Q&A, gdzie wyjście dominuje kontekst (chatboty, asystenci na stronach, prosta analiza tekstu)
Generujesz dużo treści z krótkiego promptu (nagłówki, opisy, podsumowania)
Pracujesz na tanim modelu i każdy grosz liczy się przy skali milionów zapytań

Nie ma sensu, gdy:

Piszesz kod z dużym kontekstem (całe pliki, repo, dokumentacja) – tokeny wejściowe są wtedy wielokrotnie większe niż wyjściowe
Potrzebujesz czytelnych odpowiedzi dla użytkowników końcowych – caveman styl brzmi dziwacznie w produkcie
Używasz modelu z thinking tokens (na przykład Opus 4.7 z rozszerzonym myśleniem) – reasoning się nie kurczy

Przy okazji pojawił się drugi paradoks. Caveman prompting obciął jeden z czterech kosztów, ale nie rusza input tokens, thinking tokens ani kosztu kontekstu przechowywanego w pamięci. Cache, dokumenty, historia rozmowy – to wszystko dalej puchnie tak samo. Jeśli chcesz naprawdę ciąć rachunki, planowanie limitów tokenów w Claude Code daje większe zwroty niż cwane promptowanie.

Pierwsza Misja AI · Kodożercy

Używasz AI codziennie, ale czy robisz to dobrze?

Kurs Pierwsza Misja AI pokaże Ci techniki promptowania, które naprawdę działają. 27 ćwiczeń z prawdziwym GPT-4, gamifikacja i certyfikat. Wszystko w 8 godzin.

Sprawdź program kursu →

Jak sam spróbować w Claude lub ChatGPT

Najprostszy wariant to wklejenie do systemowego prompta sześciu linii, które pobiły w teście pięćsetpięćdziesięciolinijkową wersję:

Mów jak sprytny jaskiniowiec. Tnij wszystko zbędne, zostaw techniczną substancję.
Skreśl rodzajniki (a, an, the), wypełniacze (really, basically, actually).
Skreśl uprzejmości (sure, certainly, happy to). Brak hedge'owania.
Fragmenty OK. Krótkie synonimy. Terminy techniczne bez zmian.
Bloki kodu bez zmian. Wzorzec: [co] [akcja] [powód]. [następny krok].

Wklej to w systemowe ustawienia projektu w Claude albo jako pierwszy komunikat rozmowy w ChatGPT. Model przełączy się do skompresowanego trybu i zostanie w nim do końca sesji. Jeśli chcesz wrócić do normalnego stylu, wystarczy napisać “normal mode” – to konwencja, którą community ustaliło dla caveman skilli.

Dla bardziej zaawansowanych opcja to gotowy plugin. claude plugin marketplace add JuliusBrussee/caveman && claude plugin install caveman@caveman instaluje plik SKILL.md, który sam aktywuje się, gdy zadanie na to pozwala. Masz też opcję wersji Lite (mniej agresywna, dla profesjonalnych odpowiedzi) i Ultra (maksymalna kompresja, czyta się ciężko, ale tnie najwięcej).

FAQ – najczęstsze pytania o caveman prompting

Czy caveman prompting obniża jakość odpowiedzi modelu?

W testach Kuby Guzika jakość odpowiedzi była weryfikowana automatycznie i żaden wariant – ani pełny, ani mikro – nie spowodował spadku poprawności. Model nie myśli wolniej ani gorzej, tylko krócej formatuje wynik. Ryzyko zaczyna się, gdy prosisz o wyjaśnienia dla użytkownika końcowego, który nie jest programistą. Wtedy zamiast czystej wypowiedzi dostajesz telegram, który trudniej zrozumieć. Dla zastosowań “człowiek czyta odpowiedź od człowieka” caveman bywa zbyt agresywny.

Czy to działa tylko z Claude, czy też z ChatGPT i innymi modelami?

Technika jest modelowo-niezależna, bo bazuje na zasadzie “model dostaje pozwolenie, żeby mówić krótko”. Działa tak samo z GPT, Gemini, Mistral i wszystkimi lokalnymi modelami, które rozumieją instrukcje systemowe. Różnice są w tym, jak wiernie każdy model przestrzega caveman stylu przez całą sesję. Claude trzyma się zasad twardo, GPT dryfuje z powrotem do grzeczności po kilku turach i trzeba mu przypomnieć, Gemini też skłania się do rozwlekłości.

Jakie realne oszczędności powinienem przyjąć, planując koszty na API?

Zakładaj 15-25% redukcji na zwykłych zadaniach kodowania i do 40-50% na krótkich zapytaniach typu Q&A lub generowaniu treści. Deklaracje 75% z wiralowych postów biorą się z wybranych zadań, w których wyjście naturalnie dominowało. Jeśli planujesz budżet dla produktu, licz ostrożnie – caveman to optymalizacja, a nie przewrót. Do realnych oszczędności przy skali dojdziesz szybciej przez cache promptu, mniejszy model dla prostszych zadań albo cięcie kontekstu.

Podsumowanie

Caveman prompting to ciekawa technika, która bierze się z prostego spostrzeżenia. Modele AI z automatu wypełniają odpowiedzi grzecznością, hedgiem i pedagogicznym kontekstem, a to wszystko liczy się do rachunku. Dając modelowi sześć linii systemowego prompta można wyciąć 14-21% tokenów wyjściowych w typowych zadaniach, a przy krótkich Q&A nawet ponad połowę.

To nie jest jednak obcięcie rachunku o 75%, jak krzyczały wiralowe posty. Input tokens, thinking tokens i kontekst rozmowy zostają nienaruszone, a przy kodowaniu z dużym repo dominują one rachunek tak, że caveman ma niewielki wpływ na końcową kwotę. Jeśli chcesz pobawić się tą techniką – rób to dla zabawy i lekkich oszczędności. Jeśli chcesz naprawdę ciąć koszty produkcyjne – zacznij od cache’u, mniejszego modelu dla prostych zadań i świadomego projektowania kontekstu. Caveman jest fajny, ale to jedno ze stu narzędzi, nie srebrna kula.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Caveman prompting – czy naprawdę obcina koszty Claude o 75%?

Co to jest caveman prompting i skąd się wzięło

Jak działa – zasady i przykłady

Skąd 75%? Skąd 14%? Co mówi benchmark

Kiedy caveman prompting ma sens, a kiedy nie

Używasz AI codziennie, ale czy robisz to dobrze?

Jak sam spróbować w Claude lub ChatGPT

FAQ – najczęstsze pytania o caveman prompting

Czy caveman prompting obniża jakość odpowiedzi modelu?

Czy to działa tylko z Claude, czy też z ChatGPT i innymi modelami?

Jakie realne oszczędności powinienem przyjąć, planując koszty na API?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Caveman prompting – czy naprawdę obcina koszty Claude o 75%?

Co to jest caveman prompting i skąd się wzięło

Jak działa – zasady i przykłady

Skąd 75%? Skąd 14%? Co mówi benchmark

Kiedy caveman prompting ma sens, a kiedy nie

Używasz AI codziennie, ale czy robisz to dobrze?

Jak sam spróbować w Claude lub ChatGPT

FAQ – najczęstsze pytania o caveman prompting

Czy caveman prompting obniża jakość odpowiedzi modelu?

Czy to działa tylko z Claude, czy też z ChatGPT i innymi modelami?

Jakie realne oszczędności powinienem przyjąć, planując koszty na API?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up