24 kwietnia 2026 roku chińskie laboratorium DeepSeek wrzuciło na HuggingFace dwa modele. V4-Pro z 1,6 biliona parametrów i V4-Flash z 284 miliardami. Oba mają milionowe okno kontekstu i licencję MIT. Stało się to kilka godzin po tym, jak OpenAI pokazało GPT-5.5 na konferencji inwestorskiej. Ceny zaskakują jednak bardziej niż parametry. Flash kosztuje 0,14 dolara za milion tokenów wejściowych i 0,28 dolara za wyjściowe. Są to stawki niższe niż najtańszy GPT-5.4 Nano. Pro jest porównywalny wydajnościowo z Claude Opus 4.7. Wychodzi jednak za 1,74 dolara wejścia i 3,48 wyjścia za milion tokenów. Dlatego jest to dziś najtańszy model klasy frontier na rynku. Warto więc sprawdzić, co DeepSeek zaoferował. Warto też ocenić, na ile benchmarki trzymają się rzeczywistości i co z tego wynika dla firm w Polsce.
Co DeepSeek wypuścił 24 kwietnia
Na stronie deepseek-ai na HuggingFace pojawiły się w ciągu kilku godzin cztery repozytoria. Pierwsze to DeepSeek-V4-Pro z 1,6 biliona parametrów. Działa w architekturze Mixture-of-Experts (MoE) i aktywuje tylko 49 miliardów na pojedynczy token. Drugim jest DeepSeek-V4-Flash z 284 miliardami parametrów całkowitych i 13 miliardami aktywnych. Poza tym są też bazowe wersje Pro-Base i Flash-Base. Służą tym, którzy chcą dotrenowywać modele pod własne zastosowania.
Oba modele obsługują okno kontekstu o długości miliona tokenów. Dla porównania, to około siedmiu tysięcy stron tekstu w jednym zapytaniu. Cała większa dokumentacja techniczna, wszystkie pliki projektu, całe logi sesji – model może je przetworzyć w jednym wywołaniu, bez cięcia na kawałki.
Licencja to MIT, najbardziej liberalna z otwartych licencji. Komercyjne użycie, modyfikacje, dystrybucja – wszystko dozwolone, bez zobowiązań udostępniania zmian. Dzięki temu firmy mogą hostować model u siebie, zmieniać go pod własne potrzeby i nie muszą tym dzielić się z nikim.
DeepSeek nie sprzedaje jednak tylko wag. Razem z modelami dostępne jest pełne API na platformie deepseek.com z tą samą ceną. Poza tym są kwantyzowane warianty do lokalnego uruchomienia (llama.cpp, LM Studio, Jan, Ollama) oraz raport techniczny opisujący architekturę. Dzięki temu pakiet trafia do dwóch światów jednocześnie. Z jednej strony do firm, które chcą płacić za API jak za każdy inny model. Z drugiej do tych, którzy chcą go postawić na własnych serwerach.
Ile to kosztuje wobec konkurencji
Różnica w cenach nie jest kosmetyczna. Przy zadaniach agentowych, które generują setki tysięcy tokenów wejścia i wyjścia dziennie, rachunek zaczyna wyglądać dramatycznie inaczej.
V4-Pro wykonuje większość zadań kodujących i agentowych porównywalnie z Claude Opus 4.7, ale kosztuje kilkukrotnie mniej za milion tokenów wyjściowych.
Weź typowy przykład. Agent codziennie przeczytuje repozytorium kodu o rozmiarze stu tysięcy linii i proponuje poprawki. Generuje w ten sposób około dwustu milionów tokenów wejścia i dwudziestu milionów wyjścia miesięcznie. Na Claude Opus 4.7 taki agent kosztuje kilkaset dolarów. Natomiast ten sam workflow na V4-Pro schodzi do kwoty dwucyfrowej. A na V4-Flash – poniżej dziesięciu dolarów miesięcznie.
Cena za milion tokenów wyjściowych w modelach klasy frontier wygląda dziś mniej więcej tak:
- DeepSeek V4-Flash: 0,28 dolara
- DeepSeek V4-Pro: 3,48 dolara
- GPT-5.4 Nano: około 0,40 dolara
- Claude Sonnet 4.6: 15 dolarów
- GPT-5.5: 10 dolarów
- Claude Opus 4.7: 75 dolarów
To jest różnica rzędu wielkości, nie procenty. Dla zespołów, które budują produkty z intensywnym użyciem AI, to zmienia wszystko. Chatboty, agenty monitorujące, automatyzacje kodu – wszystkie te przypadki użycia przechodzą z kalkulacji nierealnej w sensowną.
Jak to jest zbudowane – MoE i hybrydowa uwaga
Techniczna ciekawostka, która stoi za tak agresywnymi cenami, mieści się w dwóch architekturach. Pierwsza to Mixture-of-Experts. Jest to klasyczne podejście, w którym model ma biliony parametrów. Aktywuje jednak przy pojedynczym zapytaniu tylko ich ułamek. W V4-Pro z 1,6 biliona parametrów w pracy jest 49 miliardów. Reszta śpi. To jak zespół stu specjalistów, z których przy zadaniu pracuje trzech. Jeden zna kod, drugi zna matematykę, trzeci syntetyzuje.
Druga to hybrydowa uwaga łącząca Compressed Sparse Attention (CSA) i Heavily Compressed Attention (HCA). Szczegóły znajdziesz w raporcie technicznym DeepSeek. W praktyce efekt jest taki, że przy milionowym kontekście V4 potrzebuje tylko 27% mocy obliczeniowej i 10% pamięci KV cache. Dla porównania, dotąd tyle wymagał poprzednik V3.2. Innymi słowy, ten sam serwer, który obsługiwał jednego klienta na V3.2, obsłuży dziesięciu klientów na V4. Dlatego też ceny API są tak niskie.
Do tego dochodzą Manifold-Constrained Hyper-Connections, nowy optymalizator Muon, 32 biliony tokenów danych treningowych i dwustopniowy pipeline dotrenowywania. Dla programistów praktyczne znaczenie ma to, że model ma trzy tryby. Non-Think służy do szybkich odpowiedzi. Think High wchodzi przy rozumowaniu. Think Max rezerwujemy dla najbardziej wymagających zadań matematycznych czy agentowych.
Benchmarki – gdzie V4 ugina kolana Claude i GPT
DeepSeek podaje w karcie modelu serię liczb, które warto brać z ostrożnością. Każde laboratorium publikuje własne wyniki w korzystnym świetle. Niektóre są jednak na tyle blisko rzeczywistości, że niezależni testerzy już je potwierdzają. W trybie Max, V4-Flash osiąga:
- SWE-Bench Verified (realne zadania inżynierskie): 79,0
- LiveCodeBench (kodowanie): 91,6
- GPQA Diamond (pytania doktoranckie): 88,1
- MMLU-Pro (ogólna wiedza): 86,2
- Codeforces Rating: 3052
V4-Pro sięga jeszcze wyżej. Na SWE-Bench Verified wyciąga 80,6. Oznacza to dwie dziesiąte punktu mniej niż Claude Opus 4.7 (80,8). Na IMOAnswerBench (zadania olimpijskiej matematyki) osiąga 89,8. Bije w ten sposób Claude Opus (75,3) i Gemini 3.1 Pro (81,0), ustępując tylko GPT-5.4 (91,4). To nie jest dogonienie czołówki o jeden punkt. To parkowanie obok niej.
Simon Willison testował V4 tuż po premierze. Ocenił, że DeepSeek zostaje za absolutną czołówką o około 3-6 miesięcy w rozwoju. Jakość dla większości zadań produkcyjnych jest jednak praktycznie nie do odróżnienia. Sam planuje uruchomić kwantyzowaną wersję Flash lokalnie na swoim MacBook Pro z 128 GB pamięci. Warto też porównać V4 z innym świeżym open source. Na przykład Qwen 3.6 27B dogania Claude Sonnet 4.6 przy dramatycznie mniejszym rozmiarze.
Kurs n8n 2.0 · Kodożercy
n8n + AI = automatyzacje, które naprawdę myślą
n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do ChatGPT, analizować wyniki, reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć.
Sprawdź jak to działa →

Co to znaczy dla firm w Polsce
Polskie firmy od dłuższego czasu mają dwa bóle z modelami AI. Po pierwsze, dane lecą do OpenAI albo Anthropica. W efekcie kontrolerzy RODO patrzą na to coraz bardziej podejrzliwie. Po drugie, ceny Opusa i GPT-5 są wysokie na tyle, że skomplikowane agenty produkcyjne nie zwracają się przy polskich stawkach. DeepSeek V4 rozwiązuje oba problemy jednocześnie.
Open source z licencją MIT oznacza, że firma może postawić model na własnym serwerze, we własnym centrum danych, bez wysyłania jednego bajta do chińskiej chmury. Wystarczy odpowiednia infrastruktura. Jedna karta H200 z 141 GB VRAM obsłuży Flasha w kwantyzacji, natomiast V4-Pro potrzebuje większego klastra. Dzięki temu Twój model zostaje pod Twoją kontrolą. To zupełnie inna rozmowa z działem prawnym niż “prosimy przesłać umowę DPA z OpenAI”.
Cena natomiast otwiera drogę do automatyzacji, które dotąd były za drogie. Na przykład agent, który analizuje dwa tysiące wiadomości klientów dziennie i proponuje odpowiedzi. Albo system, który czyta każdy kontrakt ze stu stronami i wyciąga ryzyka. Asystent przepisujący dziesięć tysięcy produktów z niemieckiego na polski z korektą stylistyczną. Wszystkie te przypadki użycia przy cenach Claude Opus kosztowały kilkadziesiąt tysięcy złotych miesięcznie. Natomiast przy V4-Flash – kilkaset.
Warto jednak pamiętać, że DeepSeek to firma chińska. Dla niektórych branż to jest po prostu nie do zaakceptowania ze względów strategicznych czy regulacyjnych. Bankowość, obronność, instytucje rządowe – tu dalej rozmawiamy o Claude Enterprise i Azure OpenAI. Natomiast dla większości firm, które nie przechowują tajemnic państwowych, barierą pozostaje świadomość narzędzia, nie polityka.
Jak uruchomić DeepSeek V4 lokalnie
DeepSeek przewidział kilka dróg wdrożenia. Najprostsza to API, bez ściągania wag. Wystarczy klucz z platformy deepseek.com. Dzięki temu można wysyłać zapytania jak do każdego innego modelu, za ułamek ceny. Format jest kompatybilny z OpenAI. Dlatego istniejący kod Python lub Node z biblioteką openai przełączysz na DeepSeek podmianą dwóch linii.
Druga droga to lokalne uruchomienie. V4-Flash w kwantyzacji FP4 + FP8 mixed waży 158 GB. Jeśli masz MacBook Pro M3 Max z 128 GB pamięci, zmieści się przy drobnych kompromisach. Komfortowo uruchomisz go na stacji roboczej z kartą H100/H200 lub klastrem Apple Silicon. Wsparcie jest już w czterech narzędziach. Pierwsze to llama.cpp dla devów preferujących kompilację. LM Studio daje interfejs dla zwykłych użytkowników. Jan to otwarta alternatywa. Ollama jest najpopularniejsza.
V4-Pro to inny świat infrastruktury. 1,6 biliona parametrów nawet w kwantyzacji wymaga klastra z kilkunastoma GPU. Dlatego dla większości firm bardziej realistyczne będzie API lub hosting chmurowy. AWS Bedrock, Together.ai czy Fireworks szybko podłączają nowe modele do oferty. Na przykład Qwen i Llama pojawiały się u nich w 48 godzin od premiery.
FAQ – najczęstsze pytania o DeepSeek V4
Czy DeepSeek V4 naprawdę dorównuje Claude Opus?
W zadaniach inżynierskich i agentowych różnica jest minimalna. V4-Pro osiąga 80,6 na SWE-Bench Verified, Claude Opus 4.7 – 80,8. Natomiast na IMOAnswerBench V4-Pro bije Opusa o 14 punktów. W zadaniach kreatywnych i pisaniu długich tekstów po polsku Claude nadal jest bardziej wyrafinowany. Simon Willison oszacował opóźnienie DeepSeeka wobec frontieru na 3-6 miesięcy. Dla większości zastosowań produkcyjnych to jednak różnica, której nie zauważysz bez ślepego testu.
Czy mogę zaufać modelowi z Chin w kontekście danych firmowych?
To pytanie o ryzyko, nie technikę. Model open source na licencji MIT, uruchomiony na własnym serwerze, nie wysyła danych nigdzie. Ryzyko pojawia się jednak, gdy korzystasz z API DeepSeeka. Wtedy Twoje dane trafiają na ich serwery w Chinach. Podobnie zresztą dane u OpenAI trafiają na serwery w USA. Dla firm pod RODO kluczowe jest, gdzie dane są przetwarzane i kto ma do nich dostęp. Dlatego lokalny deployment DeepSeek V4 daje pełną kontrolę. Natomiast API DeepSeek – nie.
Jak szybko można podłączyć V4 do istniejącego stacka AI?
Jeśli masz już integrację z API OpenAI, podmiana zajmuje pięć minut. DeepSeek udostępnia endpoint kompatybilny z formatem OpenAI. Dlatego wystarczy zmienić adres URL i klucz API. Platformy typu n8n, LangChain czy LlamaIndex przełączysz bez zmian kodu biznesowego. W kursie n8n 2.0 pokazujemy, jak takie przełączenie modelu wykonać bez dotykania gotowych workflow. Natomiast do lokalnego deploymentu droga jest dłuższa – dzień do tygodnia, zależnie od infrastruktury.
Podsumowanie
DeepSeek V4 to najbardziej agresywny ruch open source wobec modeli frontier w 2026 roku. V4-Pro dorównuje Claude Opus w zadaniach kodujących i bije go w matematyce. Cena jest przy tym ułamkiem stawek konkurencji. V4-Flash zdobywa poziom GPT-4.1 za centy. Do tego model jest na licencji MIT. Dlatego można go hostować u siebie, modyfikować i budować na nim produkty bez zobowiązań licencyjnych.
Dla polskich firm to realna alternatywa – zarówno pod kątem kosztów, jak i kontroli nad danymi. Branże regulowane nadal będą wybierać zachodnich dostawców. Natomiast dla większości przypadków użycia bariera wejścia w intensywną automatyzację AI właśnie spadła dziesięciokrotnie. Dlatego warto potestować obok swojego stosu GPT czy Claude, zmierzyć jakość na własnych zadaniach i zdecydować, gdzie V4 faktycznie zastępuje drogie API, a gdzie lepiej zostać przy dotychczasowym modelu.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



