Skip to content
Frontend Master 2026
HTML, CSS, JS i Git w jednym pakiecie
Sprawdź
Frontend Master 2026
Sprawdź
devstock logo
  • O nas
  • Moduły Akademii
    • Moduł 1
    • Moduł 2
    • Moduł 3
    • Pozostałe moduły
  • Kursy AI i IT
    • Pierwsza Misja AI (Podstawy)
    • Automatyzacje z n8n 2.0
    • Frontend Master 2026
  • Blog
  • Kontakt
  • O nas
  • Moduły Akademii
    • Moduł 1
    • Moduł 2
    • Moduł 3
    • Pozostałe moduły
  • Kursy AI i IT
    • Pierwsza Misja AI (Podstawy)
    • Automatyzacje z n8n 2.0
    • Frontend Master 2026
  • Blog
  • Kontakt
Kurs Automatyzacji z n8n - banner reklamowy
Narzędzia i Automatyzacja

DeepSeek V4 Flash lokalnie na Macu 128 GB z silnikiem ds4 antireza

  • 08 maj, 2026
  • Komentarze 0
DeepSeek V4 Flash MacBook 128 GB - lokalny model AI z silnikiem ds4 dla Metal

Co zrobiłbyś, gdybyś mógł odpalić chiński model klasy frontowej na własnym MacBooku, bez konta, bez API i bez wysyłania kodu klienta do chmury? Salvatore Sanfilippo, twórca Redisa znany w sieci jako antirez, w niecały tydzień napisał silnik ds4. Jest to natywny inference engine dla Metala, dedykowany jednemu modelowi: DeepSeek V4 Flash. Projekt wskoczył wczoraj na pierwszą stronę Hacker News, bo mieści cały model z myśleniem (thinking) na Macu z 128 GB unified memory. To jest moment, w którym lokalne AI przestaje być eksperymentem dla home labów z pełną wieżą serwerową.

Czym jest ds4 i dlaczego antirez napisał własny silnik

ds4 to celowo wąski projekt – nie generyczny runner GGUF, nie nakładka na inny silnik i nie kolejny framework. Repozytorium ds4 na GitHubie zawiera dedykowany Metal graph executor zaprojektowany specjalnie dla architektury DeepSeek V4 Flash. Po polsku: kod liczy tylko te operacje, które ten konkretny model potrzebuje, i robi to w sposób, który Apple Silicon rozumie natywnie.

Dlaczego to ma znaczenie? Bo standardowe runtime’y typu llama.cpp obsługują dziesiątki rodzin modeli i muszą iść kompromisem między elastycznością a wydajnością. Ds4 idzie w drugą stronę. Pisany od zera pod jeden model, dostraja każdą warstwę i każde wywołanie kernela na Metalu. Efekt? V4 Flash z włączonym myśleniem działa płynnie tam, gdzie inne modele tego rozmiaru praktycznie się nie odpalają.

Dlatego klucz do zmieszczenia 284 miliardów parametrów na 128 GB to specjalna kwantyzacja 2-bit. Standardowo 2-bit oznacza utratę jakości na poziomie zauważalnym przez użytkownika. Jednak antirez znalazł sposób kwantyzacji, który zachowuje większość zdolności rozumowania modelu, kosztem utraty części precyzji w częściach mniej wrażliwych.

DeepSeek V4 Flash w skrócie – 284B parametrów, 13B aktywnych, MIT

Tymczasem DeepSeek wydał V4 Flash 24 kwietnia 2026 razem z większym wariantem V4 Pro, na licencji MIT. To otwarte wagi, które możesz pobrać, hostować i modyfikować bez pytania nikogo o zgodę. Architektura MoE (mixture of experts) ma 284 miliardy parametrów łącznie, ale na pojedyncze zapytanie aktywuje tylko 13 miliardów. To jak orkiestra symfoniczna, w której nigdy nie grają wszyscy naraz – każdy utwór odpala innych instrumentalistów, więc cała sala mieści się tam, gdzie pełen sklad nigdy by nie wszedł.

W benchmarkach kodowania Flash z karty modelu na Hugging Face osiąga 79,0 procent na SWE-bench Verified i 91,6 procent na LiveCodeBench Pass@1. Większy V4 Pro Max ma 80,6 i 93,5 procent. Różnica między Flash i Pro to mniej niż 2 punkty procentowe na zadaniach kodowych. Tymczasem koszt hostowania Flasha jest dużo niższy.

Co więcej, drugim dużym atutem jest kontekst: natywne 1 milion tokenów. Architektura V4 wprowadza Compressed Sparse Attention i Heavily Compressed Attention, co realnie skraca czas obsługi długich rozmów. Dla użytkownika końcowego znaczy to, że teoretycznie całą polską ustawę albo cały kod backendu możesz wrzucić do jednego promptu, choć praktyczny limit zależy od pamięci sprzętu i wybranej kwantyzacji.

Co realnie dostaniesz na MacBooku M4 Max z 128 GB

Z kolei społeczność LocalLLaMA przetestowała Flasha na różnych konfiguracjach Apple Silicon. Mac Studio M4 Max z 192 GB unified memory daje 25 do 35 tokenów na sekundę z kwantyzacją Q4_K_M w MLX. Co więcej, komfortowy kontekst sięga przy tym 64 do 128 tysięcy tokenów. Dla porównania DeepSeek na własnym, hostowanym API mierzy około 83 tokeny na sekundę, ze startem pierwszego tokenu rzędu jednej sekundy. Lokalne 35 tok/s to mniej więcej 40 procent szybkości chmury, ale za zerową stawką per token i bez wysyłania danych poza komputer.

Tymczasem ds4 idzie krok dalej. Na MacBooku Pro z procesorem M4 Max i 128 GB unified memory uruchamia Flasha z włączonym myśleniem dzięki tej specjalnej kwantyzacji 2-bit. Antirez sam pisze, że to nie jest projekt produkcyjny. To raczej dowód, że przy odpowiedniej dyscyplinie i wiedzy o Metalu da się zrobić rzeczy, które na pierwszy rzut oka brzmią jak fantastyka.

DeepSeek V4 Flash Apple Silicon - tabela porównawcza M3 Ultra M4 Max MacBook Pro
Porównanie konfiguracji Apple Silicon dla DeepSeek V4 Flash – dane z testów społeczności i projektu ds4, maj 2026

ds4 vs MLX vs llama.cpp – kiedy które wybrać

Trzy ścieżki dają trzy różne profile użytkowania. Po pierwsze MLX, czyli oficjalny framework Apple do uczenia maszynowego. Wersja 0.24 dostała pełne wsparcie dla MoE expert routing, dlatego DeepSeek V4 Flash działa tam stabilnie i szybko. To wybór dla każdego, kto chce stabilności i nie planuje grzebać przy kernelach Metala.

Llama.cpp ma działające patche dla V4 Flash w forku antireza, ale ścieżka GGUF wymaga buildowania z forka. Społeczność wypuściła kilka konwersji GGUF, jednak na 26 kwietnia 2026 nie były one zmergowane do głównej linii. To opcja dla osób, które już mają workflow oparty na llama.cpp i nie chcą migrować całego setupu.

Ds4 to coś innego niż dwa powyższe. Jest dedykowanym silnikiem dla jednego modelu, więc w żadnej innej sytuacji nie jest użyteczny. Ma natomiast dwie cechy, których nie dają konkurenci. Po pierwsze, mieści Flasha z myśleniem na MacBooku z 128 GB, czego nie potrafi MLX ani llama.cpp w obecnych konfiguracjach. Druga zaleta: jest na tyle prosty kodowo, że da się go przeczytać i zrozumieć w jeden wieczór. Można go potraktować jako materiał edukacyjny o tym, jak naprawdę działa Metal pod maską.

W naszych testach z TurboQuant i Qwen3.5-27B na GPU z 16 GB widzieliśmy ten sam efekt. Dedykowane rozwiązanie pod jeden konkretny model bije generyczne narzędzia, jeśli chodzi o to, ile da się upchać na ograniczonym sprzęcie. Wcześniej opisaliśmy także Qwen3.6 27B na RTX 5090 z NVFP4, gdzie ten sam wzorzec powraca po stronie kart graficznych NVIDII.

Kurs n8n 2.0 · Kodożercy

Ile godzin tygodniowo tracisz na powtarzalne zadania?

n8n pozwala zautomatyzować to co robisz ręcznie – przesyłanie danych, powiadomienia, raporty. Kurs n8n 2.0 na Kodożercach pokaże Ci jak, krok po kroku, bez pisania kodu.

Sprawdź kurs n8n 2.0 →
Kurs n8n 2.0 - Kodożercy

Ile to kosztuje – MacBook Pro M4 Max vs API DeepSeek

MacBook Pro 16 cali z M4 Max i 128 GB unified memory to w polskich sklepach w maju 2026 koszt rzędu 30 do 35 tysięcy złotych zależnie od konfiguracji dysku. Mac Studio M4 Max z 192 GB pamięci to mniej więcej 28 do 32 tysięcy złotych. Z kolei tańsza droga dla testów to MacBook Pro M4 Pro z 64 GB za około 18 tysięcy złotych – tu jednak Flash już się nie zmieści.

Tymczasem DeepSeek na własnym API kosztuje około 0,27 dolara za milion tokenów wejścia. Tokeny wyjścia są droższe, około 1,10 dolara za milion. Dla intensywnego dewelopera robiącego kilka milionów tokenów dziennie z kontekstami po 100 tysięcy, miesięczny rachunek wychodzi na 50 do 200 dolarów. W przeliczeniu na polskie pieniądze przy kursie 4 zł za dolara – od 200 do 800 zł.

Na pierwszy rzut oka MacBook nigdy się nie zwróci wobec takiej taniej chmury. Druga lektura rachunku zmienia ten obraz. Sprzęt zostaje. Po dwóch latach dalej masz 35 tysięcy złotych w postaci komputera, którym pracujesz, podróżujesz, montujesz wideo i robisz wszystko inne. Dodatkowo dane klientów nie wychodzą na zewnętrzny serwer. Ma to znaczenie dla kancelarii, biur księgowych, spółek z RODO i każdego, kto kiedyś podpisywał umowę o poufności. Wreszcie chmura potrafi zmienić cennik z dnia na dzień, a na własnym sprzęcie poziom kosztu jest deterministyczny.

Czy ma sens dla polskiego dewelopera lub firmy

Sensowne są trzy scenariusze. Pierwszy: jeśli już używasz Maca jako głównej maszyny roboczej i potrzebujesz prywatnego asystenta przy projektach klientów. Apple Silicon w wersji 128 GB lub 192 GB to sprzęt, który tak czy inaczej kupisz pod montaż wideo, dużą Xcode’ową kompilację albo generatywne narzędzia graficzne. Możliwość odpalenia na nim modelu klasy frontowej to bonus, nie powód do zakupu.

Drugi scenariusz: firmy, które realnie boją się wycieków danych. Polskie kancelarie prawne, biura księgowe i podmioty obsługujące dane medyczne pod RODO dotąd musiały trzymać AI poza obrotem dokumentów. Lokalny model na MacBooku upraszcza dużą część pytań o wycieki. Dane nigdy nie opuszczają urządzenia, choć audytor compliance i tak sprawdzi szyfrowanie dysku, logi, retencję i kontrolę dostępu.

Trzeci scenariusz: zespoły testujące nowe modele co tydzień, którym zależy na kontroli nad środowiskiem. Każda zmiana wersji modelu w API oznacza migrację całego zespołu. Lokalnie pracujesz na tej wersji, którą wybrałeś, dopóki sam nie zdecydujesz inaczej.

Inaczej wygląda sprawa przy okazjonalnym użyciu. MacBook Pro za 30 tysięcy nie zwróci się w 5 latach, jeśli odpalasz model raz na kilka dni. Lepiej kup abonament w API, miej spokój i szukaj wartości w innym miejscu.

FAQ – najczęstsze pytania o DeepSeek V4 Flash na Macu

Dlaczego antirez napisał ds4 zamiast użyć MLX?

Antirez sam pisze w opisie projektu, że ds4 to ćwiczenie z performance engineering dla konkretnego modelu. MLX jest świetnym frameworkiem ogólnego przeznaczenia, ale jako framework musi obsłużyć wiele rodzin modeli i wiele scenariuszy. Dedykowany silnik dla jednej architektury może upchać optymalizacje, które w generycznym frameworku nie miałyby sensu. Efekt jest praktyczny: V4 Flash z myśleniem włączonym mieści się tam, gdzie MLX nie daje rady. Salvatore traktuje to jako pokaz, jak daleko da się posunąć przy odpowiedniej dyscyplinie.

Czy DeepSeek V4 Flash to ten sam model co V4 Pro?

Nie, to dwa osobne modele wydane tego samego dnia. Pro ma 1,6 biliona parametrów łącznie i jest przeznaczony do scenariuszy, w których zależy ci na maksymalnej jakości na trudnych zadaniach. Flash ma 284 miliardy parametrów łącznie i 13 miliardów aktywnych – jest dużo szybszy i tańszy w obsłudze. W kodowaniu różnica jakości to mniej niż 2 punkty procentowe na SWE-bench. Na bardziej złożonych agentowych scenariuszach przewaga Pro rośnie, jednak dla typowych zastosowań Flash w zupełności wystarcza.

Ile RAM-u potrzebuję, żeby uruchomić Flasha lokalnie?

Minimum praktyczne to 128 GB unified memory na Apple Silicon. Co więcej, działa to tylko z dedykowanym silnikiem ds4 i kwantyzacją 2-bit. W standardowych runtime’ach typu MLX rekomenduje się 192 GB. MacBook Pro z M4 Pro lub M4 Max i 64 GB pamięci nie udźwignie Flasha w żadnej kwantyzacji, nawet w trybie testowym. Dla porównania, mniejsze modele otwarte typu Qwen3.6 27B czy Gemma 4 odpalają się komfortowo już na 24 do 32 GB.

Podsumowanie

Co się zmieniło w lokalnym AI w ostatnim tygodniu? Pojawił się projekt jednego doświadczonego programisty, który pokazał, że model klasy frontowej można upchać na komputerze osobistym, jeśli ktoś naprawdę zna sprzęt. DeepSeek V4 Flash w połączeniu z silnikiem ds4 antireza odpala się na MacBooku Pro z M4 Max i 128 GB unified memory. Sam model architektonicznie obsługuje do 1 miliona tokenów kontekstu. W praktyce realny kontekst lokalny zależy od konfiguracji i kwantyzacji. Najważniejsze, że ani jeden bajt nie opuszcza urządzenia. Co stracisz? Wygodę chmury, gdzie wszystko działa po jednym kliknięciu. Co zyskasz? Prywatność, kontrolę i sprzęt, który zostaje twój. Dla polskich firm pracujących z danymi klientów to konkretny bilet wstępu do AI bez kompromisów prawnych. Liczby ze społeczności (25-35 tok/s na M4 Max 192 GB w MLX, 79 procent SWE-bench Verified, MIT license) ustawiają nową poprzeczkę. Dotyczy ona wszystkiego, co zaraz pojawi się w segmencie lokalnych modeli na Apple Silicon.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.


Udostępnij na:
Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Qwen3.6 27B na RTX 5090: 200k kontekstu lokalnie z NVFP4 i MTP
MTP w llama.cpp - lokalne LLM nawet 2x szybciej dzięki multi-token prediction
Banner reklamowy Frontend Master 2026

Najnowsze wpisy

Thumb
Anthropic łagodzi blokady Fable 5 i Mythos
11 cze, 2026
Thumb
Patch Tuesday czerwiec 2026 – Microsoft łata
11 cze, 2026
Thumb
Zakupy w ChatGPT z infrastrukturą Visa –
11 cze, 2026
Thumb
Mundial 2026 – jak AI i sensor
11 cze, 2026
Thumb
Tchap zhakowany – suwerenny messenger Francji padł
10 cze, 2026

Kategorie

  • Aktualności i Wydarzenia (50)
  • Bezpieczeństwo i Jakość (56)
  • Branża IT i Nowe Technologie (108)
  • Design i User Experience (4)
  • Narzędzia i Automatyzacja (111)
  • Programowanie i Technologie Webowe (80)
  • Rozwój kariery i Edukacja (33)

Tagi

5G AI Architektura Cyberbezpieczeństwo Feedback Frontend Git IoT JavaScript Motywacja Nauka efektywna Optymalizacja i wydajność Programowanie React.JS Rozwój osobisty WebDevelopment
Logo FitBody Center Warszawa

Odkryj zabiegi Endermologii LPG Infinity w FitBody Center Warszawa

Maszyna zabiegowa - endermologia lpg infinity
banner-reklamowy-frontend-master
Group-5638-1

Devstock – Akademia programowania z gwarancją pracy

🏠 ul. Bronowska 5a,
03-995 Warszawa
📞 +48 517 313 589
✉️ contact@devstockacademy.pl

Linki

  • Poznaj firmę Devstock
  • Wejdź do społeczności Devstock
  • Polityka prywatności
  • Regulamin

FitBody Center

Strona

  • Strona główna
  • Kontakt

Newsletter

Bądź na bieżąco, otrzymuj darmową wiedzę i poznaj nas lepiej!


Icon-facebook Icon-linkedin2 Icon-instagram Icon-youtube Tiktok
Copyright 2026 Devstock. Wszelkie prawa zastrzeżone
Devstock AcademyDevstock Academy
Sign inSign up

Sign in

Don’t have an account? Sign up
Lost your password?

Sign up

Already have an account? Sign in