Skip to content
devstock logo
  • O nas
  • Moduły Akademii
    • Moduł 1
    • Moduł 2
    • Moduł 3
    • Pozostałe moduły
  • Kursy AI
    • Pierwsza Misja AI (Podstawy)
    • Automatyzacje z n8n 2.0
  • Blog
  • Kontakt
  • O nas
  • Moduły Akademii
    • Moduł 1
    • Moduł 2
    • Moduł 3
    • Pozostałe moduły
  • Kursy AI
    • Pierwsza Misja AI (Podstawy)
    • Automatyzacje z n8n 2.0
  • Blog
  • Kontakt
Kurs Automatyzacji z n8n - banner reklamowy
Branża IT i Nowe Technologie

Trzy pudełka, trzy filozofie – co kupić do lokalnego LLM w 2026

  • 25 maj, 2026
  • Komentarze 0
Apple wycofał Mac Studio M3 Ultra ze 256 GB unified memory z regularnej sprzedaży w maju 2026 - co teraz kupić do lokalnego LLM: NVIDIA RTX 5090, Mac Studio M4 Max 128 GB albo AMD Strix Halo Framework Desktop

Trzy pudełka stoją obok siebie na biurku. Mac Studio M3 Ultra – srebrny prostokąt, jeszcze niedawno z 256 gigabajtami zunifikowanej pamięci. Karta NVIDIA RTX 5090 – czarny moduł wystający z chassis za 4500 dolarów. Framework Desktop ze Strix Halo – mała szara kostka, w startowej cenie 1999 dolarów. Każde z tych urządzeń odpala dziś modele AI lokalnie, jednak każde robi to zupełnie inaczej. Według kwietniowego przewodnika zakupowego Juliena Simona ekonomia VRAM rozjeżdżała się dramatycznie – Mac kosztował 23 dolary za gigabajt pamięci dostępnej dla modelu, NVIDIA 109, Strix Halo 16. To są jednak kwietniowe punkty odniesienia, a w maju rynek już się zmienił. Polski programista, który dziś planuje stanowisko AI w domu albo serwer w biurze, ma trzy mocno różne filozofie do wyboru, jednak musi liczyć się też z malejącą dostępnością niektórych konfiguracji.

NVIDIA wciąż mistrzowska, ale tylko do około 30 miliardów parametrów

NVIDIA RTX 5090 z 32 gigabajtami pamięci GDDR7 to obecnie najszybsza karta konsumencka dla małych i średnich modeli. Cena waha się od 3500 do 4800 dolarów za samą kartę, a złożenie pełnego systemu z chłodzeniem, zasilaczem 1000 W i procesorem schodzi w okolice 5000 do 8000 dolarów. W zamian dostajesz prędkość, której Mac nie dorówna: w benchmarku Qwen3 8B z kwantyzacją Q4_K_XL karta wyciąga 145 do 185 tokenów na sekundę. Większy Qwen3 30B-A3B MoE działa około 234 tok/s przy krótkim kontekście. Dlatego do programistycznych zadań kodowania, gdzie 7-30B model wystarcza, RTX 5090 nie ma rywala.

Problem zaczyna się przy 70 miliardach parametrów i wyżej. Model Llama 3.3 70B w pełnej kwantyzacji nie mieści się w pojedyncze 32 GB. Trzeba uciekać się do mocnej kompresji albo do dwóch kart (i 9000-12000 dolarów za samą GPU). To pokazuje strukturalną granicę architektury – VRAM dyskretnej karty graficznej jest dziś najdroższym gigabajtem na rynku konsumenckim.

RTX 5090 to wciąż złoty standard do inference modeli 7-30B i jedyne rozsądne narzędzie do treningu lokalnego. Dla 70B i wyżej zaczyna się jednak walka z fizyką pamięci.

Ekosystem CUDA pozostaje wciąż domyślnym wyborem dla każdego, kto chce nie tylko uruchamiać model, ale go również dostrajać. Unsloth, vLLM, DeepSpeed, FlashAttention – cała ta warstwa oprogramowania jest najlepiej rozwinięta w świecie NVIDII. Jeśli twój workflow obejmuje fine-tuning na własnym kodzie albo własnych danych, NVIDIA nadal jest najbardziej dojrzałą i najmniej ryzykowną ścieżką lokalną do treningu produkcyjnego. To zresztą jedyna kategoria, w której konkurencja jeszcze realnie odstaje, o czym pisaliśmy w Lokalne LLM vs Claude Code 2026 – czy warto rezygnować z chmury.

Mac Studio – 256 gigabajtów unified memory za cenę dwóch RTX 5090

Apple Mac Studio gra w zupełnie innej lidze ekonomicznej. M4 Max z 128 GB pamięci kosztuje 3699 dolarów, a M3 Ultra w wariancie 256 GB w kwietniu wyceniony był na około 5999. Cała pamięć jest unified, czyli procesor, GPU i Neural Engine sięgają do tej samej puli. W praktyce ten sam komputer, na którym renderujesz wideo, mieści model 405-miliardowy w kompresji Q4 (około 235 GB).

Cena za gigabajt wyglądała w kwietniu dramatycznie inaczej niż u NVIDII. M3 Ultra przy 5999 dolarach dawał 23 dolary za gigabajt pamięci dostępnej dla modelu. RTX 5090 – przy 3500-4800 za samą kartę – to 109-150 dolarów. Ponieważ duże modele wymagają dużej pamięci, ekonomia odwraca się dokładnie w momencie, gdy chcesz pracować z czymś większym niż 30B.

Ważne zastrzeżenie majowe – 256 GB znika z Apple Store

W maju 2026 sytuacja Mac Studio uległa jednak zmianie. Apple wycofał konfigurację M3 Ultra ze 256 GB z regularnej sprzedaży. Aktualnie oficjalny konfigurator Apple pokazuje M3 Ultra z maksymalnie 96 GB unified memory. Dlatego liczba 23 USD/GB jako “dzisiejszy” punkt zakupowy nie obowiązuje już dla nowego sprzętu. Pozostają trzy ścieżki: rynek refurbished i używanych Mac Studio z 256 GB, oczekiwanie na zapowiadane M5 Ultra (spodziewane w drugiej połowie 2026) albo migracja na M4 Max 128 GB, który nadal jest dostępny.

Wydajność per token – tu Mac przegrywa

Z drugiej strony Apple traci to, co zyskuje w pamięci. Mac Studio M4 Max przy modelu Llama 3.3 70B w Q4 wyciąga 8-15 tokenów na sekundę, zależnie od długości promptu. M3 Ultra z pasmem pamięci 819 GB/s jest szybszy, jednak wciąż nie zbliża się do prędkości NVIDII na modelach mniejszych. Apple Silicon wygrywa, gdy mieścisz model dużo większy, jednak przy tej samej wielkości modelu nadal czekasz dłużej.

Software stack też ma swoje ograniczenia. MLX, oficjalny framework Apple, dobrze radzi sobie z inference (Ollama z backendem Metal albo MLX). Biblioteka mlx-lm umożliwia też LoRA, QLoRA i full fine-tuning na Apple Silicon, jednak ekosystem narzędziowy i stabilność produkcyjna są tu wyraźnie mniej dojrzałe niż po stronie CUDA. Dlatego Mac Studio to dziś przede wszystkim maszyna do uruchamiania modeli. Dla zespołów inżynierskich oznacza to konkretną dyscyplinę: poważne treningi w chmurze, inference i lekki tuning lokalnie.

AMD Strix Halo – najtańszy gigabajt VRAM, ale tylko dla MoE

Framework Desktop z Ryzenem AI Max+ 395 (czyli układem znanym jako Strix Halo) startował z amerykańską ceną 1999 dolarów za pełną stację z 128 GB pamięci LPDDR5x. Cena za gigabajt w tej kalkulacji to 16 dolarów – najniższa na rynku konsumenckim. Brzmi jak ekonomiczny ideał, dopóki nie sprawdzisz realnej dostępności. Polski konfigurator Framework w maju 2026 pokazywał wariant 128 GB za 14 359 zł bez podatków i ceł, w dodatku z adnotacją “wyprzedane”. Europejski konfigurator listował go za 3409 euro bez podatków. Dlatego traktuj 16 USD/GB jako historyczny punkt odniesienia, nie dzisiejszą cenę zakupu dla polskiego kupującego.

Niezależnie od ceny pasmo pamięci pozostaje słabe – 212 GB/s. To ułamek pasma Mac Studio M3 Ultra (819 GB/s) i mniej niż prędkość RTX 5090. Dlatego ten sam model 70B na Strix Halo leci 3-5 tokenów na sekundę, podczas gdy na Macu wyciąga 8-15.

Sprzęt ten wygrywa jednak w jednej kategorii: modele MoE. Llama 4 Scout z 109 miliardami parametrów (z czego 17 miliardów aktywnych w jednej turze) działa na Strix Halo z prędkością 10-20 tok/s. Dzieje się tak dlatego, że MoE aktywuje tylko ułamek wag na zapytanie, a wtedy wolne pasmo nie jest aż takim wąskim gardłem. Niedawno pisaliśmy o premierze Ryzen AI Max+ PRO 495 z 192 GB pamięci – to ewolucja właśnie tej linii.

Software to drugi obszar zastrzeżenia. AMD ROCm dochodzi do wersji 7.2 i stabilizuje wsparcie dla kart Radeon oraz APU klasy Strix Halo, jednak społeczność wciąż raportuje 10-20 procent więcej narzutu debugowania niż na CUDA. Co więcej, na samym Strix Halo Vulkan przez llama.cpp często wygrywa z ROCm-em pod względem wydajności. To znaczy, że nawet AMD nie sprzedaje jeszcze swojego stacku jako preferowanej ścieżki na tym konkretnym sprzęcie.

Kurs n8n 2.0 · Kodożercy

n8n + AI = automatyzacje, które naprawdę myślą

n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do ChatGPT, analizować wyniki, reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć.

Sprawdź jak to działa →
Kurs n8n 2.0 - Kodożercy

Decyzja dla polskiego programisty i polskiej firmy

Każdy z tych trzech sprzętów wygrywa w innej kategorii, dlatego dobór sprzętu sprowadza się do kilku konkretnych pytań. Pierwsze: czy potrzebujesz fine-tuningu, czy tylko inference? Jeśli fine-tuning, NVIDIA pozostaje najbardziej dojrzałą lokalną ścieżką dzięki Unsloth i pełnemu ekosystemowi CUDA. Drugie: jakie modele faktycznie uruchamiasz? Jeśli pracujesz głównie z 7-30B (typowe modele do kodowania jak Qwen Coder 32B), RTX 5090 daje najlepsze tokeny na sekundę. Jeśli celujesz w 70B i większe, Mac Studio jest jedyną ścieżką ekonomicznie sensowną.

Trzecie pytanie – czy MoE czy dense? Jeśli model, którego używasz, jest MoE (Llama 4 Scout, DeepSeek V4, GLM-4.5), Strix Halo daje akceptowalną wydajność za połowę ceny Maca. Jeśli dense, Strix Halo szybko staje się rozczarowaniem – 3-5 tok/s dla 70B to praktycznie nieużywalne dla agentów.

Czwarte pytanie ma już wymiar finansowy. Kwietniowy Mac Studio M3 Ultra ze 256 GB kosztował 5999 dolarów (około 24 tysięcy złotych) – mniej więcej dwie pensje mid-developera w Polsce. Choć ta konkretna konfiguracja zniknęła z Apple Store, M4 Max 128 GB nadal jest dostępny za 3699 dolarów. W rozliczeniu z Anthropic Claude Code Max 20x (200 dolarów miesięcznie) ten sam sprzęt zwraca się w około 19 miesięcy, jeśli pracujesz nim na pełen etat. Z kolei dla zespołu pięciu inżynierów rachunek za sam Max 20x to 12 tysięcy dolarów rocznie. Już po pierwszym roku jeden Mac Studio M4 Max na zespół zaczyna mieć sens biznesowy.

Kiedy nie kupować nic z tego

Mimo dyskusji o lokalnym sprzęcie warto pamiętać o jednym zastrzeżeniu. Dla małych zespołów, które robią głównie code review i krótkie sesje agentowe, subskrypcja Claude Pro za 20 dolarów miesięcznie albo Codex CLI wciąż wygrywa ekonomicznie z każdym lokalnym setupem. Lokalny sprzęt zaczyna mieć sens, gdy zachodzi przynajmniej jedno z trzech: wysokie wolumeny zapytań, wymogi compliance dotyczące danych, lub potrzeba dostrajania modeli na własnych korpusach. Polskie banki, telekomy i firmy z branż regulowanych spełniają zwykle pierwsze dwa kryteria jednocześnie.

Podsumowanie

Trzy filozofie, trzy sensowne wybory. NVIDIA RTX 5090 wygrywa dla modeli 7-30B i pozostaje najbezpieczniejszą lokalną ścieżką do fine-tuningu. Mac Studio dominuje na rynku inference dużych modeli (70B i wyżej), gdy potrzebujesz ekonomicznego dostępu do ogromnej pamięci. AMD Strix Halo jest najtańszym wejściem w 128 GB unified memory, jednak działa sensownie tylko dla architektur MoE. Polski programista solo do kodowania – RTX 5090 albo wciąż subskrypcja Claude Code. Polski software house z kilkoma inżynierami i wrażliwymi danymi – Mac Studio jako serwer inference w biurze. Polska firma z budżetem na eksperyment i workloadem MoE – Framework Desktop ze Strix Halo. Jedna decyzja, jedna konfiguracja, jeden rachunek na koniec roku. Trzeba wybrać świadomie, ponieważ w 2026 nie ma już sprzętu, który jest dobry do wszystkiego.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.


Udostępnij na:
Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

AudioHijack - ukryta komenda w pliku audio łamie modele voice AI w 79-96 procentach prób

Najnowsze wpisy

Thumb
Trzy pudełka, trzy filozofie – co kupić
25 maj, 2026
Thumb
AudioHijack – ukryta komenda w pliku audio
25 maj, 2026
Thumb
DeepSeek Reasonix – chiński agent kodowania, który
25 maj, 2026
Thumb
Microsoft anulował Claude Code, Uber wyczerpał budżet
22 maj, 2026
Thumb
Facebook Poland zarobił 2 miliardy złotych w
21 maj, 2026

Kategorie

  • Aktualności i Wydarzenia (43)
  • Bezpieczeństwo i Jakość (49)
  • Branża IT i Nowe Technologie (87)
  • Design i User Experience (4)
  • Narzędzia i Automatyzacja (109)
  • Programowanie i Technologie Webowe (80)
  • Rozwój kariery i Edukacja (33)

Tagi

5G AI Architektura Cyberbezpieczeństwo Feedback Frontend Git IoT JavaScript Motywacja Nauka efektywna Optymalizacja i wydajność Programowanie React.JS Rozwój osobisty WebDevelopment
Logo FitBody Center Warszawa

Odkryj zabiegi Endermologii LPG Infinity w FitBody Center Warszawa

Maszyna zabiegowa - endermologia lpg infinity
Group-5638-1

Devstock – Akademia programowania z gwarancją pracy

🏠 ul. Bronowska 5a,
03-995 Warszawa
📞 +48 517 313 589
✉️ contact@devstockacademy.pl

Linki

  • Poznaj firmę Devstock
  • Wejdź do społeczności Devstock
  • Polityka prywatności
  • Regulamin

FitBody Center

Strona

  • Strona główna
  • Kontakt

Newsletter

Bądź na bieżąco, otrzymuj darmową wiedzę i poznaj nas lepiej!


Icon-facebook Icon-linkedin2 Icon-instagram Icon-youtube Tiktok
Copyright 2026 Devstock. Wszelkie prawa zastrzeżone
Devstock AcademyDevstock Academy
Sign inSign up

Sign in

Don’t have an account? Sign up
Lost your password?

Sign up

Already have an account? Sign in