Trzy pudełka stoją obok siebie na biurku. Mac Studio M3 Ultra – srebrny prostokąt, jeszcze niedawno z 256 gigabajtami zunifikowanej pamięci. Karta NVIDIA RTX 5090 – czarny moduł wystający z chassis za 4500 dolarów. Framework Desktop ze Strix Halo – mała szara kostka, w startowej cenie 1999 dolarów. Każde z tych urządzeń odpala dziś modele AI lokalnie, jednak każde robi to zupełnie inaczej. Według kwietniowego przewodnika zakupowego Juliena Simona ekonomia VRAM rozjeżdżała się dramatycznie – Mac kosztował 23 dolary za gigabajt pamięci dostępnej dla modelu, NVIDIA 109, Strix Halo 16. To są jednak kwietniowe punkty odniesienia, a w maju rynek już się zmienił. Polski programista, który dziś planuje stanowisko AI w domu albo serwer w biurze, ma trzy mocno różne filozofie do wyboru, jednak musi liczyć się też z malejącą dostępnością niektórych konfiguracji.
NVIDIA wciąż mistrzowska, ale tylko do około 30 miliardów parametrów
NVIDIA RTX 5090 z 32 gigabajtami pamięci GDDR7 to obecnie najszybsza karta konsumencka dla małych i średnich modeli. Cena waha się od 3500 do 4800 dolarów za samą kartę, a złożenie pełnego systemu z chłodzeniem, zasilaczem 1000 W i procesorem schodzi w okolice 5000 do 8000 dolarów. W zamian dostajesz prędkość, której Mac nie dorówna: w benchmarku Qwen3 8B z kwantyzacją Q4_K_XL karta wyciąga 145 do 185 tokenów na sekundę. Większy Qwen3 30B-A3B MoE działa około 234 tok/s przy krótkim kontekście. Dlatego do programistycznych zadań kodowania, gdzie 7-30B model wystarcza, RTX 5090 nie ma rywala.
Problem zaczyna się przy 70 miliardach parametrów i wyżej. Model Llama 3.3 70B w pełnej kwantyzacji nie mieści się w pojedyncze 32 GB. Trzeba uciekać się do mocnej kompresji albo do dwóch kart (i 9000-12000 dolarów za samą GPU). To pokazuje strukturalną granicę architektury – VRAM dyskretnej karty graficznej jest dziś najdroższym gigabajtem na rynku konsumenckim.
RTX 5090 to wciąż złoty standard do inference modeli 7-30B i jedyne rozsądne narzędzie do treningu lokalnego. Dla 70B i wyżej zaczyna się jednak walka z fizyką pamięci.
Ekosystem CUDA pozostaje wciąż domyślnym wyborem dla każdego, kto chce nie tylko uruchamiać model, ale go również dostrajać. Unsloth, vLLM, DeepSpeed, FlashAttention – cała ta warstwa oprogramowania jest najlepiej rozwinięta w świecie NVIDII. Jeśli twój workflow obejmuje fine-tuning na własnym kodzie albo własnych danych, NVIDIA nadal jest najbardziej dojrzałą i najmniej ryzykowną ścieżką lokalną do treningu produkcyjnego. To zresztą jedyna kategoria, w której konkurencja jeszcze realnie odstaje, o czym pisaliśmy w Lokalne LLM vs Claude Code 2026 – czy warto rezygnować z chmury.
Mac Studio – 256 gigabajtów unified memory za cenę dwóch RTX 5090
Apple Mac Studio gra w zupełnie innej lidze ekonomicznej. M4 Max z 128 GB pamięci kosztuje 3699 dolarów, a M3 Ultra w wariancie 256 GB w kwietniu wyceniony był na około 5999. Cała pamięć jest unified, czyli procesor, GPU i Neural Engine sięgają do tej samej puli. W praktyce ten sam komputer, na którym renderujesz wideo, mieści model 405-miliardowy w kompresji Q4 (około 235 GB).
Cena za gigabajt wyglądała w kwietniu dramatycznie inaczej niż u NVIDII. M3 Ultra przy 5999 dolarach dawał 23 dolary za gigabajt pamięci dostępnej dla modelu. RTX 5090 – przy 3500-4800 za samą kartę – to 109-150 dolarów. Ponieważ duże modele wymagają dużej pamięci, ekonomia odwraca się dokładnie w momencie, gdy chcesz pracować z czymś większym niż 30B.
Ważne zastrzeżenie majowe – 256 GB znika z Apple Store
W maju 2026 sytuacja Mac Studio uległa jednak zmianie. Apple wycofał konfigurację M3 Ultra ze 256 GB z regularnej sprzedaży. Aktualnie oficjalny konfigurator Apple pokazuje M3 Ultra z maksymalnie 96 GB unified memory. Dlatego liczba 23 USD/GB jako “dzisiejszy” punkt zakupowy nie obowiązuje już dla nowego sprzętu. Pozostają trzy ścieżki: rynek refurbished i używanych Mac Studio z 256 GB, oczekiwanie na zapowiadane M5 Ultra (spodziewane w drugiej połowie 2026) albo migracja na M4 Max 128 GB, który nadal jest dostępny.
Wydajność per token – tu Mac przegrywa
Z drugiej strony Apple traci to, co zyskuje w pamięci. Mac Studio M4 Max przy modelu Llama 3.3 70B w Q4 wyciąga 8-15 tokenów na sekundę, zależnie od długości promptu. M3 Ultra z pasmem pamięci 819 GB/s jest szybszy, jednak wciąż nie zbliża się do prędkości NVIDII na modelach mniejszych. Apple Silicon wygrywa, gdy mieścisz model dużo większy, jednak przy tej samej wielkości modelu nadal czekasz dłużej.
Software stack też ma swoje ograniczenia. MLX, oficjalny framework Apple, dobrze radzi sobie z inference (Ollama z backendem Metal albo MLX). Biblioteka mlx-lm umożliwia też LoRA, QLoRA i full fine-tuning na Apple Silicon, jednak ekosystem narzędziowy i stabilność produkcyjna są tu wyraźnie mniej dojrzałe niż po stronie CUDA. Dlatego Mac Studio to dziś przede wszystkim maszyna do uruchamiania modeli. Dla zespołów inżynierskich oznacza to konkretną dyscyplinę: poważne treningi w chmurze, inference i lekki tuning lokalnie.
AMD Strix Halo – najtańszy gigabajt VRAM, ale tylko dla MoE
Framework Desktop z Ryzenem AI Max+ 395 (czyli układem znanym jako Strix Halo) startował z amerykańską ceną 1999 dolarów za pełną stację z 128 GB pamięci LPDDR5x. Cena za gigabajt w tej kalkulacji to 16 dolarów – najniższa na rynku konsumenckim. Brzmi jak ekonomiczny ideał, dopóki nie sprawdzisz realnej dostępności. Polski konfigurator Framework w maju 2026 pokazywał wariant 128 GB za 14 359 zł bez podatków i ceł, w dodatku z adnotacją “wyprzedane”. Europejski konfigurator listował go za 3409 euro bez podatków. Dlatego traktuj 16 USD/GB jako historyczny punkt odniesienia, nie dzisiejszą cenę zakupu dla polskiego kupującego.
Niezależnie od ceny pasmo pamięci pozostaje słabe – 212 GB/s. To ułamek pasma Mac Studio M3 Ultra (819 GB/s) i mniej niż prędkość RTX 5090. Dlatego ten sam model 70B na Strix Halo leci 3-5 tokenów na sekundę, podczas gdy na Macu wyciąga 8-15.
Sprzęt ten wygrywa jednak w jednej kategorii: modele MoE. Llama 4 Scout z 109 miliardami parametrów (z czego 17 miliardów aktywnych w jednej turze) działa na Strix Halo z prędkością 10-20 tok/s. Dzieje się tak dlatego, że MoE aktywuje tylko ułamek wag na zapytanie, a wtedy wolne pasmo nie jest aż takim wąskim gardłem. Niedawno pisaliśmy o premierze Ryzen AI Max+ PRO 495 z 192 GB pamięci – to ewolucja właśnie tej linii.
Software to drugi obszar zastrzeżenia. AMD ROCm dochodzi do wersji 7.2 i stabilizuje wsparcie dla kart Radeon oraz APU klasy Strix Halo, jednak społeczność wciąż raportuje 10-20 procent więcej narzutu debugowania niż na CUDA. Co więcej, na samym Strix Halo Vulkan przez llama.cpp często wygrywa z ROCm-em pod względem wydajności. To znaczy, że nawet AMD nie sprzedaje jeszcze swojego stacku jako preferowanej ścieżki na tym konkretnym sprzęcie.
Kurs n8n 2.0 · Kodożercy
n8n + AI = automatyzacje, które naprawdę myślą
n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do ChatGPT, analizować wyniki, reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć.
Sprawdź jak to działa →

Decyzja dla polskiego programisty i polskiej firmy
Każdy z tych trzech sprzętów wygrywa w innej kategorii, dlatego dobór sprzętu sprowadza się do kilku konkretnych pytań. Pierwsze: czy potrzebujesz fine-tuningu, czy tylko inference? Jeśli fine-tuning, NVIDIA pozostaje najbardziej dojrzałą lokalną ścieżką dzięki Unsloth i pełnemu ekosystemowi CUDA. Drugie: jakie modele faktycznie uruchamiasz? Jeśli pracujesz głównie z 7-30B (typowe modele do kodowania jak Qwen Coder 32B), RTX 5090 daje najlepsze tokeny na sekundę. Jeśli celujesz w 70B i większe, Mac Studio jest jedyną ścieżką ekonomicznie sensowną.
Trzecie pytanie – czy MoE czy dense? Jeśli model, którego używasz, jest MoE (Llama 4 Scout, DeepSeek V4, GLM-4.5), Strix Halo daje akceptowalną wydajność za połowę ceny Maca. Jeśli dense, Strix Halo szybko staje się rozczarowaniem – 3-5 tok/s dla 70B to praktycznie nieużywalne dla agentów.
Czwarte pytanie ma już wymiar finansowy. Kwietniowy Mac Studio M3 Ultra ze 256 GB kosztował 5999 dolarów (około 24 tysięcy złotych) – mniej więcej dwie pensje mid-developera w Polsce. Choć ta konkretna konfiguracja zniknęła z Apple Store, M4 Max 128 GB nadal jest dostępny za 3699 dolarów. W rozliczeniu z Anthropic Claude Code Max 20x (200 dolarów miesięcznie) ten sam sprzęt zwraca się w około 19 miesięcy, jeśli pracujesz nim na pełen etat. Z kolei dla zespołu pięciu inżynierów rachunek za sam Max 20x to 12 tysięcy dolarów rocznie. Już po pierwszym roku jeden Mac Studio M4 Max na zespół zaczyna mieć sens biznesowy.
Kiedy nie kupować nic z tego
Mimo dyskusji o lokalnym sprzęcie warto pamiętać o jednym zastrzeżeniu. Dla małych zespołów, które robią głównie code review i krótkie sesje agentowe, subskrypcja Claude Pro za 20 dolarów miesięcznie albo Codex CLI wciąż wygrywa ekonomicznie z każdym lokalnym setupem. Lokalny sprzęt zaczyna mieć sens, gdy zachodzi przynajmniej jedno z trzech: wysokie wolumeny zapytań, wymogi compliance dotyczące danych, lub potrzeba dostrajania modeli na własnych korpusach. Polskie banki, telekomy i firmy z branż regulowanych spełniają zwykle pierwsze dwa kryteria jednocześnie.
Podsumowanie
Trzy filozofie, trzy sensowne wybory. NVIDIA RTX 5090 wygrywa dla modeli 7-30B i pozostaje najbezpieczniejszą lokalną ścieżką do fine-tuningu. Mac Studio dominuje na rynku inference dużych modeli (70B i wyżej), gdy potrzebujesz ekonomicznego dostępu do ogromnej pamięci. AMD Strix Halo jest najtańszym wejściem w 128 GB unified memory, jednak działa sensownie tylko dla architektur MoE. Polski programista solo do kodowania – RTX 5090 albo wciąż subskrypcja Claude Code. Polski software house z kilkoma inżynierami i wrażliwymi danymi – Mac Studio jako serwer inference w biurze. Polska firma z budżetem na eksperyment i workloadem MoE – Framework Desktop ze Strix Halo. Jedna decyzja, jedna konfiguracja, jeden rachunek na koniec roku. Trzeba wybrać świadomie, ponieważ w 2026 nie ma już sprzętu, który jest dobry do wszystkiego.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



