Pisarz publikujący na unix.foo w eseju “Local AI Needs to be the Norm” (https://unix.foo/posts/local-ai-needs-to-be-norm/) ma jedną mocną tezę: lokalne AI w aplikacjach powinno być standardem, nie wyjątkiem. Wystarczy spojrzeć na swój telefon albo laptop. Układ neuronowy (Neural Engine, NPU, dedykowany akcelerator AI) siedzi tam bezczynnie, kiedy aplikacja czeka na odpowiedź z serwerów w Virginii. Tekst krąży po Hacker News od dłuższego czasu, a dziś przebił się do najgłośniejszych dyskusji społeczności technicznej. Dlaczego? Bo kwiecień przyniósł kilka mocnych dowodów. Qwen 3.6 na RTX 5090, DeepSeek V4 na MacBooku 128 GB, wyciek Ryzena AI Max+ z 192 GB pamięci. W tym świetle manifest przestał być filozofią, a stał się instrukcją obsługi rzeczywistości.
Co dokładnie mówi manifest
Autor stawia jeden problem na biało. Większość nowoczesnych aplikacji “z AI” to w rzeczywistości aplikacje z wbudowanym wywołaniem zewnętrznego API. Kiedy piszesz prompt do funkcji w Notion, Obsidian albo własnym narzędziu, tekst leci do OpenAI, Anthropic lub Google. Tam się dzieje cała praca. Tobie wraca odpowiedź po sekundach, dwóch albo dłużej.
Z punktu widzenia użytkownika to wygodne, ponieważ niczego nie trzeba instalować. Z punktu widzenia inżyniera oprogramowania to natomiast koszmar. Aplikacja, która była lokalnym programem, staje się systemem rozproszonym. Działa, kiedy serwer producenta modelu odpowiada. Dalej musi mieć też tokeny na twoim koncie. Po drodze nie może zmienić się polityka prywatności ani regulamin. Na końcu łącze musi mieć niskie opóźnienie. Każdy z tych warunków to nowy punkt awarii.
Manifest pyta wprost: dlaczego aplikacja do robienia notatek ma być systemem rozproszonym? Co więcej, dlaczego twój komputer ma wysyłać tekst notatki przez Atlantyk, skoro modele zdolne do tego mieszczą się w kilku gigabajtach pamięci? Dla wielu prostych zadań lokalny model językowy z wbudowanym Apple FoundationModels API robi to samo, co chmurowy odpowiednik. Ma to zastosowanie w klasyfikacji tekstu, ekstrakcji danych, podsumowaniach i przepisywaniu stylu – wszystko bez wychodzenia poza urządzenie.
Lokalne AI dla 80 procent zadań tekstowych jest tańsze, szybsze i bezpieczniejsze niż wywołanie chmury. Chmura zostaje na resztę.
Trzy argumenty, które warto rozważyć
Pierwszy to prywatność. Wysyłając tekst notatki do zewnętrznego serwisu, oddajesz go pod regulamin, polityki retencji i potencjalne naruszenia danych. Dlatego manifest mocno podkreśla różnicę między “musisz zaufać” a “nie musisz nikomu nic powierzać”. Manifest zauważa, że w tym modelu firma musi prosić użytkownika o zaufanie. Lokalny model nie wymaga zaufania, bo dane nigdy nie opuszczają urządzenia. To jak różnica między tym, że masz dokumenty firmowe w szafie pancernej w biurze, a tym, że trzymasz je w zewnętrznym archiwum w innym kraju, do którego “klucze ma tylko obsługa”.
Drugi to koszt. Każdy token wysłany do chmury jest natomiast pozycją na fakturze. Polskie firmy płacące za API w dolarach wiedzą, jak szybko skalują się te liczby przy realnych użytkownikach. Dlatego analizy pokazujące, że agentowe tryby AI w chmurze potrafią być wielokrotnie droższe i wolniejsze od klasycznego API dla tych samych zadań, były dla wielu zespołów zimnym prysznicem. Lokalny model po jednorazowym zakupie sprzętu rozkłada koszt na wszystkie zapytania, jakie tylko zechcesz wykonać.
Trzeci powód to niezawodność. Aplikacja czysto lokalna działa bowiem nawet w samolocie, w piwnicy z biurem albo na wakacjach w Bieszczadach z LTE 1 paskiem. Co więcej, działa też wtedy, gdy producent modelu w USA ma problem z centrum danych, albo kiedy zmienił akurat dostęp do API dla twojego planu. Manifest porównuje to do tego, jakbyś każde uruchomienie kalkulatora robił przez połączenie z chmurą – absurd, który jednak akceptujemy w AI.
Niezawodność aplikacji to nie cecha, której się dorabia. To wynik wyboru architektury na samym początku.
Gdzie cloud ma sens
Manifest nie jest naiwny. Autor wprost przyznaje, że są zadania, do których trzeba bardzo dużego modelu i dużego kontekstu. Pisanie złożonego kodu na bazie milionów linii w repozytorium, rozumienie długich dokumentów prawnych z kilkudziesięcioma stronami albo agenty AI badające internet – tu lokalny model dziś jeszcze nie dorównuje. Dlatego strategia “wszystko lokalnie” jest dziś tak samo niewłaściwa jak strategia “wszystko w chmurze”.
Praktyczna recepta brzmi: rozdziel zadania. Dla prostych transformacji tekstu (podsumowanie, klasyfikacja, ekstrakcja danych, przepisanie tonu) używaj modelu lokalnego, który już masz na urządzeniu. Dla skomplikowanych zadań agentowych, długiego rozumowania lub dostępu do świeżych danych z sieci sięgnij do chmury. Naturalnie, polskim zespołom warto dorzucić jeszcze jeden filtr: czy dane, które wysyłamy, są w ogóle pozwolone do wysyłania poza UE.
To jak budowanie firmowej kuchni. Mikrofalówka i czajnik mają sens, żeby były na każdym piętrze. Pieca konwekcyjnego nie kupujemy do każdego pokoju, tylko do jednej dobrze wyposażonej kuchni. Trzymanie wszystkiego w centralnej kuchni i biegania trzy razy dziennie po wodę jest absurdem. Trzymanie pieca konwekcyjnego w szufladzie biurka też.
Co to oznacza dla polskich firm
W ciągu ostatnich kilku miesięcy zmieniło się coś, czego manifest jeszcze chwilę temu nie mógł argumentować: pojawił się sprzęt, który realnie unosi większe modele lokalnie. MacBook M4 Max z 128 GB pamięci uruchamia DeepSeek V4 Flash w 1 mln kontekstu z sensowną prędkością generacji. AMD szykuje Ryzen AI Max+ PRO 495 z 192 GB unified memory dla lokalnych LLM. Karty RTX 5090 z Qwenem 3.6 27B w 200 tysiącach kontekstu lokalnie też nie są już science fiction. Innymi słowy, infrastruktura potrzebna do realizacji manifestu przestaje być egzotyką: pojawia się w realnych konfiguracjach roboczych i da się ją policzyć jak normalny koszt sprzętu w modelu amortyzacji 3-letniej.
W praktyce to oznacza, że założenie “uruchamiamy nasze AI w chmurze, bo nie ma alternatywy” przestaje być prawdziwe. Dla wielu zastosowań produkcyjnych, zwłaszcza w firmach z RODO i branżach regulowanych (medycyna, prawo, finanse), local-first AI staje się nie ideologicznym wyborem, ale racjonalnym kompromisem między kosztem licencji a kosztem sprzętu. Sprzęt da się policzyć z góry. Faktura od OpenAI rośnie z każdym kolejnym użytkownikiem.
Dla zespołów pracujących bez kodu (no-code) i wszystkich, którzy żyją z automatyzacji procesów, wniosek jest również konkretny. Warto już dziś mieć w swojej infrastrukturze ten jeden serwer z lokalnym Ollama albo vLLM, do którego workflowy w n8n będą się odwoływać dla prostych zadań tekstowych. To zmniejsza koszty, opóźnienia i zależność od dostawców, a zarazem nie blokuje sięgania do dużych modeli, kiedy zadanie naprawdę tego wymaga.
Kurs n8n 2.0 · Kodożercy
Ile godzin tygodniowo tracisz na powtarzalne zadania?
n8n pozwala zautomatyzować to, co robisz ręcznie – przesyłanie danych, powiadomienia, raporty. Dorzuć do tego lokalny model AI i dostajesz workflow, który myśli na twoim sprzęcie. Kurs n8n 2.0 na Kodożercach pokaże ci, jak to złożyć.
Sprawdź kurs n8n 2.0 →

Podsumowanie
Manifest z unix.foo nie odkrywa nowej Ameryki. Powtarza tylko coś, co inżynierowie oprogramowania wiedzą od dziesięcioleci: aplikacja, która wymaga połączenia z serwerem dla każdego prostego zadania, jest gorszą aplikacją niż aplikacja, która liczy lokalnie. Nowość polega na tym, że dziś realnie da się tę zasadę zastosować do AI. Sprzęt jest dostępny, modele są dobre, narzędzia (Ollama, vLLM, MLX, Apple FoundationModels API) są dojrzałe. Pozostała tylko jedna rzecz – decyzja architektoniczna na początku projektu. Dla polskich firm to dobry moment, żeby ją podjąć świadomie, zamiast wpadać domyślnie w model “wszystko w chmurze” dlatego, że wszyscy tak robią. Pełniejszą perspektywę na to, jak dziś wyglądają realne benchmarki lokalnych LLM, daje artykuł o Qwenie 3.6 27B na karcie RTX 5090.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



