Dwanaście kart Nvidia V100, do tego drugi serwer z czterema RTX 3090 i ponad pół terabajta pamięci RAM. Sprzęt jak na małą fermę ML, a stoi u prawnika. To nie hobbystyczny projekt, tylko narzędzie do szkicowania pism procesowych. Powód, dla którego ktoś bierze do domu sprzęt za kilkadziesiąt tysięcy złotych, zamiast po prostu otworzyć ChatGPT, jest jeden: akta klienta. Tajemnica zawodowa adwokata nie pozwala wysłać dokumentacji sprawy do amerykańskiej chmury. Nie zmieni tego nawet najwygodniejsza subskrypcja Pro. # lokalny klaster ai
Co siedzi w tym domowym serwerze
Konfiguracja przypomina raczej małe laboratorium niż narzędzie kancelarii. Główna maszyna działa na Threadripper Pro i ma 12 kart V100-SXM2 32 GB. Dwa zestawy po cztery karty pracują na osobnych płytach NVLink, a model nie powinien rozlewać się między płytami. Gdy raz tak się stało, przepustowość spadła przez przejście po PCIe i NUMA. Do tego dochodzi drugi komputer: EPYC 7302P, 512 GB RAM, 4x RTX 3090 oraz 2x V100-PCIe. W sumie pod biurkiem żyje 16 GPU, choć nie wszystkie liczą naraz – powstał sekwencyjny przepływ pracy, w którym różne modele dostają różne role.
Zamiast vLLM dla lokalnych modeli serwuje llama.cpp. Powód jest praktyczny: stosowane modele MoE w formacie GGUF działają sensowniej na starej architekturze Volta. Testy dają około 113 tokenów na sekundę dla Gemma-4-26B-A4B, około 82 dla Qwen3.6-35B-A3B i około 50 dla Qwen3.5-122B-A10B. To liczby z tej konkretnej konfiguracji, a nie ogólny ranking modeli.
To nie jest czat, tylko linia produkcyjna pism
Większy ciężar leży na architekturze procesu, a nie na samym sprzęcie. System nie działa jak jeden chatbot, któremu prawnik wrzuca akta i czeka na gotowy pozew. Pracą zarządza orkiestrator, który rozdziela zadanie między modele. Jeden szkicuje treść, drugi bierze trudniejsze rozumowanie, mały model sprawdza, czy sprawa ma podstawy, a osobny recenzent atakuje gotowy projekt.
W tle pracują bazy dokumentów, przewodniki stylu, formularze, wcześniejsze pisma oraz mechanizm weryfikacji faktów. Model ma przede wszystkim odnajdywać wcześniejszy język prawnika pasujący do nowych faktów. Nie robi natomiast samodzielnego researchu prawnego i nie zastępuje decyzji człowieka.
Bliżej temu do sekretariatu z kilkoma rękami niż do jednego genialnego asystenta. W jednej kancelarii ktoś układałby dokumenty, ktoś inny sprawdzał daty, ktoś szukał starych fragmentów, a ostatnia osoba robiła brutalną korektę. Tutaj każdą z tych ról gra osobny model, ponieważ żaden pojedynczy LLM nie radzi sobie naraz ze wszystkimi czterema zadaniami. Ten lokalny zestaw nie pełni więc roli “cyfrowego mecenasa”. Jest maszyną do pierwszego szkicu, kontroli wzorców i wyłapywania powtarzalnej roboty.
Halucynacje są powodem architektury, nie dodatkiem
Największy problem lokalnych modeli nie został w tej konfiguracji ukryty. Modele zmyślają daty i cytowania, a potrafią też twierdzić, że niczego nie wymyśliły. Dlatego na końcu pracy postawiono bramkę, która wyciąga z projektu każde sprawdzalne twierdzenie: datę, cytowanie, numer Bates, nazwę strony, przepis lub fakt. Następnie porównuje je z materiałem źródłowym.
Jeśli faktu nie ma w aktach, system blokuje dokument. Natomiast gdy cytowania nie da się rozwiązać w bazie autorytetów prawnych, wraca jako nieweryfikowalne. To ważniejsza lekcja niż sama liczba kart graficznych, ponieważ w pracy prawnika błąd nie wygląda jak literówka. Może wejść do pisma procesowego.
W testach wyszedł też kłopot z samego wnętrza przepływu pracy. Jedna baza wciągała wcześniejsze wyniki pracy systemu jako rzekome źródła i model zaczął “gruntować” odpowiedzi na własnym poprzednim tekście. To jak archiwum kancelarii, które przez pomyłkę miesza akta sprawy z brudnopisami aplikanta.
Polski kontekst: tajemnica zawodowa nie znika przez wygodę
Po co w ogóle lokalny klaster AI dla kancelarii, skoro ChatGPT, Claude.com albo Copilot są pod ręką? Odpowiedź zaczyna się od akt klienta. Pisma procesowe, załączniki, korespondencja, dane zdrowotne, dane finansowe i strategie procesowe nie są zwykłym tekstem do przepisania, a Naczelna Rada Adwokacka pracuje właśnie nad zmianami zasad etyki adwokackiej, których projekt opisała “Rzeczpospolita”. Założenie jest twarde: AI może wspierać adwokata, jednak nie może zastąpić jego osądu, naruszać tajemnicy zawodowej ani prowadzić do bezrefleksyjnego przyjmowania wygenerowanych treści. Adwokat nadal odpowiada za treść i formę czynności zawodowych.
Do tego dochodzi RODO. UODO przypomina, że po udostępnieniu danych osobowych modelom generatywnym ich wycofanie może być bardzo trudne, a czasem praktycznie niemożliwe. Art. 6 RODO wymaga legalnej podstawy przetwarzania, celu, minimalizacji i rozliczalności. Wrażliwe akta nie powinny zatem trafiać do narzędzia tylko dlatego, że formularz jest wygodny. Identyczny problem mają lekarze i banki – historia choroby, zdolność kredytowa czy materiał dowodowy w sprawie cywilnej różnią się branżą, jednak logika jest ta sama.
Czy 12x V100 ma sens dla polskiej kancelarii
Dla średniej kancelarii taki zestaw to raczej przerost niż punkt startu. V100 SXM2 32 GB w drugim obiegu wymagają w praktyce dobrania kompletu komponentów – płyt SXM, adapterów, zasilania, chłodzenia, RAM i czasu osoby, która to uruchomi.
Realistyczne alternatywy to pojedyncza karta klasy RTX 6000 Ada 48 GB albo Mac Studio M3 Ultra z dużą pamięcią współdzieloną. Pierwsza w Conradzie kosztuje obecnie około 38 tys. zł brutto i daje znacznie mniej komplikacji niż wielokartowy serwer. Druga w polskim sklepie Apple szybko wchodzi w przedział kilkudziesięciu tysięcy złotych wraz z dokładaną pamięcią i dyskiem. Żadne z tych rozwiązań nie zastąpi wielokartowego klastra w każdym zadaniu, jednak dla wielu kancelarii będą bliżej realnego wdrożenia.
Karty H100 to już inna liga. Otwarte przewodniki cenowe z 2026 roku podają zwykle kilkadziesiąt tysięcy dolarów za sztukę, dlatego dla kancelarii streszczającej akta i tworzącej szkice pism taki zakup zwykle nie ma ekonomicznego sensu.
Do kosztów sprzętu dochodzi rachunek za prąd. Klaster z kilkunastoma kartami GPU potrafi zużyć kilkanaście tysięcy kilowatogodzin rocznie, czyli kilka razy więcej niż przeciętne polskie gospodarstwo domowe. Dlatego osoby planujące taki zestaw coraz częściej liczą instalację fotowoltaiczną razem ze sprzętem. Typowa fotowoltaika 10 kW produkuje w polskich warunkach około 9-10 MWh energii rocznie. W rezultacie pokrywa standardowe zużycie domu i większość kosztu pracy serwera. Moc takiej instalacji można też dopasować do realnych rachunków za prąd, a nie do hipotetycznego scenariusza.
Lokalna AI staje się decyzją o ryzyku, nie o sprzęcie
Polski rynek już reaguje językiem poufności. Wyspecjalizowane narzędzia AI dla prawników z polskiej oferty (m.in. LexTool i LexAlpha) eksponują w komunikacji ochronę danych klienta, tajemnicę zawodową i kontrolę nad miejscem przetwarzania. To nie są dodatki marketingowe, lecz odpowiedź na ten sam niepokój, który pchnął niejedną osobę do zbudowania własnej infrastruktury.
Domowy klaster jest tylko jednym z wariantów. Część kancelarii pójdzie w polski legaltech, część zdecyduje się na prywatną chmurę pod kontrolą działu IT, a jeszcze inne postawią mniejszy serwer w biurze. W każdym scenariuszu wraca jednak ta sama granica: model ma pomagać, ale dane, decyzje i odpowiedzialność zostają po stronie profesjonalisty.
Jeśli chcesz zobaczyć szerszy kontekst sprzętu do lokalnych modeli, opisaliśmy już lokalne LLM-y na modelach DeepSeek, Llama, Qwen i Gemma. Ten case pokazuje jednak drugi etap. Najpierw pytaliśmy, czy da się uruchomić model lokalnie. Teraz pytanie brzmi: kto musi to zrobić, bo nie może pozwolić sobie na cudzą chmurę?
Kurs n8n 2.0 · Kodożercy
n8n + AI = automatyzacje, które naprawdę myślą
n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do modelu, analizować wyniki, reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć – również z lokalnym LLM-em, jeśli akta nie mogą trafić do cudzej chmury.
Sprawdź jak to działa →

Podsumowanie
Historia prawnika z 12x V100 nie jest instrukcją zakupową dla kancelarii. To raczej ostrzeżenie, że wygoda chmurowych asystentów AI zderza się z poufnością danych. Autor zbudował skrajnie techniczny system, ponieważ chciał szkicować pisma procesowe lokalnie, kontrolować źródła i blokować halucynacje przed finalnym dokumentem. W Polsce ta rozmowa dopiero nabiera tempa, ponieważ adwokaci, lekarze i banki mają wspólny problem. AI może oszczędzać czas, jednak dane klienta nie przestają być wrażliwe tylko dlatego, że model odpowiada szybciej niż człowiek.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



