Karta graficzna z epoki, w której AI kojarzyło się jeszcze głównie z laboratoriami, nagle wygląda jak sprzęt do zadań specjalnych. NVIDIA V100 SXM2 32GB, architektura Volta z lat 2017-2018, nie ma dziś blasku H100 ani marketingowej świeżości RTX 5090. Jednak w środowisku lokalnych modeli językowych znów pracuje na pierwszej linii. Punktem zapalnym był post z r/LocalLLaMA z 26 maja 2026 roku, zatytułowany “1000 tps generation on Qwen3.6 27B with V100s”. Autor pokazał wynik dla Qwen3.6 27B, czyli otwartego modelu Tongyi Lab z 2026 roku. Nie precyzuje jednak, czy chodzi o pojedynczego użytkownika, czy przepustowość wsadową. Dlatego najrozsądniejsza interpretacja brzmi: to prawdopodobnie tryb batch, czyli obsługa wielu równoległych zapytań. I właśnie tu zaczyna się właściwa historia. Nie o jednym benchmarku, lecz o tym, że używany sprzęt AI przestaje być ciekawostką dla hobbystów.
Stary akcelerator nie musi być wolnym akceleratorem
V100 SXM2 32GB nie jest nową kartą. To sprzęt z drugiego obiegu, często wyjmowany z centrów danych, które przeszły już na nowsze generacje. Mimo to jego konstrukcja nadal pasuje do pracy z dużymi modelami. Ma 32 GB pamięci, a w konfiguracjach wielokartowych korzysta z NVLink o przepustowości do 300 GB/s między kartami.
Co to znaczy w praktyce? Model nie musi być ściskany wyłącznie do jednej karty. Można dzielić obciążenie, a komunikacja między akceleratorami nie jest zwykłym wąskim gardłem. To przypomina starą, dobrze utrzymaną stację roboczą w warsztacie: nie wygląda jak nowy laptop z reklamy, jednak gdy trzeba ciąć, wiercić i powtarzać tę samą pracę godzinami, nadal robi swoje.
W lokalnym AI wygrywa nie karta z najnowszego plakatu, lecz zestaw, który dowozi wynik za przewidywalne pieniądze.
Nie wolno mylić przepustowości wsadowej z szybkością pojedynczej rozmowy. Liczba 1000 tps wygląda na fajerwerk, jednak prawdopodobnie oznacza łączny przepływ tokenów przy wielu równoległych użytkownikach. Dla jednej osoby takie tempo nie jest realnym punktem odniesienia. Jednak dla firmy, która ma obsłużyć dokumenty, zapytania pracowników lub wewnętrzne automatyzacje, suma ma znaczenie. Liczy się kolejka zadań, stabilność i koszt godziny pracy sprzętu.
Qwen3.6 27B pokazuje zmianę w ekonomii modeli
Qwen3.6 27B jest modelem open-source od Tongyi Lab, wydanym w 2026 roku. Jego pojawienie się dobrze pokazuje, że segment modeli około kilkudziesięciu miliardów parametrów przesunął się bliżej zwykłych firm. Jeszcze niedawno taka klasa modelu kojarzyła się z chmurą, wysokim rachunkiem i ciągłym kompromisem między prywatnością a wygodą. Teraz coraz częściej pytanie brzmi inaczej: po co wysyłać wszystko na zewnątrz, skoro część pracy da się wykonać lokalnie?
Standardowy stos dla starszych GPU nie jest już eksperymentem składanym z taśmy klejącej. Po pierwsze, llama.cpp ma ścieżki optymalizowane pod Voltę. Co więcej, GGUF pozwala sensownie pakować modele. Z kolei tryb dekodowania spekulacyjnego polega na tym, że mniejszy model pomocniczy, na przykład Qwen3-1.7B, proponuje dalszy ciąg odpowiedzi, a większy model go sprawdza. To jak asystent, który przygotowuje szkic pisma, zanim prawnik naniesie poprawki. W efekcie, jeśli szkic jest trafny, całość idzie szybciej.
Z naszego wcześniejszego opisu konfiguracji z 12 kartami V100 wynika konkret. Taki zestaw osiągał 113 tokenów na sekundę na modelu Gemma-4-26B-A4B i 82 tokeny na sekundę na Qwen3.6-35B-A3B. Większy Qwen3.5-122B-A10B schodzi do 50 tokenów na sekundę. To były wyniki dla pojedynczego użytkownika, przy llama.cpp, GGUF i ścieżkach dla Volty. Nie są więc tym samym, co tryb wsadowy z tytułu posta. Pokazują jednak skalę. Starsze V100 nie udają nowoczesnych kart, lecz nadal obsługują modele, które dla wielu zastosowań firmowych są więcej niż wystarczające.
Największa zmiana nie polega na tym, że stare V100 stały się nowe. Polega na tym, że modele nauczyły się lepiej żyć na starym sprzęcie.
Polski CIO patrzy na rachunek, nie na logo H100
Dla polskiej firmy różnica między “da się” a “opłaca się” jest kluczowa. Nowa H100 PCIe kosztuje kilkadziesiąt tysięcy dolarów za sztukę. RTX 5090 potrafi przekroczyć 200 tokenów na sekundę single-user na Qwen3.5-35B-A3B, więc jest świetnym punktem odniesienia dla stanowiska pracy lub mocnej stacji roboczej. Jednak przy większej liczbie użytkowników rozmowa zaczyna dotyczyć architektury, nie jednej karty.
Zestaw ośmiu używanych V100 SXM2 32GB w Polsce to poziom dziesiątek tysięcy złotych. Natomiast jedna H100 potrafi kosztować setki tysięcy. Czy H100 jest szybsza, nowsza i bardziej energooszczędna? Tak. Czy mimo to każda kancelaria, software house, dział analityki lub firma produkcyjna potrzebuje od razu H100? Niekoniecznie.
To jak wybór między nowym SUV-em premium a używanym kombi z solidnym silnikiem. Jeśli celem jest prestiż na parkingu, wybór jest prosty. Jeśli trzeba codziennie wozić narzędzia, dokumenty i ludzi między oddziałami, rachunek staje się mniej romantyczny. V100 przypomina silnik diesla z 2018 roku: jeszcze ciągnie, choć nie błyszczy.
W tekście o domowym serwerze AI opisywaliśmy już praktyczny przypadek prawnika, który postawił lokalne modele na konfiguracji z V100. Ten przykład dobrze uzupełnia dzisiejszy trend, bo pokazuje, że lokalne AI nie musi zaczynać się od zamówienia sprzętu klasy hyperscaler. Pełny opis jest tutaj: prawnik z domowym serwerem AI do pism procesowych.
Komu to się opłaca? Firmom, które mają powtarzalne zadania tekstowe, własne dane i nie chcą uzależniać całego procesu od zewnętrznej chmury. Dział prawny może klasyfikować dokumenty. Dział obsługi klienta może podsumowywać zgłoszenia. Zespół sprzedaży może przeszukiwać historię ofert. W rezultacie lokalny model nie zastępuje całej infrastruktury, lecz staje się kolejną usługą w sieci firmowej.
Granice są równie ważne jak zachwyt
Stare V100 nie są magiczną odpowiedzią na każde pytanie o AI. Mają swoje ograniczenia. Są używane, więc wymagają rozsądnego źródła zakupu, chłodzenia, zasilania i serwisowego zapasu. Format SXM2 nie jest też kartą, którą po prostu wkłada się do typowego komputera biurowego. Potrzebna jest platforma serwerowa, a czasem niemało cierpliwości.
Mimo to trend jest czytelny. Najnowsze modele open-source są projektowane tak, by działały sprawniej poza największymi centrami danych. Narzędzia takie jak llama.cpp dojrzewają. GGUF obniża próg wejścia. Dekodowanie spekulacyjne pozwala wycisnąć dodatkową szybkość ze sprzętu, który miał już przejść na emeryturę. W efekcie lokalne LLM na starych V100 stają się realnym wariantem rozmowy budżetowej, a nie wyłącznie zabawką dla laboratoriów.
W 2026 roku przewaga w AI coraz częściej wynika z dobrego montażu klocków, nie z kupowania najdroższego klocka.
Czy to oznacza koniec chmury? Nie. Chmura nadal wygrywa elastycznością, skalą i brakiem problemu z hardwarem. Jednak wiele firm nie potrzebuje globalnej skali. Potrzebuje prywatnego, przewidywalnego systemu, który odpowie na dokument, wygeneruje streszczenie i nie wyśle danych poza organizację. Dla takiego zastosowania stary klaster V100 może być mniej efektowny, ale bardziej zrozumiały finansowo.
Kurs n8n 2.0 – Kodożercy
n8n + AI = automatyzacje, które naprawdę myślą
n8n pozwala podłączyć modele AI do swoich workflow – również lokalne LLM-y na starszym sprzęcie. Kurs n8n 2.0 na Kodożercach pokaże Ci, jak to wpiąć w resztę procesu firmowego.
Sprawdź jak to działa →

Podsumowanie
Stare V100 nie wróciły dlatego, że nagle stały się najlepszymi kartami do AI. Wróciły, ponieważ rynek zaczął liczyć inaczej: koszt danych, koszt sprzętu, koszt chmury i koszt zależności od dostawcy. Jeżeli modele klasy Qwen3.6 27B da się sensownie uruchamiać na używanych klastrach, polskie firmy dostają trzecią drogę. Nie muszą wybierać tylko między drogą chmurą a kapitulacją. Mogą zbudować własny, mniej efektowny, ale praktyczny silnik AI.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



