Fine-tuning Gemma 4 lokalnie: 8 GB VRAM dzięki Unsloth

Fine-tuning dużych modeli językowych przestał być domeną firm z farmami serwerów. Unsloth ogłosił 7 kwietnia 2026 r. wsparcie dla Gemma 4, najnowszego open-source’owego modelu od Google, na kartach graficznych z zaledwie 8 GB VRAM. To oznacza, że laptop z kartą GeForce RTX 3060 lub starsza karta gamingowa wystarczają, żeby wytrenować własny wariant modelu na własnych danych. W tym artykule pokazujemy, jak to działa technicznie, jakie są rzeczywiste ograniczenia i dlaczego to zmienia rachunek dla zespołów automatyzacji.

Co to jest Unsloth i dlaczego pozwala trenować Gemma 4 na 8 GB VRAM?

Unsloth to biblioteka open-source, która optymalizuje proces trenowania i fine-tuningu modeli językowych. Według własnych testów Unsloth trenuje Gemma 4 około 1.5 raza szybciej niż standardowe podejście oparte o FlashAttention 2 i zużywa około 60% mniej pamięci VRAM, bez utraty jakości modelu.

Klucz tkwi w trzech technikach, które Unsloth łączy w jednym pipeline:

QLoRA (4-bit quantization + LoRA adapters). Zamiast trzymać wszystkie wagi modelu w pełnej precyzji (16 bitów), Unsloth ładuje je w 4 bitach. Sam model zajmuje przez to około połowy swojej pierwotnej pamięci. Następnie zamiast trenować wszystkie 4 miliardy parametrów, biblioteka dokłada do modelu małe adaptery LoRA – macierze niskiego rzędu, które ucz tylko 0.2% wszystkich parametrów. Reszta zostaje zamrożona.

Gradient checkpointing w wariancie Unsloth. Standardowy gradient checkpointing oszczędza pamięć kosztem czasu obliczeń. Wersja Unsloth (“unsloth” jako parametr) jest zoptymalizowana dla LoRA i odzyskuje dodatkowe 30% VRAM w stosunku do domyślnego ustawienia HuggingFace.

Custom kernels CUDA. Unsloth ma własne kernele napisane bezpośrednio w Triton, które omijają niektóre warstwy abstrakcji PyTorch. To skraca czas backward passa o około 40-50% przy LoRA.

Efekt netto: Gemma 4 E2B LoRA mieści się w 8 GB VRAM. To karta sprzed pięciu lat.

Jakie warianty Gemma 4 zmieszczę na swojej karcie?

Gemma 4 ma kilka wariantów, a zapotrzebowanie na pamięć rośnie wraz z rozmiarem modelu. Według dokumentacji Unsloth aktualne progi wejścia dla LoRA wyglądają następująco:

Gemma 4 E2B to wariant 2-miliardowy, który mieści się w 8-10 GB VRAM przy treningu LoRA. To minimalna konfiguracja dla większości popularnych kart konsumenckich: RTX 3060 12 GB, RTX 4060 8 GB, RTX 3070 8 GB. Model jest mniejszy, ale w wielu zadaniach domenowych (klasyfikacja, ekstrakcja, parafrazowanie) wystarcza do produkcyjnych wyników.

Gemma 4 E4B to wariant 4-miliardowy. Sam fine-tuning bez LoRA wymaga około 10 GB VRAM. Wariant LoRA dla E4B potrzebuje już 17 GB VRAM, co eliminuje większość konsumenckich kart i wymaga RTX 3090, RTX 4090 lub karty pracowniczej.

Praktyczna implikacja: jeśli Twoja karta ma 8-12 GB, trenujesz E2B. Jeśli masz 16-24 GB, możesz wybrać E4B. Powyżej 24 GB wchodzą warianty pełne (full fine-tuning bez LoRA), ale dla większości zastosowań biznesowych LoRA wystarcza i daje porównywalną jakość.

Jeśli interesuje Cię szerszy kontekst, jak wygląda obecnie rynek modeli open-source od Google, przeczytaj nasz przewodnik po Gemma 4 w n8n i Ollama.

Kurs n8n 2.0 · Kodożercy

Naucz się n8n od zera, zacznij automatyzować

Kurs n8n 2.0 od Kodożerców to praktyczny kurs bez teorii. Budujesz prawdziwe workflow od pierwszej lekcji – od połączeń z API po webhooki i integracje. Żadnych suchych slajdów.

Zacznij naukę →

Jak wygląda fine-tuning Gemma 4 w Unsloth krok po kroku?

Podstawowy pipeline fine-tuningu w Unsloth sprowadza się do kilkunastu linijek Pythona. Zakładając, że masz zainstalowanego Unsloth (pip install unsloth) i kartę z 8 GB VRAM, kolejność działań jest następująca:

Krok 1 – załaduj model w 4 bitach:

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-4-e2b-it",
    max_seq_length = 2048,
    load_in_4bit = True,
)

jw.

Krok 2 – dodaj adaptery LoRA:

model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    use_gradient_checkpointing = "unsloth",
)

Krok 3

Przygotuj dane treningowe w formacie konwersacyjnym (lista par instrukcja-odpowiedź) i przekaż je do SFTTrainer z biblioteki trl. Cała reszta to standardowe parametry treningu (learning rate, batch size, liczba epok), które dostosowujesz do swojego datasetu.

Po treningu zapisujesz model jako adaptery LoRA (małe pliki rzędu kilkudziesięciu MB) lub jako pełny model po merge’u. Pliki LoRA możesz potem ładować do oryginalnego modelu w runtime, co oznacza, że jeden model bazowy może obsługiwać wiele wyspecjalizowanych wariantów – jeden do obsługi klienta, drugi do analizy umów, trzeci do generowania opisów produktów.

Cały trening na 8 GB VRAM trwa zwykle od 30 minut (mały dataset, 100 przykładów) do kilku godzin (duży dataset, 10 000 przykładów).

Co to znaczy dla zespołów automatyzacji i agentów AI?

Lokalny fine-tuning otwiera scenariusze, które wcześniej wymagały albo kontraktu z OpenAI/Anthropic, albo dużego budżetu na GPU. Trzy sytuacje, w których ma to sens praktyczny:

Specjalizacja modelu pod własny domen biznesowy. Jeśli budujesz agenta n8n, który ma odpowiadać na pytania o Twoje produkty, regulamin albo dokumentację, fine-tuning Gemma 4 na 1000-2000 par pytanie-odpowiedź daje model, który jest dramatycznie bardziej trafny niż generyczna instrukcja podana w prompcie. Plus nie wysyłasz danych do chmury, co rozwiązuje wiele problemów z RODO i NDA.

Klasyfikacja w pipeline’ach automatyzacji. Gemma 4 E2B po fine-tuningu na przykład 500 etykietowanych ticketów (priority/zwykły/spam) klasyfikuje przychodzące zgłoszenia z dokładnością przekraczającą generyczne LLM-y. Workflow w n8n z lokalnym Gemma 4 E2B to dosłownie kilka węzłów i zero kosztów per wywołanie. Patrz też Lemonade by AMD – lokalny serwer LLM, jeśli interesuje Cię alternatywa dla NVIDII.

Edge deployment i offline. Jeśli automatyzacja działa w środowisku bez internetu (fabryka, magazyn, urządzenie mobilne), lokalny Gemma 4 jest jedyną sensowną opcją. 8 GB VRAM to wymóg, który spełnia większość mini-PC z układami AI z 2024-2026 r.

Trzeba też powiedzieć, czego ten setup nie zrobi. Nie zastąpi GPT-4 ani Claude w zadaniach wymagających długiego rozumowania, kreatywnego pisania albo skomplikowanej syntezy wieloźródłowej. Gemma 4 E2B to model 2 mld parametrów. Po fine-tuningu jest świetna w wąskim zadaniu, ale ogólna inteligencja pozostaje na poziomie modelu bazowego.

FAQ – Najczęstsze pytania o fine-tuning Gemma 4 w Unsloth

Czy potrzebuję karty NVIDIA, czy działa też na AMD i Apple Silicon?

Unsloth oficjalnie wspiera CUDA, czyli karty NVIDIA. Wsparcie dla AMD ROCm jest eksperymentalne i dla niektórych operacji wymaga ręcznych obejść. Apple Silicon (M1-M4) nie jest wspierane natywnie przez Unsloth, ale alternatywą na Maca jest MLX od Apple, który ma własne pipeline’y do fine-tuningu Gemma. Jeśli chodzi Ci stricte o 8 GB VRAM i Unsloth, zaplanuj zakup karty NVIDIA.

Jak długo trwa typowy fine-tuning?

Dla małego datasetu (100-500 przykładów) i 3 epok na karcie RTX 3060 12 GB – około 30-90 minut. Następnie dla średniego datasetu (2000-5000 przykładów) – 3-6 godzin. Dla dużego (10 000+) – od kilku godzin do całej doby. Te liczby są przybliżone i zależą od długości sekwencji oraz batch size.

Czy mogę używać wytrenowanego modelu w n8n?

Tak. Najprostszy sposób to wystawić Gemma 4 lokalnie przez Ollama, llama.cpp lub vLLM, a potem w n8n użyć węzła HTTP Request lub OpenAI-compatible (większość lokalnych runtime’ów wystawia kompatybilne API). W kursie n8n 2.0 pokazujemy, jak podpiąć lokalny model do workflow.

Co z licencją Gemma 4?

Krótko: można komercyjnie, z drobnymi ograniczeniami.

Gemma 4 jest na licencji “Gemma Terms of Use” od Google, która pozwala na komercyjne użycie z pewnymi ograniczeniami (m.in. zakaz użycia do generowania szkodliwych treści i pewne wymogi atrybucji). Sprawdź aktualny tekst licencji na stronie Google AI Studio przed wdrożeniem produkcyjnym, ponieważ warunki mogą się zmieniać.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Podsumowanie

Unsloth obniżył próg wejścia do fine-tuningu Gemma 4 do poziomu, w którym wystarczy laptop z kartą 8 GB VRAM. Połączenie QLoRA, gradient checkpointingu i custom kernels pozwala trenować Gemma 4 E2B 1.5 raza szybciej i z 60% mniejszym zapotrzebowaniem na pamięć niż standardowe podejście. Dla zespołów budujących automatyzacje w n8n oznacza to nową opcję w stacku: zamiast wysyłać każdy ticket, mail czy formularz do API komercyjnego modelu, można wytrenować własny, lekki, wyspecjalizowany model i uruchamiać go lokalnie. Cały setup mieści się w cenie używanej karty graficznej i kilku godzin pracy. To dokładnie ten moment, w którym lokalne LLM-y przestają być eksperymentem dla entuzjastów, a stają się praktycznym narzędziem dla każdego zespołu automatyzacji.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Fine-tuning Gemma 4 lokalnie: 8 GB VRAM dzięki Unsloth

Co to jest Unsloth i dlaczego pozwala trenować Gemma 4 na 8 GB VRAM?

Jakie warianty Gemma 4 zmieszczę na swojej karcie?

Naucz się n8n od zera, zacznij automatyzować