Przez lata modele Google były dostępne albo przez płatne API, albo w wersjach z restrykcyjnymi licencjami blokującymi zastosowania komercyjne. Gemma 4 zmienia ten schemat. Google właśnie wydało cztery nowe modele z licencją Apache 2.0 (tą samą, która obowiązuje Qwen czy Mistral), a wyniki benchmarków plasują je w Top 3 wśród wszystkich open source modeli na świecie. Dla kogoś, kto buduje automatyzacje z lokalnym LLM albo szuka alternatywy dla płatnych API, to konkretna zmiana na liście opcji. Poniżej rozkładam co faktycznie dostajemy, jak to uruchomić i gdzie Gemma 4 ma sens w codziennej pracy.
Czym jest Gemma 4 i jakie modele wchodzą w skład rodziny?
Gemma 4 to cztery modele o różnych rozmiarach, zoptymalizowane pod różne zastosowania i sprzęt. Google opublikowało je jednocześnie z pełną dokumentacją i wsparciem dla głównych platform inference.
| Model | Parametry | Aktywne | Kontekst | Zastosowanie |
|---|---|---|---|---|
| Gemma 4 E2B | 5,1B (z embeddings) | 2,3B | 128K tokenów | Mobile, IoT, urządzenia edge |
| Gemma 4 E4B | 8B (z embeddings) | 4,5B | 128K tokenów | Edge, szybkie API |
| Gemma 4 26B A4B | 26B (MoE) | 4B aktywne | 256K tokenów | Balans szybkość/jakość |
| Gemma 4 31B Dense | 31B | 31B | 256K tokenów | Maksymalna jakość |
Każdy wariant dostępny jest w wersji bazowej i instruction-tuned (IT). W praktyce do automatyzacji i agentic workflows używasz wersji IT.
Warto zatrzymać się przy wariancie 26B A4B. “MoE” to Mixture of Experts – architektura, w której model ma 26 miliardów parametrów, ale podczas generowania każdego tokenu aktywuje tylko 4 miliardy. Dlatego zużywa tyle VRAM co model 4B, a odpowiada jakością modelu 26B. Na mocniejszej karcie graficznej (16-24 GB VRAM) to prawdopodobnie najlepszy wybór.
Apache 2.0 – dlaczego licencja jest tu ważniejsza niż benchmarki?
Poprzednia generacja Gemma miała własną licencję z ograniczeniami przy zastosowaniach komercyjnych. Gemma 4 przeszła na Apache 2.0, co w praktyce oznacza: możesz używać modeli w produktach komercyjnych, modyfikować je, dystrybuować i wdrażać on-premises bez żadnych opłat licencyjnych.
To samo dotyczy modeli takich jak Qwen 2.5 czy Mistral. Różnica polega na tym, że Gemma 4 pochodzi od Google i prawdopodobnie będzie dobrze zintegrowana z ich ekosystemem (Vertex AI, Google Cloud). Dla firm z już istniejącą infrastrukturą Google – to konkretny argument.
Co nowego w architekturze Gemma 4?
Gemma 4 wprowadza kilka technicznych zmian, które mają realne przełożenie na wydajność w produkcji.
Alternująca atencja – model nie przetwarza całego kontekstu w każdej warstwie. Warstwy “lokalne” patrzą na ostatnie 512-1024 tokeny (szybko), warstwy “globalne” analizują cały kontekst (dokładnie). Efekt: szybsze generowanie przy długich dokumentach.
Shared KV Cache – kilka ostatnich warstw wielokrotnie używa tych samych stanów Key/Value z poprzednich warstw, zamiast za każdym razem obliczać je od nowa. Mniejsze zużycie pamięci przy długich sekwencjach.
Native function calling – zamiast instrukcji-obejść do wywoływania narzędzi, Gemma 4 ma wbudowany mechanizm function calling. To ważne dla agentic workflows, gdzie model musi pewnie i konsekwentnie wywoływać zewnętrzne API lub narzędzia.
Wyniki benchmarków potwierdzają, że te zmiany działają: Gemma 4 31B osiąga 89,2% na AIME 2026 (matematyka i rozumowanie wieloetapowe) oraz 80% na LiveCodeBench (kodowanie). W rankingu Arena AI tekstowej model 31B zajmuje 3. miejsce wśród open source – za tylko dwoma innymi modelami o znacznie większych rozmiarach.
Jak uruchomić Gemma 4 lokalnie?
Najszybsza droga to Ollama – jedno polecenie i model jest gotowy:
ollama pull gemma4
Ollama automatycznie pobierze wariant dopasowany do twojego sprzętu. Jeśli chcesz wybrać konkretny rozmiar:
ollama pull gemma4:27b # wariant 26B A4B
ollama pull gemma4:2b # wariant E2B
Dla użytkowników z interfejsem graficznym LM Studio obsługuje Gemma 4 od razu po instalacji – wystarczy wyszukać “gemma4” w bibliotece modeli. Pliki GGUF dostępne są na Hugging Face pod adresem huggingface.co/collections/ggml-org/gemma-4.


Jak połączyć Gemma 4 z n8n?
Są dwa podejścia w zależności od tego czy wolisz lokalną instancję czy API Google.
Opcja 1 – lokalnie przez Ollama: Po uruchomieniu ollama pull gemma4 serwer Ollama wystawia OpenAI-compatible API na localhost:11434. W n8n dodajesz węzeł “Chat Model” z ustawieniami kompatybilnymi z OpenAI – wpisujesz adres lokalnego Ollamy jako base URL. Wszystko działa offline, bez żadnych opłat za tokeny.
Opcja 2 – przez Google AI Studio / Vertex AI: Google udostępniło Gemma 4 jako endpoint w swoim ekosystemie. W n8n używasz węzła Google Gemini Chat Model i wybierasz model z rodziny Gemma 4. To prostsze w konfiguracji, ale generuje koszty API.
Dla większości automatyzatorów lokalny Ollama jest lepszym wyborem: zero kosztów tokenów, dane nie opuszczają serwera, działa bez internetu.
Kurs n8n 2.0 · Kodożercy
Ile godzin tygodniowo tracisz na powtarzalne zadania?
n8n pozwala zautomatyzować to co robisz ręcznie – przesyłanie danych, powiadomienia, raporty. Kurs n8n 2.0 na Kodożercach pokaże Ci jak, krok po kroku, bez pisania kodu.
Sprawdź kurs n8n 2.0 →

Gemma 4 vs Qwen i Llama – gdzie ma sens?
Gemma 4 nie jest pierwszym open source modelem z wysokimi benchmarkami. Warto więc postawić pytanie: kiedy faktycznie ma sens wybranie Gemma zamiast Qwen 2.5 czy Llama 3.3?
Gemma 4 E2B i E4B mają wbudowane wsparcie audio i wideo, czego większość lokalnych LLM nie oferuje w jednym pakiecie. Dla pipeline’ów przetwarzających multimedia to konkretna przewaga.
Ponadto wariant 26B A4B dzięki architekturze MoE działa szybciej i zużywa mniej VRAM niż gęste modele o podobnej jakości. Jeśli serwer ma 16-24 GB VRAM i zależy Ci na szybkości – warto go przetestować obok Qwen 2.5 32B.
Z kolei jeśli budujesz coś na ekosystemie Google Cloud, Gemma 4 będzie miała najlepszą integrację i wsparcie w tym środowisku.
FAQ – najczęstsze pytania o Gemma 4
Czy Gemma 4 można używać komercyjnie za darmo?
Tak. Gemma 4 jest wydana na licencji Apache 2.0, która pozwala na pełne zastosowania komercyjne bez opłat licencyjnych. Możesz wdrażać modele na własnych serwerach, modyfikować je i budować na nich produkty.
Który wariant Gemma 4 wybrać do automatyzacji?
Dla większości automatyzacji i agentic workflows najlepszym wyborem jest Gemma 4 26B A4B – dzięki architekturze MoE zużywa tyle VRAM co model 4B (mieści się na GPU z 8 GB), ale odpowiada jakością modelu 26B. Jeśli masz kartę z 20+ GB VRAM i priorytetem jest jakość, wybierz 31B Dense.
Jak Gemma 4 wypada na benchmarkach w porównaniu do GPT-4o?
W rankingu Arena AI Gemma 4 31B zajmuje 3. miejsce wśród modeli open source. W porównaniu do GPT-4o jest słabszy w najbardziej złożonych zadaniach rozumowania, jednak w typowych zastosowaniach automatyzacji i chatbotów różnica jest minimalna – przy zerowym koszcie tokenów i pełnej lokalności.
Czy Gemma 4 działa z polskim językiem?
Tak. Google deklaruje wsparcie dla ponad 140 języków, w tym polskiego. W testach użytkowników z r/LocalLLaMA jakość polskiego jest porównywalna z Llama 3.3 i Qwen 2.5 w podobnych rozmiarach.
Podsumowanie
Gemma 4 to cztery modele open source od Google dostępne na licencji Apache 2.0: E2B (2,3B aktywnych parametrów), E4B (4,5B), 26B A4B (MoE, 4B aktywnych) i 31B Dense. Kontekst do 256K tokenów, natywny function calling i wsparcie multimedialne dla mniejszych wariantów. Model 31B zajmuje 3. miejsce w rankingu najlepszych open source modeli na świecie. Uruchomienie lokalnie przez Ollama: ollama pull gemma4. Integracja z n8n przez OpenAI-compatible API lokalnego serwera lub węzeł Google Gemini Chat Model.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



