Qwen 3.6 27B - open source dogonił Sonnet 4.6

Alibaba właśnie wypuściła Qwen 3.6 27B i w jeden dzień wywróciła rozmowę o tym, gdzie jest dzisiaj granica możliwości modeli AI. Mały, otwarty model z 27.8 miliarda parametrów dogonił w benchmarku zadań agentowych od Artificial Analysis płatnego Claude Sonnet 4.6. Co więcej, pokonał Gemini 3.1 Pro oraz starsze wersje GPT. Licencja Apache 2.0 pozwala używać tego modelu komercyjnie i hostować go u siebie, natomiast ceny API w chmurze są około ośmiu razy niższe niż GPT-5.5. Dla polskich firm, które oglądały się ostatnio na problemy Anthropic z jakością Claude Code albo na podwyżkę cen w premierze GPT-5.5, to poważna alternatywa. Warto spokojnie rozłożyć fakty.

Co konkretnie dostaliśmy w Qwen 3.6 27B

Qwen 3.6 27B to dense model z 27.8 miliarda parametrów. W przeciwieństwie do wariantów mixture-of-experts typu Qwen3.6-35B-A3B, cały model aktywuje się przy każdym zapytaniu. Dlatego jakość jest wyższa, ale jednocześnie koszt obliczeniowy większy. Model jest multimodalny, co oznacza obsługę tekstu, obrazów i wideo na wejściu oraz tekstu na wyjściu. Context window wynosi 262 144 tokenów, czyli około 393 stron A4.

Kluczowe w całej historii jest to, co mówi licencja. Apache 2.0 pozwala na pełne użycie komercyjne, modyfikację i redystrybucję, bez opłat licencyjnych i bez zgody Alibaby. W praktyce możesz pobrać wagi z HuggingFace, uruchomić u siebie w serwerowni albo na własnym laptopie z mocną kartą graficzną i używać w produkcji, także w komercyjnym produkcie swojej firmy.

Na HuggingFace dostępne są dwa warianty. Pełny model (24 tysiące pobrań w pierwszych godzinach) oraz wersja skwantyzowana do FP8, która zmieści się w mniejszej pamięci GPU (39 200 pobrań, czyli jeszcze popularniejsza niż pełna wersja). Dzięki temu 27B nie jest już zarezerwowane dla serwerowni z A100, ponieważ jedna konsumencka RTX 4090 z 24 GB VRAM wystarczy.

Apache 2.0 + 27B parametrów + FP8 = model, który uruchomisz na jednej karcie graficznej i użyjesz komercyjnie bez pytania nikogo o zgodę.

Benchmarki – gdzie Qwen 3.6 27B naprawdę dogonił płatne flagowce

Artificial Analysis w swoim Intelligence Index przyznała Qwen 3.6 27B wynik 46 punktów. Dla kontekstu, mediana modeli open weights tej klasy wynosi 15. Nowy Qwen jest zatem trzy razy lepszy niż średnia konkurencja open source i trafił na pierwsze miejsce w rankingu 119 porównywalnych modeli.

Prawdziwa sensacja z r/LocalLLaMA dotyczy jednak indeksu zadań agentowych Artificial Analysis. Qwen 3.6 27B dorównał w tym benchmarku Claude Sonnet 4.6, a jednocześnie pokonał Gemini 3.1 Pro oraz GPT-5.2 i GPT-5.3. Zwróć uwagę, że Claude Sonnet 4.6 to płatny model z zamkniętymi wagami, a tutaj open source dogonił go w zadaniach agentowych. Użytkownicy Reddita (drugi post w ostatnich godzinach 467 upvotes) masowo piszą, że rezygnują z subskrypcji chmurowych i hostują Qwen lokalnie.

Trzeba jednak dodać uczciwą ostrożność. Qwen 3.6 27B nie dogonił GPT-5.5, który wczoraj ustanowił Intelligence Index na poziomie 60 punktów, ani Claude Opus 4.7 (57 punktów). Dodatkowo Artificial Analysis oznacza Qwen jako “bardzo verbose” – w testach wygenerował 140 milionów tokenów wobec mediany 23 milionów dla klasy. Oznacza to, że używa sześć razy więcej tokenów do wykonania podobnego zadania. W praktyce ten fakt znacząco podnosi koszt per zadanie i spowalnia agenty.

Ile to kosztuje w praktyce

API Qwen 3.6 27B w chmurze (Alibaba Cloud, HuggingFace Endpoints i inni dostawcy) jest wyceniane na 0,60 dolara za milion tokenów wejściowych i 3,60 dolara za milion wyjściowych. Po uśrednieniu wychodzi około 1,35 dolara za milion tokenów (blended rate). Dla porównania GPT-5.5 to 5 i 30 dolarów, czyli blended 11,25 dolara. Qwen 3.6 27B jest zatem mniej więcej 8 razy tańszy za token.

Jednak tutaj wchodzi problem z verbozowością modelu, o którym pisaliśmy wyżej. Jeśli do tego samego zadania Qwen potrzebuje 6 razy więcej tokenów, rzeczywisty koszt per zadanie zbliża się do GPT-5.5. Dla agentów, które robią długie reasoning chains, może wypaść to nawet niekorzystnie. Dlatego zanim zastąpisz Claude albo GPT-5.5 w produkcji, warto porównać całkowity koszt w Twoim konkretnym workflow, a nie tylko cenę za token.

Lokalne uruchomienie to całkiem inna kalkulacja. Wersja FP8 zmieści się na jednej karcie RTX 4090 z 24 GB VRAM (cena nowa około 10 tysięcy złotych, używana około 6-7 tysięcy). Serwerowe A5000 albo A6000 kosztują podobnie na rynku wtórnym. Po kupnie karty koszt marginalny inference wynosi tylko prąd. W efekcie dla firmy z ruchem rzędu kilku tysięcy zapytań dziennie amortyzacja sprzętu zwraca się w kilka miesięcy. Pisaliśmy o tym szczegółowo w przewodniku po uruchamianiu dużych LLM-ów na konsumenckim GPU – to jeden z naszych najczęściej czytanych tekstów w Google Discover.

Kurs n8n 2.0 · Kodożercy

Ile godzin tygodniowo tracisz na powtarzalne zadania?

n8n pozwala zautomatyzować to co robisz ręcznie – przesyłanie danych, powiadomienia, raporty. Kurs n8n 2.0 na Kodożercach pokaże Ci jak, krok po kroku, bez pisania kodu.

Sprawdź kurs n8n 2.0 →

Kiedy Qwen 3.6 27B ma realny sens dla polskiej firmy

Pierwszy scenariusz dotyczy ochrony danych. Jeśli firma przetwarza dane wrażliwe (medyczne, finansowe, prawne), wysyłanie ich do API Claude albo GPT-5.5 oznacza eksport do USA i powiązanie z RODO plus rozszerzoną umową powierzenia. Lokalny Qwen na firmowym serwerze omija ten problem, ponieważ dane w ogóle nie opuszczają infrastruktury. Dla branż regulowanych to często jest granica decyzji między AI a brakiem AI.

Drugi scenariusz to niezależność od dostawcy. Ostatni tydzień pokazał dwa poważne sygnały. Anthropic przyznał się do 50 dni bugów obniżających jakość Claude Code, a OpenAI podniósł ceny dwukrotnie w GPT-5.5. Dla firmy, która oparła workflow na jednym dostawcy, to są realne ryzyka biznesowe. Apache 2.0 na własnej infrastrukturze eliminuje oba. Wagi modelu masz na dysku i nawet jeśli Alibaba jutro wyłączy serwery, Twój model nadal będzie działał.

Trzeci scenariusz to koszt przy dużej skali. Jeśli Twoja firma robi dziesiątki tysięcy zapytań dziennie i chce wykorzystać je w agentach, zwrot z inwestycji w sprzęt pod Qwen przychodzi szybko. W rachunku trzeba jednak uczciwie uwzględnić koszt operacyjny (admin, monitoring, skalowanie) oraz problem z verbozowością modelu.

Qwen 3.6 27B nie zastąpi GPT-5.5 ani Claude Opus 4.7 w zadaniach, które wymagają najwyższej klasy reasoning. Natomiast dla większości typowych przypadków biznesowych (klasyfikacja, generowanie raportów, proste agenty, obsługa klienta, analiza dokumentów) to dziś realny wybór. Zwłaszcza że jest open source i tani.

FAQ – najczęstsze pytania o Qwen 3.6 27B

Czy mogę używać Qwen 3.6 27B komercyjnie?

Tak. Licencja Apache 2.0 pozwala na pełne użycie komercyjne, modyfikację i redystrybucję. Nie ma opłat licencyjnych ani konieczności zgłaszania użycia Alibabie. To samo dotyczy fine-tuningu i wdrożenia w produkcie płatnym.

Czy Qwen 3.6 27B dogonił GPT-5.5?

Nie. GPT-5.5 ma Intelligence Index 60, a Qwen 3.6 27B tylko 46. Qwen dogonił natomiast Claude Sonnet 4.6 (nie Opus 4.7) w benchmarku zadań agentowych od Artificial Analysis. To nadal bardzo mocny wynik dla modelu open source z 27 miliardami parametrów.

Jaki sprzęt potrzebuję do uruchomienia lokalnie?

W wersji FP8 model zmieści się na karcie graficznej z 24 GB VRAM. Konsumencka RTX 4090 albo używane serwerowe A5000 lub A6000 są wystarczające. Pełna precyzja wymaga więcej pamięci, dlatego zalecamy FP8 dla większości zastosowań.

Ile kosztuje API Qwen 3.6 27B?

Cena w chmurze to 0,60 dolara za milion tokenów wejściowych i 3,60 za wyjściowych. Blended rate wychodzi 1,35 dolara, czyli około 8 razy taniej niż GPT-5.5. Uwaga: model jest bardzo verbose i zużywa około 6 razy więcej tokenów niż mediana, zatem koszt per zadanie może być zbliżony do flagowców.

Czym różni się od Qwen3.6-35B-A3B z wcześniejszych wydań?

Qwen 3.6 27B jest modelem dense, podczas gdy Qwen3.6-35B-A3B to mixture-of-experts. W dense przy każdym zapytaniu aktywuje się cały model, w MoE tylko część ekspertów. Dense daje wyższą jakość, MoE jest tańszy obliczeniowo.

Podsumowanie

Qwen 3.6 27B to dziś najlepszy otwarty model AI, jakiego można pobrać i uruchomić lokalnie. Ma Intelligence Index 46 (pierwsze miejsce w grupie) i wynik na poziomie Claude Sonnet 4.6 w zadaniach agentowych. Do tego context window 262 tysięcy tokenów i licencja Apache 2.0. Takiej kombinacji wcześniej nie było. Wersja FP8 zmieści się na jednej konsumenckiej karcie graficznej, dlatego wdrożenie u siebie to realny, a nie teoretyczny scenariusz.

Mocne ograniczenie dotyczy verbozowości modelu. Qwen generuje około sześciu razy więcej tokenów niż mediana podobnych modeli, co zwiększa koszt per zadanie i spowalnia agenty. Jeśli kupujesz API, uwzględnij to w kalkulacji. Jeśli hostujesz lokalnie, to głównie wolniejsze odpowiedzi, a nie wyższe rachunki.

Dla polskiej firmy, która właśnie patrzy na 50 dni bugów Claude Code albo na dwukrotną podwyżkę ceny GPT-5.5, Qwen 3.6 27B daje trzeci wybór. Nie jest tak silny jak flagowce, natomiast jest tańszy, otwarty i nie wymaga zaufania dostawcy z drugiej strony oceanu. Dla wielu zastosowań biznesowych to dokładnie taki kompromis, jakiego dzisiaj rynek szukał.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.