Na małym ekraniku Game Boy Color pojawiają się słowa, których nie ma w żadnym kartridżu. Token po tokenie, w tempie liczonym w minutach na słowo. Treść bywa surrealistyczna, czasem na granicy bełkotu. To nie używalny czat, tylko dowód, że pełna ścieżka transformera ruszyła na konsoli z 1998 roku. Model językowy z rodziny TinyStories, 260 tysięcy parametrów, kwantyzowany do 8 bitów. Procesor 8-bitowy, kilkadziesiąt kilobajtów pamięci, brak chmury, brak Wi-Fi, brak GPU. Plastikowa kostka, kartridż i cierpliwość. Projekt rozszedł się po sieci nie dlatego, że jest praktyczny. Rozszedł się, bo rozbija jedno z najczęstszych założeń ostatnich trzech lat – że “AI wymaga GPU”. A jeśli nie wymaga, to gdzie jest naprawdę granica lokalnego AI?
Co konkretnie udało się uruchomić
Model, który gra w tym główną rolę, to TinyStories-260K z repozytorium Andreja Karpathy’ego. Trenowano go na zbiorze TinyStories opisanym przez Ronena Eldana i Yuanzhiego Li z Microsoft Research. To nie demo “hello world”, a prawdziwy transformer z 260 tysiącami parametrów, nauczony na syntetycznych historyjkach dla dzieci. Wyłącznie po angielsku, w stylu prostej bajki. Polskiego nie zna i nie ma jak się go nauczyć – polski tokenizer, większy słownik i fleksja po prostu nie zmieszczą się w tak małym modelu. Dlatego w wersji “porządnej” generuje krótkie historyjki na poziomie kilkulatka. Na Game Boy Color, po jeszcze ostrzejszej kwantyzacji, wynik bywa bełkotliwy. Tu jednak nie chodzi o jakość prozy, tylko o sam fakt, że pełna ścieżka inferencji w ogóle przechodzi.
Drugą połowę historii pisze sprzęt. Game Boy Color z 1998 roku to 8-bitowy układ Sharp LR35902 taktowany 8 MHz, plus 32 kilobajty RAM-u roboczego. Dla porównania, jedna fotka z telefonu zajmuje kilka megabajtów. Cały model językowy musi się więc zmieścić w kartridżu i w tej minimalnej pamięci. Prompt wpisuje się “padem” przez ekran wyboru znaków. Model odpowiada w tempie minut na pojedyncze słowo. To bliżej rozmowy listownej niż czatu. Mimo to pełna pętla (prompt, inferencja, odpowiedź) działa na konsoli z czasów, gdy większość użytkowników nie miała jeszcze stałego łącza internetowego.
Nie jest istotne, że Game Boy Color liczy słowo przez kilka minut. Istotne jest, że w ogóle liczy.
Tu nie mówimy o emulacji ani sztuczce. Cały kod inferencji działa na natywnym procesorze, w ramach prawdziwych zasobów konsoli. Wersja, którą oglądaliśmy w sieci, to po prostu kartridż wkładany w oryginalne urządzenie, podpięty do telewizora przez konwerter. Dzięki temu efekt jest hipnotyzujący. Widzisz ekran konsoli, na której grywałeś w Pokemony, a ona przepuszcza dane przez transformer.
Jak to w ogóle jest technicznie możliwe
Magia siedzi w dwóch decyzjach inżynierskich.
Kwantyzacja do INT8
Pierwsza to kwantyzacja do INT8. Zamiast trzymać wagi modelu w zmiennoprzecinkowych liczbach 32-bitowych, jakich używają nowoczesne karty graficzne, sprowadza się je do liczb całkowitych 8-bitowych. To samo robi się dziś w projektach typu llama.cpp na laptopach, tylko w skali dziesiątek miliardów parametrów. Tu mamy te same techniki w wersji ekstremalnej. Bez nich Game Boy Color nie miałby gdzie tych wag w ogóle położyć.
Arytmetyka stałoprzecinkowa
Druga decyzja to arytmetyka stałoprzecinkowa zamiast zmiennoprzecinkowej. Procesor Game Boy Color nie potrafi liczyć na liczbach zmiennoprzecinkowych. Samo dodawanie dwóch liczb 32-bitowych jest dla niego mozolne. Dlatego model przelicza się tu wyłącznie na liczbach całkowitych, z ustalonym miejscem przecinka. To stara technika znana z programowania mikrokontrolerów i starszych konsol. Rzadko widzimy ją w kontekście transformerów, ale tu robi pełną robotę.
Reszta to precyzyjna inżynieria
Operacje macierzowe w modelu zostają rozbite tak, żeby zmieściły się w maleńkim RAM-ie konsoli, bankowanym ROM-ie kartridża (na wagi) i dodatkowym SRAM-ie kartridża jako buforze kontekstu. Mechanizm uwagi (attention), serce transformera, jest uproszczony do minimum. Generacja jednego tokena, czyli jednej “literki” lub krótkiego fragmentu słowa, trwa od kilkudziesięciu sekund do kilku minut. Dlatego zdanie pojawia się na ekranie powoli, niemal jak na dalekopisie sprzed lat. Z perspektywy informatyki działa to wszystko zgodnie z teorią.
8 MHz, 32 kilobajty RAM-u i model językowy w jednym pokoju. To nie cyrk. To kompletna ścieżka inferencji w ekstremalnych warunkach.
Jeśli ekstremalne ćwiczenia z Game Boy Color brzmią inspirująco, ale potrzebujesz tego w praktyce biznesowej, najprostsza droga prowadzi przez automatyzację codziennej pracy.
Kurs n8n 2.0 · Kodożercy
Naucz się n8n od zera i zacznij automatyzować
Kurs n8n 2.0 od Kodożerców to praktyczny kurs bez teorii. Budujesz prawdziwe workflow od pierwszej lekcji – od połączeń z API po webhooki i integracje. Żadnych suchych slajdów.
Zacznij naukę →

Co z tego wynika dla lokalnego AI w 2026
Tu jest właściwy interes. Ten projekt nie powstał po to, żeby ktoś używał Game Boy Color jako asystenta. Jest po to, żeby pokazać, jak daleko zaszliśmy od “AI wymaga centrum danych”.
Lokalne AI odzyskuje rozpęd
Trzy ostatnie miesiące i tak były serią takich punktów na mapie. Wystarczy spojrzeć na manifest local-first, żeby zauważyć, że ten kierunek odzyskuje rozpęd. Coraz więcej osób chce mieć model na własnym sprzęcie – z kontrolą, prywatnością i przewidywalnym kosztem.
Z drugiej strony mamy boom na sprzęt domowy do uruchamiania dużych modeli. W teście DeepSeek V4 Flash na Macu z 128 GB RAM-u pokazaliśmy, jak modele wielkości “obozowiska danych” idą na topowym laptopie. Z kolei Multi-Token Prediction wbity do llama.cpp przyspiesza lokalną inferencję dwukrotnie, nawet bez zmiany karty. Te dwa światy spotykają się w jednej tezie. Algorytmy są wystarczająco dobre, żeby AI dało się uruchomić w coraz mniej oczywistych miejscach.
Granica przesuwa się do mikrokomputerów
To zmienia rozmowę o edge computing, czyli przetwarzaniu danych blisko miejsca, w którym powstają. Jeśli najmniejszy transformer chodzi w ogóle na Game Boy Color, to znaczy jedno. Mikrokomputery klasy Raspberry Pi 5 albo małe komputery ARM bez problemu pomieszczą sensowne modele, po kwantyzacji nawet rzędu kilku miliardów parametrów. Mikrokontrolery (małe układy w rodzaju ESP32) zostają raczej przy bardzo lekkich klasyfikatorach.
Z perspektywy automatyzacji procesów to ważny sygnał. Sterowniki w magazynach, kasy fiskalne, drukarki etykiet, nawet ekspresy do kawy mogą dostać własną, lokalną warstwę AI. Wystarczy mikrokomputer obok głównego sterownika. Bez wysyłania danych w chmurę. Bez stałego łącza internetowego.
Co to znaczy dla polskich firm
Dla polskich firm pracujących z wrażliwymi danymi (kancelarie, gabinety, biura księgowe) to też przesuwa rozmowę. Zamiast “wynajmuję chmurę i płacę za każde wywołanie” pojawia się “uruchamiam model lokalnie, dane nie opuszczają komputera”. Wiele wątpliwości wokół RODO i zgodności wtedy po prostu znika.
Podsumowanie
LLM na Game Boy Color to żart inżynierski z poważnymi konsekwencjami. Żart – bo nikt nie zacznie pisać raportów na konsoli z 1998. Poważny – ponieważ pokazuje, że granica “co potrzeba do uruchomienia AI” przesunęła się dramatycznie w ciągu ostatnich dwóch lat. Kwantyzacja do INT8, arytmetyka stałoprzecinkowa i sensowna architektura wystarczą, żeby transformer chodził na 8 MHz. Wniosek dla każdego, kto myśli o AI w swojej firmie albo w swoim domu, jest prosty. Lokalne modele zaczynają być realną alternatywą dla chmury, a ich miejsce nie kończy się na topowym laptopie. Następnym przystankiem nie będzie centrum danych, tylko ekspres do kawy, drukarka etykiet albo własne Raspberry Pi w szafce z routerem.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



