Wyobraź sobie, że pytasz model AI o smartfony, a ten odpowiada w stylu Sherlocka Holmesa. Pytasz o telewizję, a model rozważa jej teoretyczne możliwości. Pytasz o internet, a model… nie ma pojęcia, o czym mówisz. Tak właśnie zachowuje się Talkie 13B, czyli świeżo opublikowany model językowy o 13 miliardach parametrów, którego trenowano wyłącznie na tekstach sprzed 31 grudnia 1930 roku. Twórcy mówią o tym jako o czystym eksperymencie laboratoryjnym, ale skutki tego pomysłu sięgają znacznie dalej niż akademicka ciekawostka.
Za projektem stoi trio o ciekawym składzie. Alec Radford, jeden ze współtwórców pierwszych modeli GPT w OpenAI, dołączył do Nicka Levine’a i Davida Duvenauda. W kwietniu 2026 roku opublikowali model na GitHubie i Hugging Face razem z czat-demo opartym o Claude Sonnet 4.6. Cel? Sprawdzić, jak duży model językowy zachowuje się, gdy odetnie się go od całej współczesnej rzeczywistości technologicznej.
Czym jest Talkie 13B i dlaczego trenowano go inaczej?
Talkie to model o standardowej dziś skali, czyli 13 miliardów parametrów. Wartość mieści się między mniejszymi otwartymi modelami a tymi, które dziś uruchamia się komercyjnie w chmurze. Natomiast wszystko, co go odróżnia od reszty, znajduje się w danych treningowych.
Korpus liczy 260 miliardów tokenów, a w przyszłej iteracji ma przekroczyć bilion. Źródła to książki, gazety, czasopisma, prace naukowe, patenty i orzecznictwo, wszystko w języku angielskim i wszystko sprzed 1931 roku. Cała treść po dacie odcięcia została odfiltrowana ręcznie i automatycznie. Zespół odsiał nawet fragmenty historyczne, w których pojawiało się odniesienie do wydarzeń późniejszych.
Talkie nie wie, że istnieje internet, smartfony, komputery, telewizja czy podział atomu. Dla niego “ostatnia nowość” to radio Marconiego i samolot braci Wright.
Dlaczego w ogóle robić coś takiego? Powodów jest kilka, ale główny to jakość eksperymentu naukowego. Aby zbadać, czy model uczy się “rozumieć” świat, czy jedynie powtarza widziane wcześniej wzorce, trzeba mieć kontrolne środowisko. Współczesne modele trenują się na całym internecie, więc nie da się odróżnić, ile zachowania pochodzi z faktycznej generalizacji, a ile z zapamiętania konkretnego zdania. Z modelem, który nigdy nie widział XX wieku po 1931 roku, można zadać pytanie i zobaczyć, co naprawdę “wymyśli”.
Co model robi inaczej niż GPT-5 czy Claude?
Pierwsza obserwacja autorów to “wzrost zaskoczenia” przy wydarzeniach po 1950 roku. Model widzi konkretny tekst albo opis sytuacji i jego perplexity, czyli miara niepewności co do następnego słowa, gwałtownie rośnie. Po polsku, model się gubi, gdy świat przedstawiony przekracza zakres jego wiedzy. To samo w sobie nie jest zaskakujące, ale daje twardą metrykę “ile model nie wie”.
Druga obserwacja jest bardziej zagadkowa. Talkie potrafi pisać kod w Pythonie, mimo że Python powstał w 1991 roku, a w danych treningowych modelu nie ma ani jednego programu w tym języku. Co więcej, generowane fragmenty są poprawne składniowo i wykonują rozsądną logikę. Skąd to się bierze? Najprawdopodobniej z generalizacji. Model nauczył się abstrakcyjnych wzorców z matematyki, logiki i języka formalnego. Źródła to logika Russella, “Principia Mathematica” i patenty inżynierskie. Te wzorce sam dopasował do nowoczesnej składni. Dlatego sama umiejętność jest ograniczona, ale samo jej istnienie ma znaczenie naukowe.
Trzecia różnica to ton. Talkie pisze w stylu początku XX wieku, używa słownictwa z prasy okresu międzywojennego, czasem cytuje zwroty rzadko spotykane dzisiaj. Dla nas, czytelników 2026 roku, to brzmi jak rozmowa z kimś z innej epoki. Z perspektywy nauki o językach to świetny pokaz, jak silnie dane treningowe wpływają na “głos” modelu. Naprawdę silnie – bardziej, niż większość użytkowników GPT czy Claude’a podejrzewa.
Co to mówi o jakości danych treningowych?
Branża LLM od dwóch lat toczy spór, czy bardziej liczy się ilość danych, czy jakość. Z jednej strony są firmy typu Meta, które zwiększają korpusy do bilionów tokenów. Z drugiej strony pojawiają się modele typu DeepSeek V4 z 1 milionem tokenów kontekstu i Qwen 3.6 27B doganiający Sonnet 4.6. Pokazują one, że można osiągnąć dużo na mniejszej, ale starannie dobranej puli.
Talkie wpisuje się w ten drugi obóz, ale w dość ekstremalny sposób. Model osiąga rozsądną jakość na 260 miliardach tokenów, dzięki czemu dostarcza pierwszego kontrolowanego dowodu, że dobrze dobrany korpus wystarczy do wytworzenia rozumienia. Co więcej, autorzy planują rozszerzenie do biliona tokenów, ale wciąż w ramach źródeł sprzed 1931. Innymi słowy, ich tezą jest, że stare książki, gazety i czasopisma naukowe niosą wystarczająco dużo “myśli”, aby wytrenować rozsądnego asystenta.
Jakość danych pokonuje ilość. Talkie udowadnia, że jeden bilion tokenów Tołstoja, Newtona i “Timesa” z 1925 roku to lepszy materiał szkoleniowy niż pięć bilionów postów z forów internetowych.
Ten wniosek ma poważne implikacje praktyczne. Polskie firmy pracujące nad domenowymi modelami AI często stają przed wyborem, czy zbierać każdy dostępny tekst, czy ręcznie kuratorować mniejszą pulę. Eksperyment Talkie sugeruje, że druga droga, mimo że wolniejsza, może dawać znacznie lepsze rezultaty. Co więcej, otwiera drzwi do specjalistycznych modeli, na przykład trenowanych wyłącznie na orzecznictwie polskim z lat 1920-1939 albo na całej spuściźnie literackiej Młodej Polski.
Czy Talkie ma zastosowanie biznesowe?
Krótka odpowiedź: bezpośrednio nie, ale pośrednio bardzo. Talkie sam w sobie jest narzędziem badawczym, a nie produkcyjnym asystentem dla zespołów programistów. Dlatego nie zastąpi Claude’a ani GPT-5 w żadnym praktycznym scenariuszu. Natomiast trzy obszary, w których jego wpływ będzie zauważalny w ciągu kilku miesięcy:
Pierwszy obszar to weryfikacja modeli specjalistycznych. Jeśli pracujesz nad asystentem prawnym, medycznym albo edukacyjnym, podejście Talkie pokazuje, że trening na zawężonym korpusie może działać. Bez konieczności wlewania całego internetu do modelu, wystarczy dobrze dobrany zbiór dokumentów branżowych. Polskie firmy legaltech, które dziś bawią się fine-tuningiem na akcjach prawnych, dostają argument naukowy w kierunku tej drogi.
Drugi obszar to historia, archiwa i edukacja. Modele takie jak Talkie nadają się do badań nad zachowaniem informacji, do wyszukiwania nieoczywistych powiązań w korpusach historycznych, do generowania kontekstu dla cyfryzacji bibliotek narodowych. W Polsce mamy ogromne zbiory zdigitalizowane przez Bibliotekę Narodową i POLONA. Wytrenowanie polskiego analogu Talkie na tych źródłach byłoby projektem badawczym, na który warto zwrócić uwagę.
Trzeci obszar to praktyczne testowanie generalizacji. Każdy zespół pracujący z agentami AI w n8n czy Claude Code zadaje sobie pytanie, czy model “naprawdę rozumie”, czy tylko zgaduje na podstawie podobnych przypadków. Demo Talkie daje narzędzie do tego pytania, ponieważ można pokazać model, który ma czyste środowisko, i porównać jego zachowanie z modelem trenowanym na całym internecie. To zmienia debatę o “halucynacjach” z opinii na coś, co da się zmierzyć.
Kurs n8n 2.0 · Kodożercy
Naucz się n8n od zera. Zacznij automatyzować.
Kurs n8n 2.0 od Kodożerców to praktyczny kurs bez teorii. Budujesz prawdziwe workflow od pierwszej lekcji – od połączeń z API po webhooki i integracje. Żadnych suchych slajdów.
Zacznij naukę →

FAQ – Najczęstsze pytania o Talkie 13B
Czy mogę pobrać i uruchomić Talkie 13B sam?
Tak. Model jest dostępny na GitHubie pod adresem github.com/talkie-lm/talkie i na Hugging Face pod talkie-lm. Wymagania sprzętowe są typowe dla modeli 13B. W praktyce potrzebujesz karty GPU z minimum 16-24 GB pamięci VRAM. Alternatywą jest zoptymalizowana wersja na zwykłym procesorze, ale tylko dla cierpliwych. Twórcy udostępnili też publiczne czat-demo z Claude Sonnet 4.6 na stronie projektu, więc nie musisz nic instalować, żeby zobaczyć, jak Talkie odpowiada.
Czy Talkie umie pisać po polsku?
Nie w wersji bazowej. Korpus treningowy jest w języku angielskim, dlatego model najlepiej radzi sobie w tym języku. Natomiast metodologia jest powtarzalna, więc nic nie stoi na przeszkodzie, żeby polski zespół badawczy wytrenował analog na polskich tekstach historycznych. Mamy w Polsce wystarczająco dużo zdigitalizowanych zbiorów z lat 1850-1930, żeby zbudować podobny model w naszym języku.
Skąd Talkie umie kodować w Pythonie, skoro Python powstał w 1991?
To najbardziej fascynujący wątek całego projektu. Najprawdopodobniej model nauczył się abstrakcyjnych wzorców z matematyki formalnej, logiki Russella, “Principiów” Newtona i patentów inżynierskich. W rezultacie potrafi rozpoznać strukturę składniową, gdy widzi nowoczesny kod w prompcie, i sam ją odtwarza w odpowiedzi. Sama jakość tego kodowania jest słabsza niż w modelach trenowanych na repozytoriach GitHub, ale samo zjawisko pokazuje, jak głęboko modele uczą się wzorców generalnych.
Podsumowanie
Talkie 13B nie zmieni twojej codziennej pracy z agentami w n8n ani nie zastąpi Claude’a w pisaniu maili. Natomiast jego wartość naukowa jest realna i ma trzy konkretne implikacje. Po pierwsze, otrzymujemy twardy dowód, że jakość danych pokonuje ilość. 260 miliardów dobrze dobranych tokenów wystarcza, żeby zbudować rozsądnego asystenta bez współczesnego internetu. Co więcej, eksperyment otwiera drogę do polskich modeli specjalistycznych trenowanych na archiwach i orzecznictwie, zamiast na całym dostępnym tekście. Wreszcie Talkie daje pierwsze narzędzie do mierzenia, ile w odpowiedziach LLM jest realnej generalizacji, a ile pamięci. Dlatego warto śledzić ten projekt nie jako gadżet, tylko jako sygnał kierunku, w którym zmierza branża. W ciągu roku zobaczymy więcej modeli skupionych na czystych domenach. Z kolei firmy, które dziś budują własne asystenty na własnych danych, dostały właśnie nową dźwignię.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



