Podczas gdy wszyscy porównują ceny nowego Claude Sonneta i tanie wersje Gemini, Mistral AI wypuścił model, który nie startuje w żadnym z tych wyścigów. Leanstral 1.5 nie generuje maili, nie pisze wtyczek do sklepu i nie kończy pull requestów. Zajmuje się dowodzeniem twierdzeń matematycznych w języku Lean 4. Dlatego znacznie łatwiej go opisać jako współautora matematyka niż asystenta programisty. Poza tym wchodzi z rozmachem, jakiego w tym segmencie długo nie było. Mowa o 119 miliardach parametrów w architekturze mieszanki ekspertów. Z tej puli aktywnych na jedno zapytanie jest tylko 6,5 miliarda. Do tego dochodzi 256 tysięcy tokenów kontekstu oraz bezpłatny dostęp w Mistral Studio na czas etykiety Labs.
Po co komu model AI wyspecjalizowany w Lean 4
Lean 4 to język, w którym matematycy zapisują dowody w formie, jaką komputer może zweryfikować mechanicznie. Dochodzi do tego zastosowanie w informatyce, gdzie systemy krytyczne (protokoły kryptograficzne, jądra systemów operacyjnych, oprogramowanie satelitów) często przechodzą tak zwaną weryfikację formalną. Chodzi o dowód matematyczny, że kod robi dokładnie to, co miał robić, i nic ponadto. W praktyce ograniczeniem tego podejścia jest jednak koszt. Zapisanie dowodu w Lean bywa dłuższe od samego pisania kodu, a specjalistów jest niewielu.
W tym miejscu wchodzą modele takie jak Leanstral. Zadanie mają dwa. Po pierwsze, autoformalizację – zamiana szkicu dowodu w naturalnym języku matematycznym na formalny zapis w Lean, który przechodzi weryfikację. Po drugie, dowodzenie twierdzeń krok po kroku, gdy człowiek utknął. Dlatego Leanstral 1.5 nie konkuruje z Claude Sonnet 5 na pytaniach o CRM. Wchodzi natomiast w ten sam segment co DeepMind AlphaProof, czyli w wąską niszę modeli asystujących formalnym dowodom matematycznym. Publiczne benchmarki pokazujące head-to-head na razie nie są dostępne.
119 miliardów parametrów, ale tylko 6,5 miliarda aktywnych
Architektura MoE, czyli mieszanka ekspertów, oznacza, że model ma dużo wiedzy, ale przy pojedynczym zapytaniu uruchamia tylko część swoich neuronów. W efekcie stosunek 119 do 6,5 miliarda pokazuje, jak duży jest bank wiedzy w porównaniu z tym, ile pracy trzeba wykonać na jedno pytanie. Dzięki temu Leanstral działa szybciej niż gęsty model tej samej wielkości. Do tego dochodzi 256 tysięcy tokenów kontekstu, co pozwala mu widzieć w jednej sesji cały nietrywialny rozdział formalnego podręcznika albo pełny plik dowodu wielotysięcznej długości. Ta cecha jest w matematyce równie ważna jak sam rozmiar modelu.
Rynek AI dla nauki wygląda dziś zupełnie inaczej niż rok temu
Ten sam tydzień, w którym pojawił się Leanstral 1.5, przyniósł też premierę Claude Science od Anthropic dla laboratoriów genomiki. Dwie duże pracownie decydują więc w tym samym momencie, że model ogólny to za mało. Ich celem staje się teraz konkretna dziedzina naukowa, która potrzebuje specjalistycznego narzędzia. Mistral wybrał matematykę formalną, Anthropic wybrał biologię. Do tego doszły w ostatnich miesiącach japoński model Sakana Fugu i chińskie narzędzia 360 jako alternatywa dla Anthropic, a także Qwen 3.6, który dojrzał w lokalnych zastosowaniach na kartach graficznych.
Wspólny mianownik jest jeden. Producenci modeli zaczęli szukać segmentów, w których nie muszą walczyć na cenę tokena z Sonnetem czy Gemini. Zamiast tego oferują lepszą jakość na wąskiej dziedzinie i inny model biznesowy. W przypadku Leanstral 1.5 tym modelem jest tymczasowo darmowy dostęp w Mistral Studio na etykiecie Labs. Dochodzi do tego oczywista możliwość późniejszego uruchomienia płatnego API dla instytucji akademickich i firm zajmujących się weryfikacją formalną.
Co Leanstral 1.5 znaczy dla polskich zespołów badawczych
Polska matematyka ma silne tradycje w logice i teorii dowodu, sięgające szkoły lwowskiej i warszawskiej. Współcześnie w Polsce istnieją zespoły zajmujące się metodami formalnymi, logiką i teorią programowania – między innymi na kilku uniwersytetach i politechnikach. Dlatego darmowy dostęp do modelu klasy Leanstral 1.5 nie jest dla nich ciekawostką. Chodzi o realne narzędzie do skracania czasu prac nad publikacjami. Do tego dochodzi wątek dydaktyczny, jako że języki formalne w rodzaju Coq i Lean funkcjonują od lat w programach studiów w obszarze podstaw informatyki.
Dla polskich firm z branży bezpieczeństwa i infrastruktury krytycznej otwiera się z kolei ścieżka, której wcześniej praktycznie nie było. W praktyce weryfikacja formalna kodu bywała zbyt droga na typowy projekt komercyjny. Jeśli model potrafi w rozsądnym czasie zamienić specyfikację po polsku na dowód w Lean, przynajmniej dla wybranych modułów, kalkulacja się zmienia. Natomiast dla większości zespołów produktowych ta premiera pozostaje ciekawostką. Warto jednak wiedzieć, że rynek AI zaczyna się dzielić na dwie warstwy. Pierwsza to modele ogólne, w których ceny idą w dół. Druga to modele wąskie, których wartością nie jest cena, tylko dziedzinowa jakość.
Pierwsza Misja AI · Kodożercy
AI bez technikaliów – kurs i certyfikat
Pierwsza Misja AI to kurs Kodożerców dla absolutnych początkujących. Sci-fi fabuła, gamifikacja, prawdziwy GPT-4 w ćwiczeniach, certyfikat na koniec.
Zacznij Pierwszą Misję →

Podsumowanie
Leanstral 1.5 nie jest modelem, który zmieni codzienną pracę większości polskich zespołów programistycznych. Otwiera natomiast konkretne drzwi dla matematyków, informatyków formalnych i firm z sektora weryfikacji krytycznego oprogramowania. Poza tym mówi coś ważnego o kierunku, w którym rynek modeli językowych się przesuwa. Dlatego Mistral, Anthropic i DeepMind coraz częściej celują w dyscypliny, w których wartością jest głęboka wiedza dziedzinowa. W efekcie hurtowa wojna cenowa toczy się osobno. Efekty Leanstral 1.5 zobaczymy dopiero, gdy pierwsze poważne dowody powstałe z jego pomocą trafią do publikacji recenzowanych. Do tego czasu polscy badacze dostają jednak darmowy, potężny prototyp do zabawy. Więcej o samym języku Lean i jego zastosowaniach opisuje oficjalna dokumentacja Lean 4.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



