Zespół SkyPilot opublikował artykuł, który wywołał dyskusję wśród deweloperów. Teza jest prosta: agenty AI generują lepsze optymalizacje kodu, gdy najpierw przeczytają artykuły naukowe z arXiv i przeanalizują konkurencyjne implementacje. Bez fazy researchowej agent próbował micro-optymalizacji SIMD i zyskał 0,6-0,9%. Po przeczytaniu papierów i forków poprawił wydajność generowania tekstu o 15,1%. Koszt eksperymentu: 29 dolarów.
Jak działa research-driven agent?
Standardowy agent kodujący działa tak: dostaje kod źródłowy, generuje hipotezy optymalizacyjne i zaczyna kodować. Problem polega na tym, że agent nie wie, czego nie wie. Dlatego bez kontekstu zewnętrznego ogranicza się do wzorców, które widzi w kodzie przed sobą.
Research-driven agent natomiast dodaje fazę przed kodowaniem. Najpierw przegląda artykuły naukowe z arXiv związane z problemem. Następnie analizuje konkurencyjne implementacje (forki, alternatywne projekty). Dopiero z tą wiedzą generuje hipotezy i pisze kod.
Na przykład w eksperymencie SkyPilot na llama.cpp (framework do uruchamiania modeli LLM lokalnie, TinyLlama 1.1B) agent bez researchu próbował optymalizacji SIMD. Wynik: +0,6-0,9%, praktycznie nic, ponieważ agent nie wiedział, że zadanie jest ograniczone przepustowością pamięci, a nie mocą obliczeniową.
Po fazie researchu agent odkrył w arXiv i w forkach (ik_llama.cpp, llamafile), że kernel fusion (łączenie operacji RMS_NORM + MUL) istnieje w backendach CUDA i Metal, ale nie na CPU. Dzięki temu zaimplementował tę optymalizację na CPU. Wynik: +15,1% na x86 i +5% na ARM.
Cztery etapy procesu
- Research – agent przegląda artykuły arXiv i analizuje konkurencyjne forki
- Generowanie eksperymentów – pisze skrypty benchmarkowe i testy poprawności
- Równoległa egzekucja – SkyPilot rozdziela eksperymenty na wiele VM w chmurze jednocześnie
- Iteracja – wyniki informują kolejne fale eksperymentów
W rezultacie z ponad 30 wygenerowanych eksperymentów 5 przyniosło mierzalne rezultaty. Cały proces trwał 3 godziny i kosztował 29 dolarów (20 USD za VM, 9 USD za wywołania API).
Co to jest SkyPilot?
SkyPilot to otwartoźródłowy system do uruchamiania i skalowania zadań AI na dowolnej infrastrukturze: AWS, GCP, Azure, Kubernetes, łącznie ponad 20 dostawców. Projekt został uruchomiony na UC Berkeley Sky Computing Lab i jest rozwijany przez społeczność. W praktyce piszesz konfigurację raz w YAML, a SkyPilot automatycznie optymalizuje koszty (maszyny “spot” dają 3-6x oszczędności).
W kontekście research-driven agents SkyPilot pełni rolę infrastruktury: rozdziela eksperymenty na wiele maszyn i zbiera wyniki. Agent nie czeka, aż jeden benchmark się skończy, żeby uruchomić następny.
Kluczowe odkrycie: forki ważniejsze niż artykuły naukowe
Zespół SkyPilot zaobserwował coś ciekawego. Analiza konkurencyjnych forków (ik_llama.cpp, llamafile) okazała się bardziej użyteczna niż artykuły z arXiv. Forki bowiem zawierały konkretne, przetestowane implementacje, które agent mógł bezpośrednio adaptować. Artykuły naukowe natomiast dawały kontekst teoretyczny, ale mniej gotowych do użycia rozwiązań.
To ma sens. 12 zasad budowania agentów AI w produkcji podkreśla, że agent powinien mieć dostęp do jak największego kontekstu przed podjęciem akcji. Research-driven agents to realizacja tej zasady w skali.
Kurs n8n 2.0 · Kodożercy
Naucz się n8n od zera – i zacznij automatyzować
Kurs n8n 2.0 od Kodożerców to praktyczny kurs bez teorii. Budujesz prawdziwe workflow od pierwszej lekcji – od połączeń z API po webhooki i integracje. Żadnych suchych slajdów.
Zacznij naukę →

FAQ – Najczęstsze pytania o research-driven agents
Czym research-driven agent różni się od zwykłego agenta kodującego?
Zwykły agent patrzy na kod i od razu zaczyna go modyfikować. Research-driven agent najpierw czyta artykuły naukowe i analizuje konkurencyjne implementacje. Dopiero z tą wiedzą generuje hipotezy i koduje. Różnica w wynikach: 0,6% vs 15,1% poprawy wydajności.
Ile kosztuje uruchomienie research-driven agenta?
W eksperymencie SkyPilot cały proces trwał 3 godziny i kosztował 29 dolarów (20 USD za maszyny wirtualne, 9 USD za wywołania API). Z 30+ wygenerowanych eksperymentów 5 przyniosło mierzalne wyniki.
Czy mogę użyć tego podejścia z Claude Code?
Koncepcja jest uniwersalna. Zanim zlecisz agentowi optymalizację kodu, daj mu kontekst: artykuły, dokumentację, konkurencyjne implementacje. SkyPilot dodaje do tego infrastrukturę do równoległego uruchamiania eksperymentów w chmurze, ale sam paradygmat “czytaj zanim kodujesz” działa z każdym agentem.
Podsumowanie
Research-driven agents to prosty, ale skuteczny paradygmat: daj agentowi AI kontekst naukowy i konkurencyjny zanim zacznie kodować. Eksperyment SkyPilot na llama.cpp pokazał różnicę między 0,6% a 15,1% poprawy wydajności za 29 dolarów. Co ciekawe, analiza forków okazała się ważniejsza niż artykuły naukowe. Podejście jest uniwersalne i w efekcie nie wymaga konkretnego narzędzia.



