W rankingach lokalnych serwerów LLM prawie zawsze wygrywają te same narzędzia: Ollama, LM Studio, llama.cpp. AMD postanowiło to zmienić i wypuściło Lemonade – otwarty projekt na Apache 2.0, który jako jeden z niewielu narzędzi realnie wykorzystuje NPU zamiast polegać wyłącznie na GPU. Na laptopach z procesorem Ryzen AI 300-series Lemonade uruchamia modele w trybie hybrydowym: NPU obsługuje wstępne przetwarzanie promptu, a iGPU generuje tokeny. Efekt to lepsze czasy odpowiedzi przy znacznie niższym zużyciu energii. Post na Hacker News zebrał ponad 300 głosów, co wśród społeczności infrastrukturalnej AI jest wyraźnym sygnałem, że coś tu jest na rzeczy.
Co to jest Lemonade i dlaczego AMD go zbudowało?
Lemonade to lokalny serwer LLM stworzony przez AMD, dostępny jako open source na GitHubie (repozytorium lemonade-sdk/lemonade). Projekt nie jest narzędziem end-user w stylu LM Studio – to backend dla developerów i automatyzatorów, którzy chcą lokalnie serwować modele przez API.
Odpowiedź jest prosta: przez lata firma miała dobre procesory, ale słaby ekosystem aplikacji AI. NVIDIA zdominowała rynek dzięki CUDA, a Ollama czy llama.cpp działają na każdym GPU, jednak bez szczególnej optymalizacji pod AMD. Lemonade zmienia ten rachunek. Procesory Ryzen AI 300-series mają wbudowany NPU (Neural Processing Unit) z mocą 50-55 TOPS. Do niedawna ten chip siedział bezczynnie, ponieważ żadne popularne narzędzie LLM z niego nie korzystało.
NPU vs GPU: jak Lemonade używa obu jednocześnie?
NPU to dedykowany procesor zaprojektowany do obliczeń AI o niskim zużyciu energii. Działa świetnie przy przetwarzaniu małych, szybkich zadań w tle. Jego słabością jest niższa przepustowość przy długich sekwencjach.
GPU (w przypadku Ryzen AI – zintegrowane iGPU) ma z kolei wysoką przepustowość przy generowaniu wielu tokenów naraz, jednak zużywa więcej energii.
Lemonade łączy oba układy w trybie hybrydowym:
- NPU przejmuje fazę prefill – analizuje cały prompt i buduje reprezentację wejścia. To zadanie jednorazowe, gdzie NPU błyszczy niskim opóźnieniem
- iGPU przejmuje fazę decode – generuje token po tokenie odpowiedź, gdzie liczy się przepustowość
W praktyce oznacza to krótszy czas do pierwszego tokena i płynniejsze generowanie przy jednoczesnym zmniejszeniu poboru energii nawet o 10-15% w porównaniu z czystym GPU. Na laptopie z baterią to realna różnica przy intensywnym użyciu.


Jak zainstalować Lemonade i jakie modele obsługuje?
Instalacja na Windows jest prosta: pobierasz Lemonade_Server_Installer.exe ze strony lemonade-server.ai, uruchamiasz wizard i wybierasz modele. Serwer startuje automatycznie i jest dostępny pod adresem localhost:8000.
Na Linuksie instalacja przez apt:
sudo apt install lemonade-server
Systemd automatycznie konfiguruje auto-start serwera po restarcie systemu.
Lemonade obsługuje popularne rodziny modeli w formatach GGUF, ONNX i FLM: Llama (Meta), DeepSeek, Qwen (Alibaba), Gemma (Google) oraz Phi (Microsoft). Rozmiary od 0,5B parametrów dla urządzeń z ograniczonymi zasobami do modeli 50+ GB dla serwerów z dużą ilością VRAM. Modele pobierane są z Hugging Face Hub przy pierwszym uruchomieniu.
Wbudowane modele DeepSeek-R1 Distill mają warianty zoptymalizowane pod Ryzen AI – warto zacząć właśnie od nich, aby zobaczyć pełne przyspieszenie NPU.
Integracja z n8n i innymi narzędziami
Lemonade wystawia API w pełni kompatybilne z OpenAI – te same endpointy, ten sam format JSON, ten sam protokół streamingu. Dzięki temu podpięcie go do n8n zajmuje dosłownie minutę: dodajesz węzeł “Chat Model”, jako base URL wpisujesz http://localhost:8000/api/v1, klucz API ustawiasz na dowolny ciąg znaków (Lemonade nie weryfikuje tokenów w trybie lokalnym).
Od tej chwili każdy workflow n8n, który wcześniej wywoływał Claude API lub OpenAI, może działać lokalnie na sprzęcie AMD. Zero kosztów tokenów, zero danych wysyłanych do chmury, pełna dostępność offline.
Poza n8n, Lemonade oficjalnie współpracuje z Open WebUI, AnythingLLM, Dify i VS Code Copilot. Projekt jest też zintegrowany z liteLLM, co ułatwia routing do wielu providerów w jednym miejscu.
Kurs n8n 2.0 · Kodożercy
n8n + AI = automatyzacje, które naprawdę myślą
n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do lokalnego LLM, analizować wyniki, reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć.
Sprawdź jak to działa →

Lemonade vs Ollama vs LM Studio – kiedy wybrać co?
Lemonade nie jest zamiennikiem Ollamy – to raczej uzupełnienie dla konkretnego scenariusza.
Wybierz Lemonade jeśli: masz laptop z procesorem Ryzen AI 300-series i chcesz faktycznie korzystać z NPU, budujesz narzędzia lub automatyzacje wymagające lokalnego API, zależy Ci na obsłudze audio (wbudowany Whisper dla transkrypcji mowy) lub generowaniu obrazów bez osobnych narzędzi.
Zostań z Ollama jeśli: używasz sprzętu NVIDIA lub chcesz największą kompatybilność z ekosystemem (modelfiles, Modelfile syntax, rozbudowane CLI). Ollama ma dojrzalszą społeczność i więcej gotowych integracji po stronie aplikacji.
Wybierz LM Studio jeśli: jesteś użytkownikiem bez doświadczenia z API i chcesz graficznego interfejsu do eksplorowania modeli bez konfiguracji.
Lemonade działa też bez NPU – na zwykłych kartach Radeon lub zintegrowanym GPU starszych procesorów AMD. Przewaga NPU ujawnia się jednak dopiero na sprzęcie Ryzen AI 300-series z systemem Windows 11.
FAQ – najczęstsze pytania o Lemonade AMD
Czy Lemonade działa na kartach NVIDIA?
Nie. Lemonade jest zoptymalizowany dla sprzętu AMD i korzysta ze stosu ROCm zamiast CUDA. Na kartach NVIDIA lepszym wyborem pozostaje Ollama lub llama.cpp z backendem CUDA.
Czy Lemonade można używać na laptopie z AMD Ryzen 7000 (bez Ryzen AI 300)?
Tak, ale bez przyspieszenia NPU. Na starszych procesorach Ryzen bez wbudowanego NPU Lemonade działa przez iGPU lub CPU, podobnie jak Ollama. Pełne korzyści hybrydowe są dostępne wyłącznie na Ryzen AI 300-series (Strix Point) z Windows 11.
Czy Lemonade wystawia API do embeddingów?
Tak, endpoint /api/v1/embeddings jest dostępny, jednak z ograniczeniem: modele w formacie ONNX (zoptymalizowane pod NPU) nie obsługują embeddingów. Do embeddingów należy używać modeli w formacie GGUF uruchomionych na GPU.
Podsumowanie
Lemonade to open source serwer LLM od AMD z licencją Apache 2.0, zoptymalizowany dla sprzętu Ryzen AI 300-series. Jego główna przewaga to hybrydowy tryb wykonania NPU i iGPU, który skraca czas do pierwszego tokena i zmniejsza zużycie energii. API jest w pełni kompatybilne z OpenAI, co oznacza natychmiastową integrację z n8n, AnythingLLM i innymi narzędziami. Obsługiwane modele: Llama, DeepSeek, Qwen, Gemma, Phi w formatach GGUF i ONNX. Instalacja: jeden plik .exe na Windows lub apt install na Linuksie.



