26 marca 2026 Mistral AI wydało Voxtral TTS: model zamiany tekstu na mowę o wadze 4 miliardów parametrów, dostępny jako open weights na Hugging Face. W ocenach przeprowadzonych przez ludzi model bije ElevenLabs Flash v2.5 pod względem naturalności głosu przy porównywalnym Time-to-First-Audio. Dla automatyzatorów pracujących w n8n to konkretna propozycja: zamiast płacić miesięczny plan za generowanie audio, możesz postawić model na własnym VPS lub wywołać API Mistral la Plateforme za $0.016 per 1000 znaków. W tym artykule pokażę jak Voxtral TTS wpisuje się w ekosystem n8n, co realnie możesz z nim zbudować i (uczciwie) gdzie leżą granice, bo polskiego w zestawie nie ma.
Co to jest Voxtral TTS i czym różni się od ElevenLabs?
Voxtral TTS to model syntezy mowy od Mistral AI, który możesz uruchomić samodzielnie lub wywołać przez API. Bez miesięcznego abonamentu naliczanego per znak. Model ma 4 miliardy parametrów i jest zbudowany na architekturze Ministral 3B. Wagi są dostępne na Hugging Face na licencji CC BY-NC 4.0, co oznacza darmowe użycie do celów niekomercyjnych i badawczych. Użycie komercyjne self-hosted wymaga sprawdzenia aktualnych warunków licencji, natomiast API Mistral la Plateforme jest dostępne komercyjnie bez ograniczeń.
ElevenLabs to solidny produkt, jakości nikt nie odbiera. Problem zaczyna się przy skalowaniu. Jeśli twój workflow w n8n generuje kilkaset wypowiedzi miesięcznie (notyfikacje, raporty głosowe, audiobooki z treści blogowych), rachunek rośnie razem z planem. Creator kosztuje $11/mies. za 100 tysięcy znaków, Scale $330/mies. za milion.
Mistral la Plateforme liczy $0.016 per 1000 znaków, bez progów, bez subskrypcji. Przy zmiennym ruchu to model, który po prostu lepiej się skaluje.
Voxtral TTS zmienia równanie kosztowe: self-hosted to dosłownie 0 zł poza sprzętem i prądem, a API Mistral la Plateforme rozlicza się tylko za to co faktycznie wygenerujesz.
Kluczowa różnica techniczna to otwartość modelu. ElevenLabs to zamknięte API. Nie wiesz co dzieje się z Twoim głosem i danymi audio. Voxtral możesz postawić lokalnie i dane zostają po Twojej stronie. Dla projektów z wrażliwymi treściami (wewnętrzne komunikaty, szkolenia) to argument trudny do zignorowania.
Voxtral obsługuje voice cloning z zaledwie 3 sekund próbki głosu. Model odtwarza nie tylko barwę, ale też akcent, intonację i charakterystyczne disfluencje (np. przeciąganie samogłosek). Wynik jest zaskakująco bliski ElevenLabs Instant Voice Cloning, choć przy mocnym akcencie nienglojęzycznym naturalność lekko spada.
Jak podłączyć Voxtral TTS do n8n?
Integracja Voxtrala z n8n działa przez węzeł HTTP Request. Nie ma dedykowanego node’a, jednak podłączenie zajmuje kilka minut. Poniżej ogólny schemat integracji.
Schemat workflow:
Najpierw skonfiguruj credentials. W n8n utwórz nowe poświadczenie typu “Header Auth” z kluczem Authorization i wartością Bearer TWÓJ_KLUCZ_API_MISTRAL. Klucz pobierzesz z konsoli Mistral la Plateforme (console.mistral.ai).
Następnie dodaj węzeł HTTP Request. Metodę ustaw na POST, URL na https://api.mistral.ai/v1/audio/speech (zweryfikuj w docs.mistral.ai/capabilities/audio/text_to_speech bo Mistral aktualizuje API), authentication na Header Auth ze skonfigurowanym Bearer tokenem, body content type na JSON.
Przykładowe body żądania:
{
"model": "voxtral-4b-tts-2603",
"input": "{{ $json.tekst }}",
"voice": "standard",
"response_format": "mp3"
}
Parametr input przyjmuje tekst z poprzedniego węzła workflow. Możesz tam wstawić wyrażenie dynamiczne lub statyczny string. Pole voice zastąp identyfikatorem sklonowanego głosu jeśli korzystasz z voice cloningu. Odpowiedź to plik binarny audio. Podepnij ją pod węzeł Write Binary File żeby zapisać MP3 lokalnie, lub Send Email żeby wysłać jako załącznik.
Dla wariantu self-hosted (Hugging Face lub własny VPS) zmień URL na swój endpoint lokalny lub przestrzeń HF. Reszta konfiguracji pozostaje identyczna, ponieważ Mistral zachował kompatybilność API z wersją chmurową.
Cały workflow: Trigger → pobierz tekst → HTTP Request do Voxtral → zapisz MP3 → wyślij lub opublikuj. Czas budowy: około 15 minut dla osoby która zna n8n.
Warto też obsłużyć błędy. Ustaw węzeł IF sprawdzający czy pole statusCode z HTTP Request wynosi 200, a w przeciwnym razie wyślij powiadomienie Slack lub email z treścią błędu. To podstawa stabilnych workflow produkcyjnych.
Czy Voxtral TTS obsługuje język polski?
Voxtral TTS w aktualnej wersji nie obsługuje języka polskiego. To ograniczenie, o którym trzeba powiedzieć wprost zanim ktoś spędzi godzinę na konfiguracji. Model obsługuje 9 języków: angielski, francuski, niemiecki, hiszpański, niderlandzki, portugalski, włoski, hindi i arabski.
Jeśli prowadzisz workflow po polsku, masz kilka opcji. Pierwsza i najrozsądniejsza: twórz treści głosowe w języku angielskim. Voxtral brzmi tutaj naturalnie i bez zarzutu. Dla podcastów anglojęzycznych, e-learningu czy powiadomień głosowych w projektach międzynarodowych to realne rozwiązanie.
Druga opcja to voice cloning z własnym akcentem. Możesz nagrać 3-sekundową próbkę głosu polskiego native speakera i użyć jej jako bazę dla Voxtrala. Model próbuje odtworzyć barwę głosu, jednak wymowa słów angielskich pozostaje angielska. Akcent “polskiego” głosu będzie słyszalny, ale treść zostanie poprawnie wypowiedziana.
Trzecia opcja: poczekać. Mistral konsekwentnie rozszerza wsparcie językowe swoich modeli, a polski pojawia się w roadmapach kolejnych iteracji. Nie ma jednak potwierdzenia daty.
Jeśli potrzebujesz syntezy po polsku już teraz, ElevenLabs wciąż prowadzi pod tym względem i obsługuje ponad 30 języków z dobrą jakością. Alternatywą open-source jest Coqui TTS, choć jakość polskiego jest tam niższa niż w rozwiązaniach komercyjnych.
Kurs n8n 2.0 · Kodożercy
Ile godzin tygodniowo tracisz na powtarzalne zadania?
n8n pozwala zautomatyzować to co robisz ręcznie – przesyłanie danych, powiadomienia, raporty. Kurs n8n 2.0 na Kodożercach pokaże Ci jak, krok po kroku, bez pisania kodu.
Sprawdź kurs n8n 2.0 →

FAQ: Najczęstsze pytania o Voxtral TTS
Czy Voxtral TTS jest naprawdę darmowy?
Wagi modelu są dostępne bezpłatnie na Hugging Face na licencji CC BY-NC 4.0, czyli darmowe do użytku niekomercyjnego i badawczego, jednak wymagają własnego sprzętu lub VPS do uruchomienia. API Mistral la Plateforme kosztuje $0.016 per 1000 znaków i jest dostępne komercyjnie. Dla porównania: ElevenLabs Creator ($11/mies.) daje 100 tysięcy znaków, czyli efektywnie ok. $0.11 per 1000, czyli około 7 razy drożej niż Mistral.
Jak dobra jest jakość głosu Voxtral w porównaniu z ElevenLabs?
W testach opublikowanych przez Mistral AI model Voxtral TTS osiągnął wyższą ocenę naturalności niż ElevenLabs Flash v2.5 przy podobnym Time-to-First-Audio (czyli czasie od wysłania żądania do pojawienia się pierwszych milisekund dźwięku). Różnica jest jednak niewielka i subiektywna, dlatego warto przeprowadzić własny test na konkretnym typie tekstu przed migracją całego workflow.
Czy mogę używać Voxtral TTS w projektach komercyjnych?
Open weights na Hugging Face są na licencji CC BY-NC 4.0, co oznacza użycie niekomercyjne bez opłat. Jeśli potrzebujesz użycia komercyjnego i nie chcesz kupować odrębnej licencji na self-hosted, skorzystaj z API Mistral la Plateforme, gdzie obowiązują warunki użytkowania platformy dopuszczające komercję. Przed wdrożeniem produkcyjnym zawsze sprawdź aktualną treść licencji bezpośrednio na Hugging Face, bo warunki mogą ulec zmianie.
Podsumowanie
Voxtral TTS to pierwszy open-weights model TTS od Mistral AI, który w ludzkich ocenach bije ElevenLabs Flash v2.5 pod względem naturalności przy porównywalnym Time-to-First-Audio. Integracja z n8n przez węzeł HTTP Request zajmuje kilkanaście minut. Przy cenie $0.016 per 1000 znaków w API (lub zero przy self-hosted) jest dziś najciekawszą opcją cenową w TTS.
Ograniczenia są jednak realne. Brak polskiego dyskwalifikuje model dla polskojęzycznych workflow. Licencja CC BY-NC 4.0 wyklucza komercyjne self-hosted bez dodatkowych uzgodnień. Jeśli twój projekt jest anglojęzyczny lub wielojęzyczny w obsługiwanych dziewięciu językach, zacznij od Voxtrala. Jeśli potrzebujesz polskiego, ElevenLabs wciąż prowadzi.



