Wyobraź sobie plik audio, który dla ucha brzmi jak zwykłe nagranie z lekkim pogłosem. Model voice AI dostaje w nim komendę, której człowiek nie słyszy. To nie scena z thrillera. To publiczna demonstracja techniki nazwanej AudioHijack, którą zespół z Zhejiang University, NUS i NTU pokazał w maju 2026 na IEEE Symposium on Security and Privacy w San Francisco. Praca opisuje atak na nową klasę modeli AI. Chodzi o takie modele, które rozumieją cały plik audio, nie tylko transkrybują słowa. Na 13 testowanych modelach skuteczność oscyluje między 79 a 96 procent.
Czym jest AudioHijack i czym różni się od starszych ataków
Cała linia ataków dźwiękowych ma już osiem lat historii. W 2017 chińskie laboratorium pokazało DolphinAttack. To były ultradźwięki słyszalne tylko dla mikrofonu MEMS. Sześć lat później University of Texas zaprezentował NUIT. To z kolei prawie ultradźwięki w paśmie 16-20 kHz, ukryte w filmie na YouTube. Obie techniki celowały jednak w to samo miejsce: nieliniowość mikrofonu. Twoje ucho nie odbiera ultradźwięku, jednak układ scalony tłumaczy go na zwykłe pasmo akustyczne. W efekcie system rozpoznawania mowy słyszy normalną komendę.
AudioHijack przesuwa cel zupełnie gdzie indziej. Atak nie potrzebuje ultradźwięków ani luki w mikrofonie. Działa w słyszalnym paśmie. Ukryty w nim sygnał wygląda jak naturalny pogłos pokoju albo lekkie zniekształcenie nagrania. Dla człowieka jest to niemożliwe do zauważenia. Cel to nie mikrofon, tylko sam model AI, który przetwarza nagranie.
Stary atak udawał, że jest komendą głosową. Nowy atak udaje, że jest niczym, a model i tak go słyszy.
To zmiana klasy zagrożenia. Wszystkie współczesne asystenty głosowe wchodzą w erę modeli LALM, czyli Large Audio-Language Models. Te modele rozumieją cały dźwięk razem z mową, kontekstem i intencją. ChatGPT Voice Mode, Gemini Live, Phi-4-Multimodal, Qwen2-Audio i GLM-4-Voice to właśnie ta kategoria. Mechanika rozumienia jest tu inna niż w klasycznym Alexa Voice Service. Dlatego stara obrona przed ultradźwiękiem przestaje wystarczać.
Co dokładnie robi AudioHijack na poziomie technicznym
Paper opublikowano jako arXiv 2604.14604 w połowie kwietnia 2026. Opisuje dwie sztuczki, które razem czynią atak działającym. Pierwsza to sampling-based gradient estimation. To matematyczna metoda pozwalająca modyfikować plik audio w sposób różniczkowy. Mówiąc prościej, optymalizuje fale dźwiękowe pod kątem reakcji modelu, nie pod kątem brzmienia.
Druga sztuczka to convolutional perturbation blending. Mechanizm rozkłada zakłócenie po całym widmie czasowo-częstotliwościowym i nadaje mu charakter sztucznego pogłosu. Po polsku, zamiast wbijać do nagrania krzyk z komendą, atak rozsmarowuje sygnał po całej długości pliku. Człowiek słyszy nieco bardziej “kompresowany” dźwięk. To trochę jak przemyt: jeden duży pakiet jest podejrzany, jednak rozdrobniony i rozłożony pomiędzy zwykły bagaż przechodzi niezauważony.
Sześć kategorii niepożądanych zachowań
Autorzy testowali 13 modeli na sześciu kategoriach niepożądanych zachowań: odmowie przetwarzania audio, odmawianiu odpowiedzi, fałszywych informacjach, wstawianiu złośliwych linków, zmianie persony i nieautoryzowanym użyciu narzędzi. Średnia skuteczność wyniosła 79-96 procent na kontekstach, których model nie widział wcześniej. Co ważniejsze, autorzy zweryfikowali atak na dwóch komercyjnych asystentach głosowych. Pierwszy to Mistral AI Voice, drugi to Microsoft Azure voice agents. Oba mogą zostać skłonione do wykonania nieautoryzowanych akcji w imieniu użytkownika. W praktyce klasa ataku przypomina to, co znamy z innych zagrożeń AI – na przykład 137 tysięcy problemów bezpieczeństwa w serwerach MCP, o czym pisaliśmy wcześniej.
Czy Alexa, Siri i ChatGPT Voice w polskim domu są zagrożone
Tu trzeba być precyzyjnym. Na tym punkcie najłatwiej o panikę. Paper AudioHijack nie testował Alexy, Siri ani Google Assistant. Te asystenty wciąż w dużej mierze opierają się na klasycznym pipeline: mikrofon, rozpoznawanie mowy, intent classifier, akcja. Stare ataki typu NUIT je dotykały. AudioHijack celuje gdzie indziej.
Paper pokazuje jednak wprost: dwóch komercyjnych dostawców voice AI klasy LALM ma podatność. Mistral AI Voice i Microsoft Azure voice agents to nie są zabawki. Są wdrażane jako asystenci w call centers, w IVR-ach i w aplikacjach mobilnych. Dlatego najbardziej realistyczny kierunek ryzyka prowadzi do voice agentów enterprise: tam model może wykonywać akcje w imieniu użytkownika.
W konsumenckim segmencie sprawa jest bardziej subtelna. ChatGPT Voice Mode od OpenAI i Gemini Live od Google to też LALM-y. Rozumieją cały dźwięk razem z intencją, nie tylko transkrybują. Paper nie testował tych konkretnych modeli. Architekturalnie są jednak w tej samej rodzinie. Test “rodzicom przez telefon”: twoja mama nie zauważy zakłócenia w podcaście, a jej smartfon z aktywną sesją voice AI mógłby potraktować zakłócenie jako część zadania. Realne ryzyko dla ChatGPT Voice Mode i Gemini Live nie jest jeszcze udokumentowane. Techniczna ścieżka jednak istnieje.
Pierwsza Misja AI · Kodożercy
Rozumiesz zagrożenia AI, gdy rozumiesz jak naprawdę działa
Kurs Pierwsza Misja AI ma dedykowaną lekcję o ciemnej stronie AI: halucynacje, deepfakes, manipulacja. Zanim zaczniesz się bać – zacznij rozumieć.
Poznaj pełny program →

Jak się chronić – cztery warstwy obrony, które działają już dziś
Mitygacja, którą podsuwa cała linia ataków audio, jest fizyczna i prosta. Pierwsza warstwa to słuchawki. To samo rozwiązanie, które wyłącza NUIT, działa też tutaj. Jeśli dźwięk z telewizora czy podcastu nie ma dostępu do mikrofonu, atak nie ma kanału. Słuchawki dokanałowe albo nauszne wokół biurka to dziś najtańsza warstwa obrony.
Druga warstwa to uwierzytelnianie wake-word. Sam wake-word (“Alexo”, “Hey Siri”) nie wystarcza. Atakujący może osadzić go w pliku audio tą samą techniką. Niektóre platformy oferują dodatkowo voice ID, czyli rozpoznawanie konkretnej osoby. Włącz to, jeśli korzystasz z asystenta do wrażliwych komend. Mowa o otwieraniu drzwi, transakcjach bankowych, integracjach domowych. Apple Siri wymaga voice ID na wielu urządzeniach domyślnie. Alexa ma to jako opcję.
Trzecia warstwa to lista dozwolonych poleceń. Asystent głosowy nie musi mieć dostępu do wszystkiego. Dlatego warto odebrać mu wykonywanie zakupów głosem, odpalanie urządzeń bezpieczeństwa i integracje z bankowością. W efekcie większość ataków staje się akademicka. Ta sama zasada dotyczy enterprise. Voice agent w call center powinien mieć ostrą allowlist, a nie blank check.
Czwarta warstwa to audit logu. ChatGPT Voice Mode i Gemini Live zapisują historię interakcji. Sprawdzaj ją raz w tygodniu, szczególnie jeśli używasz asystenta do czegoś więcej niż pogadanki. Komenda, której nie pamiętasz, to znak. Albo halucynacja modelu, albo coś gorszego. Podobny pattern obserwacji pasywnej widzieliśmy w przypadku LinkedIn skanującego rozszerzenia przeglądarki – log to często jedyne miejsce, gdzie widać prawdę.
Mini-FAQ
Czy mój Echo w salonie już teraz wykonuje komendy z reklam w telewizji?
Nie ma udokumentowanego przypadku, w którym AudioHijack w wersji wdrożonej publicznie przejął komercyjnego asystenta typu Alexa. Paper opisuje atak na modele LALM testowane w warunkach badawczych. Klasa zagrożenia jest realna. Dystans między “udowodnione w laboratorium” a “wykorzystywane w produkcji” wciąż istnieje. Dlatego warto obserwować, czy Amazon, Google i Apple odniosą się do tej klasy ataków w dokumentacji bezpieczeństwa w najbliższych miesiącach.
Co zmieni się gdy ChatGPT Voice Mode i Gemini Live będą domyślne w polskich telefonach?
Smartfony z permanentnie aktywnym voice mode pojawiają się obecnie w premium segmencie. Im więcej takich urządzeń, tym większa powierzchnia ataku, ponieważ pasywny mikrofon słucha w tle przez większość dnia. Dlatego polski użytkownik w 2026 ma trzy realne opcje na poziomie sprzętu. Pierwsza to świadome wyłączanie “always-on listening”. Druga – słuchawki z mikrofonem. Trzecia – uwierzytelnianie głosowe dla każdej istotnej akcji.
Podsumowanie
AudioHijack przesuwa atak audio z mikrofonu na sam model voice AI. Dla człowieka zakłócenie brzmi jak naturalny pogłos. Dla LALM-a jest jasną komendą. Skuteczność 79-96 procent na trzynastu modelach laboratoryjnych mówi sama za siebie. Potwierdzenie podatności u Mistral AI oraz Microsoft Azure pokazuje, że zagrożenie wychodzi poza akademicki ekscentryzm. W polskim domu Alexa i Siri nie są jeszcze udokumentowanymi celami. Voice agents enterprise są jednak bliżej realnego ryzyka niż domowa Alexa czy Siri, ponieważ właśnie tam modele mogą dostać narzędzia do wykonywania akcji. Cztery warstwy obrony są dostępne dziś i nie kosztują prawie nic: słuchawki, voice ID, lista dozwolonych komend, audit logu. Jeśli zostawiasz mikrofon włączony przez cały dzień, to jest moment, żeby pomyśleć o ścieżce ataku, której twoje ucho nie wychwyci.
Newsletter · DevstockAcademy & Kodożercy
Bądź na bieżąco ze światem IT, AI i automatyzacji
Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.



