Mercor wyciek 4TB - 40 tys. głosów na sprzedaż

Cztery terabajty nagrań głosowych, paszportów i numerów ubezpieczenia społecznego trafiło na stronę wyciekową grupy Lapsus$. Ofiarą padł Mercor, wyceniany na 10 miliardów dolarów startup. Łączy on bowiem zewnętrznych contractorów z laboratoriami AI takimi jak OpenAI, Meta i Anthropic. Pakiet danych obejmuje 40 000 osób, które dostarczały próbki głosu i etykietowały dane treningowe. Każdy z nich przeszedł wideoweryfikację dla największych firm AI na świecie.

Sam atak nie był ani szczególnie wyrafinowany, ani szczególnie nowy. Ktoś zatruł popularny pakiet open source w Pythonie. Następnie czekał czterdzieści minut, aż zaufane firmy go zainstalują. Skutki tej krótkiej okazji zobaczymy przez najbliższe lata. Voice samples, w przeciwieństwie do hasła, nie da się “zmienić po wycieku”. Twój głos zostaje z tobą do końca życia. Teraz jest też w archiwum kogoś, kto z całą pewnością nie zapyta o zgodę na ponowne użycie.

Co dokładnie wyciekło z Mercor?

Lapsus$ opublikował dane na swojej stronie wyciekowej 4 kwietnia 2026 roku, dokładnie tydzień po tym, jak Mercor potwierdził incydent. Pakiet jest opisywany jako “około cztery terabajty”. Co więcej, obejmuje cztery typy informacji wrażliwych.

Pierwszy typ to próbki głosu w jakości studyjnej. Zwykle 2 do 5 minut nagrania na osobę. To wystarczy, żeby wytrenować model klonowania głosu z akcentem, intonacją i charakterystycznymi wzorcami mowy. Dla porównania, komercyjne systemy typu ElevenLabs potrzebują zaledwie minuty próbki. W rezultacie cztery terabajty studyjnych nagrań są materiałem ekstremalnie cennym.

Drugi typ to dokumenty tożsamości. Skany paszportów, praw jazdy i nagrania weryfikacyjne. Na filmach kandydat trzyma swój dokument przy twarzy i czyta przepisaną kwestię. To dokładnie ten zestaw, który banki wykorzystują w procesie KYC. Trzeci typ to numery ubezpieczenia społecznego, głównie contractorów ze Stanów Zjednoczonych. Z kolei czwarty typ to zaszyfrowane dokumenty wewnętrzne Mercor, w tym opisy procedur klientów. Według doniesień ujawniono sposób, w jaki OpenAI dobiera dane treningowe. Pojawiły się też informacje o tym, jak Meta organizuje cykle uczenia ze wzmocnieniem oraz jak Anthropic oznacza odpowiedzi pod kątem bezpieczeństwa.

Próbek głosu nie unieważnisz. Zmienisz hasło, wymienisz numer karty, ale głosu nie zwrócisz. Ten wyciek będzie pracować na ofiary jeszcze przez dekadę.

W odpowiedzi na incydent w ciągu dziesięciu dni od publikacji wpłynęło pięć pozwów zbiorowych od contractorów. Powodowie argumentują, że Mercor zbierał odciski głosowe pod hasłem “danych treningowych”, nie informując jasno, że są one też trwałym identyfikatorem biometrycznym. Sprawa rozstrzygnie się w sądzie. Natomiast samo pytanie ma znaczenie dla całej branży, ponieważ podobne praktyki stosują dziesiątki firm. Większość z nich nie potrafi dziś jasno opisać, czym jest “głos w eksperymencie AI”.

Jak doszło do ataku – LiteLLM i supply chain

Sam mechanizm jest klasycznym przykładem ataku łańcucha dostaw. Grupa o nazwie TeamPCP zdobyła skradzione poświadczenia jednego z maintainerów biblioteki LiteLLM. Ta biblioteka to popularne narzędzie open source. Pozwala aplikacjom łączyć się z różnymi modelami AI przez jeden interfejs. 27 marca 2026 roku TeamPCP opublikował na PyPI dwie zatrute wersje pakietu, oznaczone numerami 1.82.7 i 1.82.8.

Wersje były dostępne przez około czterdzieści minut. W tym czasie społeczność zauważyła ślad złośliwego kodu i administrator je wycofał. W tym oknie wystarczająco wiele firm uruchomiło automatyczną aktualizację zależności. Mercor wpadł w pułapkę razem z innymi. Złośliwy kod wykradał klucze API, dane uwierzytelniające do baz i poświadczenia chmurowe z procesów ładujących bibliotekę. Mercor potwierdził w oświadczeniu dla TechCrunch, że jest “jedną z tysięcy firm dotkniętych kompromitacją projektu”. Firma “przystąpiła szybko do powstrzymania i usunięcia incydentu”.

Brzmi znajomo? Powinno. To dokładnie ten sam wzorzec, co w marcowym ataku na bibliotekę axios. Kilka tygodni temu widzieliśmy go też w ataku na Bitwarden CLI przez npm. Modus operandi jest powtarzalny, a powierzchnia ataku rośnie z każdym nowym pakietem AI w stosie zależności.

Dlaczego skradzione voice samples są groźniejsze niż wyciek hasła?

Warto uświadomić sobie trzy warstwy zagrożeń. Co więcej, każda z nich ma inną dynamikę.

Pierwsza warstwa to bezpośrednie oszustwa głosowe (vishing). Atakujący ma próbkę głosu osoby pracującej dla OpenAI albo Anthropic. Może zadzwonić do księgowości firmy, klienta albo banku i poprosić o pilny przelew. Oprogramowanie do klonowania głosu w czasie rzeczywistym kosztuje dziś kilka dolarów miesięcznie. Dlatego skala takich ataków rośnie wykładniczo. Bank, który chwali się “biometryczną weryfikacją głosu”, właśnie stracił jeden z filarów zabezpieczenia.

Druga warstwa to dane treningowe dla nowych modeli klonowania. Cztery terabajty studyjnej jakości głosów to potężny materiał. Można na nim nauczyć model rozpoznawania emocji, akcentów i charakterystyk mowy w skali, na którą wcześniej nie mógł pozwolić sobie żaden niezależny zespół. Nawet jeśli konkretny atakujący nie wykorzysta nagrań do oszustwa, ktoś inny zbuduje na ich bazie narzędzie. Następnie sprzeda je dziesiątkom przestępców.

Trzecia warstwa to dane korelujące. Voice samples plus paszport plus numer ubezpieczenia społecznego plus nagranie wideo z konkretną kwestią to komplet biometryczny. Pozwala on otworzyć konto bankowe online albo przejąć konto w usłudze chmurowej, która polega na weryfikacji typu “selfie liveness check”. Dlatego ten wyciek nie jest “tylko” o głosie. To jest wyciek całych tożsamości cyfrowych, których jednorazowo nie da się zresetować.

Atakujący nie kupują haseł, bo te się zmieniają w 24 godziny. Kupują biometrię, ponieważ ta zostaje na całe życie ofiary.

Co to znaczy dla polskich firm i Twojego AI workflow?

Polski biznes ma trzy konkretne lekcje do wyciągnięcia z tej historii, niezależnie od tego, czy współpracujesz z Mercor, czy nie.

Po pierwsze, sprawdź swój stos zależności AI. Każdy pakiet open source w Pythonie albo Node.js, który integruje się z modelami językowymi, jest potencjalnym wektorem podobnego ataku. LiteLLM, LangChain, LlamaIndex, podobne biblioteki w n8n. Jeśli zespół ładuje je z PyPI albo npm bez przypiętej wersji, jutro może wciągnąć złośliwą aktualizację w ciągu tych samych czterdziestu minut. Konkretne kroki: zablokuj automatyczne aktualizacje pakietów na produkcji, używaj lock files, monitoruj wpisy w bazach typu OSV i Socket.dev. Więcej o tym, jak firmowe sekrety wyciekają przez nieuwagę, pisaliśmy w analizie ryzyka firmowych danych w narzędziach AI.

Po drugie, jeśli zbierasz głosy, wideo albo skany dokumentów, traktuj je jak dane biometryczne, nawet jeśli marketing nazywa je “danymi treningowymi”. RODO i polski Urząd Ochrony Danych Osobowych nie patrzą na nazwę kategorii, tylko na ryzyko. Polska firma, która zostawia próbki głosu w niezabezpieczonym wiaderku S3, dostanie tę samą karę, co bank po wycieku haseł, ponieważ ryzyko dla osób fizycznych jest porównywalne. Zaszyfruj wszystkie nagrania na poziomie spoczynku, segreguj je od reszty danych, ogranicz dostęp do trzech do pięciu osób.

Po trzecie, włóż w umowy z contractorami i klientami klauzulę o trwałym charakterze danych biometrycznych. Pięć pozwów przeciwko Mercor wynika dokładnie z tego, że firma nie wyjaśniła ludziom, czym jest voice print. Polski sąd, w przeciwieństwie do amerykańskiego, traktuje informowanie podmiotu danych jako podstawowy obowiązek. Krótka klauzula “nagranie głosu jest danymi biometrycznymi w rozumieniu art. 4 RODO i może być wykorzystane do trwałej identyfikacji” nie tylko chroni firmę, ale też zmusza zespół do przemyślenia, czy faktycznie potrzebuje tych nagrań w takiej skali.

Jak sprawdzić, czy Twoje dane wyciekły?

Jeśli kiedykolwiek pracowałeś dla Mercor jako contractor albo Twoja firma korzystała z ich usług, masz kilka sensownych ruchów.

Najprostszy krok to zalogowanie się na konto Mercor i sprawdzenie sekcji bezpieczeństwa. Firma rozesłała powiadomienia do potwierdzonych ofiar, ale praktyka pokazuje, że nie każdy je dostał. Następnie wyślij mejl z prośbą o potwierdzenie statusu, ponieważ z mocy GDPR (i RODO w UE) masz prawo wiedzieć, jakie dane firma przechowuje o tobie i czy zostały one ujawnione.

Drugi krok to monitoring tożsamości. W Polsce darmowe narzędzia typu BIK Alerty albo InPost Sigma pozwalają sprawdzić, czy ktoś nie próbuje na ciebie zaciągnąć kredytu albo otworzyć konta. Voice samples plus paszport są wystarczające do takich prób, więc warto włączyć powiadomienia, nawet jeśli nie masz pewności, że twoje dane wyciekły.

Trzeci krok dotyczy banków i operatorów telekomunikacyjnych. Mianowicie wszyscy, którzy wykorzystują weryfikację głosu jako element procesu logowania albo autoryzacji transakcji, powinni dostać od ciebie prośbę o wyłączenie tego mechanizmu. W zamian zażądaj klasycznego kodu jednorazowego albo aplikacji autoryzującej. Nie jest to wygodne, natomiast kilka tygodni dyskomfortu wygrywa z możliwym przejęciem konta.

Kurs n8n 2.0 · Kodożercy

Automatyzacja to dziś jedna z najbardziej poszukiwanych umiejętności

Firmy szukają ludzi, którzy łączą procesy z narzędziami. Kurs n8n 2.0 na Kodożercach da Ci praktyczne umiejętności: webhooki, API, automatyczne przepływy danych. Możesz je pokazać już jutro.

Zobacz program kursu →

FAQ – Najczęstsze pytania o wyciek z Mercor

Czy Polacy mogli być wśród 40 000 ofiar wycieku?

Tak. Mercor pracuje z contractorami na całym świecie. Co więcej, wśród polskich pracowników AI są tłumacze, lektorzy i osoby etykietujące dane w lokalnych projektach. Jeśli kiedykolwiek logowałeś się na platformie Mercor albo nagrywałeś dla niej próbki głosu, traktuj swoje dane jako potencjalnie ujawnione. Mercor wysłał powiadomienia do potwierdzonych ofiar, ale na podstawie pierwszych pozwów wiadomo, że ich lista jest niekompletna.

Czy moje hasło wystarczy zmienić, żeby się zabezpieczyć?

Nie. Hasło nie jest centralnym problemem tego wycieku. Skradziono próbki głosu, które są trwałym identyfikatorem biometrycznym i nie da się ich “wymienić”. Co więcej, wyciekły też skany paszportów i numery ubezpieczenia społecznego. Dlatego zamiast resetowania haseł, włącz monitoring tożsamości w BIK i wyłącz weryfikację głosem we wszystkich usługach finansowych, z których korzystasz.

Jak chronić swoją firmę przed podobnym atakiem typu supply chain?

Trzy szybkie kroki. Najpierw przypnij wersje pakietów (lock files) i wyłącz automatyczne aktualizacje na produkcji. Następnie włącz monitoring nowych wersji bibliotek przez OSV.dev albo Socket.dev. Na koniec ogranicz uprawnienia procesów, które ładują biblioteki AI, do absolutnego minimum. Większość ataków supply chain wykorzystuje fakt, że proces uruchomiony z tymi bibliotekami ma dostęp do całego środowiska firmy.

Podsumowanie

Mercor stracił 4 terabajty danych biometrycznych 40 000 contractorów przez czterdziestominutowe okno w zatrutej bibliotece LiteLLM. Co warto wynieść z tej historii? Pierwszy wniosek to fakt, że atak łańcucha dostaw nie jest egzotyką z konferencji bezpieczeństwa. Stał się rutynową techniką, która w 2026 roku uderza w największe firmy świata raz na kilka tygodni. Drugi wniosek to powtarzane nieustannie ostrzeżenie – voice samples, paszporty i numery PESEL to dane biometryczne na całe życie. Każde firma, która zbiera takie informacje, musi traktować je z dyscypliną banku, niezależnie od tego, czy nazywa je “danymi treningowymi”, czy “weryfikacją kandydata”. Wreszcie wniosek dla każdego z nas. Jeśli kiedykolwiek nagrałeś próbkę głosu dla platformy AI, sprawdź, gdzie ta próbka teraz leży, ponieważ kolejny wyciek to kwestia czasu, a Twój głos już nigdy nie wróci na “zero ujawnień”.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

Mercor wyciek 4TB nagrań głosowych – 40 000 AI contractorów na sprzedaż

Co dokładnie wyciekło z Mercor?

Jak doszło do ataku – LiteLLM i supply chain

Dlaczego skradzione voice samples są groźniejsze niż wyciek hasła?

Co to znaczy dla polskich firm i Twojego AI workflow?

Jak sprawdzić, czy Twoje dane wyciekły?

Automatyzacja to dziś jedna z najbardziej poszukiwanych umiejętności

FAQ – Najczęstsze pytania o wyciek z Mercor

Czy Polacy mogli być wśród 40 000 ofiar wycieku?

Czy moje hasło wystarczy zmienić, żeby się zabezpieczyć?

Jak chronić swoją firmę przed podobnym atakiem typu supply chain?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Mercor wyciek 4TB nagrań głosowych – 40 000 AI contractorów na sprzedaż

Co dokładnie wyciekło z Mercor?

Jak doszło do ataku – LiteLLM i supply chain

Dlaczego skradzione voice samples są groźniejsze niż wyciek hasła?

Co to znaczy dla polskich firm i Twojego AI workflow?

Jak sprawdzić, czy Twoje dane wyciekły?

Automatyzacja to dziś jedna z najbardziej poszukiwanych umiejętności

FAQ – Najczęstsze pytania o wyciek z Mercor

Czy Polacy mogli być wśród 40 000 ofiar wycieku?

Czy moje hasło wystarczy zmienić, żeby się zabezpieczyć?

Jak chronić swoją firmę przed podobnym atakiem typu supply chain?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up