GPT Image 2 - OpenAI w końcu radzi sobie z tekstem

Przez ostatnie dwa lata generatory obrazów OpenAI miały jeden wspólny problem. Tekst w obrazkach. Prosisz DALL-E o menu restauracji, a dostajesz napis “enchuita” zamiast “enchilada” i “margartas” zamiast “margaritas”. Prosisz o plakat kinowy, a nagłówek wygląda jak losowy ciąg liter, który wymyśliłby komputer z gorączką. Ten etap w narzędziach OpenAI dobiega końca. 21 kwietnia 2026 roku firma udostępniła nowy model GPT Image 2, znany też jako ChatGPT Images 2.0, który renderuje tekst w obrazach z dokładnością powyżej 95%. To dogania Nano Banana 2 od Google, Ideogram i Flux Kontext, które dobry rendering tekstu miały od miesięcy. Różnica polega na tym, że teraz możesz to zrobić bezpośrednio w ChatGPT, bez przełączania się do osobnego narzędzia. Poniżej rozkładamy co zmieniło OpenAI, ile to kosztuje i kto ma dostęp. Plus jak to wpływa na pracę osób, które co tydzień produkują grafiki do blogów, social mediów i landing page’ów.

Co dokładnie ogłosiło OpenAI 21 kwietnia 2026

Premiera miała formę typową dla OpenAI. Krótki wpis na blogu, post na X, demo w aplikacji ChatGPT i od razu dostępność dla użytkowników. Kluczowy komunikat to trzy zmiany względem poprzedniej wersji GPT Image 1.5. Pierwsza to rendering tekstu. Według oficjalnych danych OpenAI i testów TechCruncha, model poprawnie renderuje ponad 95 procent tekstów w obrazie, włącznie z językami nie-łacińskimi (japońskim, koreańskim, chińskim, hindi i bengalskim). Druga to fotorealizm. Z wygenerowanych obrazów zniknął charakterystyczny “ciepły odcień” i plastikowy blask, który od dawna zdradzał, że zdjęcie nie zostało zrobione aparatem. Trzecia to prędkość. Nowa architektura single-pass generuje obraz mniej więcej dwa razy szybciej od poprzednika.

Poza samą jakością zmienił się też model dostępu. Wszyscy użytkownicy ChatGPT, nawet ci korzystający z darmowej wersji, dostają GPT Image 2 od razu. Osoby z planem Plus, Pro i Business dostają dodatkowo tryb “thinking”, czyli wariant z wbudowanym rozumowaniem. API dla deweloperów zostało uruchomione równolegle pod nazwą gpt-image-2. Przy okazji OpenAI ogłosiło, że DALL-E 2 i DALL-E 3 zostaną wyłączone 12 maja 2026 roku. Dla każdej aplikacji, która do tej pory opierała się na starym API DALL-E, oznacza to migrację w ciągu trzech tygodni.

Napis na menu brzmi “margarita”, nie “margartas”. Pierwszy raz możesz wygenerować coś, co faktycznie trafi na stół.

Dlaczego tekst w obrazach to największa zmiana

Żeby zrozumieć wagę tego, co się stało, warto cofnąć się dwa lata. DALL-E 3, który wyszedł we wrześniu 2023 roku, uchodził wtedy za stan sztuki. Ludzie z branży reklamowej podchodzili do niego z nadzieją, że wreszcie skończą się czasy ręcznego klepania plakatów w Photoshopie. Szybko okazało się, że nadzieja była przedwczesna. Menu meksykańskiej restauracji, o które poprosił dziennikarz TechCruncha w 2024 roku, wyszło z hasłami “enchuita”, “margartas” i “tacoz”. Gdy spróbowałeś wygenerować ulotkę z polskim tekstem, diakrytyki znikały albo zmieniały się w losowe znaki. Typograficzne elementy – menu, etykiety, panele informacyjne, UI mockupy – wszystkie wychodziły albo zepsute, albo puste.

Co się zmieniło? GPT Image 2 zmienia ten stan dramatycznie. Z testów, które opublikował TechCrunch przy premierze, wynika że model dostaje prawidłowo nawet dość długie bloki tekstu. Pełne menu restauracji z nazwami dań, cenami i opisami. Plakaty wydarzeń z datą, miejscem i listą prelegentów. Etykiety produktowe z gramaturą, składem i informacjami o alergenach. Autorka TechCruncha opisała to tak: jeśli wygenerujesz menu meksykańskiej restauracji, możesz je postawić na stoliku, a klient nie zauważy, że coś jest nie tak. To nie jest oczywiste przy pierwszej wersji modelu. Dla każdego, kto kiedykolwiek próbował zmusić generator obrazów do zrobienia czegoś praktycznego, to realna zmiana charakteru pracy.

Dla polskiego rynku ta zmiana ma osobną warstwę. Do tej pory polskie znaki diakrytyczne były piętą achillesową wszystkich generatorów obrazów. W zespole obchodziliśmy ten problem na dwa sposoby. Albo nie wstawialiśmy polskiego tekstu w obraz i dokładaliśmy go potem w edytorze. Albo używaliśmy wersji bez diakrytyków i tłumaczyliśmy ludziom, że “tak ma być”. GPT Image 2 to pierwsza wersja, w której ą, ę, ś, ć, ż, ł, ó rzeczywiście wychodzą. Nie zawsze za pierwszym razem, ale wychodzą.

Tryb “thinking” – obrazki, które się zastanawiają przed wygenerowaniem

Drugą dużą zmianą jest nowy tryb pracy modelu, który OpenAI nazywa “thinking”. Zwykły tryb, czyli standard, działa tak jak dotychczasowe modele. Wpisujesz prompt, czekasz kilkanaście sekund, dostajesz obraz. Tryb thinking dodaje do tego warstwę rozumowania. Model zanim wygeneruje cokolwiek, myśli o zadaniu i może przeszukać internet pod kątem referencji. Następnie tworzy do ośmiu spójnych wariantów, trzymając się tego samego stylu, postaci albo kolorystyki.

Dla kogo to jest istotne? Dla każdego, kto pracuje z seriami obrazów. Komiks w sześciu panelach, w których bohater musi wyglądać tak samo. Zestaw grafik do kampanii na Instagramie, gdzie posty muszą mieć wspólny styl. Projekt wnętrz dla różnych pokojów tego samego mieszkania, gdzie paleta i materiały mają być konsekwentne. The Decoder w swoim teście opisał, że tryb thinking generuje efekty zbliżone do zdjęć robionych profesjonalną lustrzanką. Tymczasem wariant instant wciąż ma w sobie lekki sztuczny rys. Cena tej różnicy jest czasowa. Generowanie w trybie thinking zajmuje od dwóch do trzech minut zamiast piętnastu sekund.

Istotne jest też to, że tryb thinking jest ograniczony do płatnych planów ChatGPT (Plus, Pro i Business). Jeśli korzystasz z darmowej wersji, dostajesz tylko standard. Podobny podział obowiązuje w API: parametr quality ma trzy poziomy (low, medium, high), i tylko high dorównuje jakości trybu thinking w aplikacji.

Ile to kosztuje w API i kto ma dostęp

Ceny GPT Image 2 w API są dostępne publicznie i warto je znać, bo decydują o tym, czy dany projekt w ogóle ma sens biznesowy. Model jest rozliczany tokenowo. OpenAI bierze 8 dolarów za milion tokenów wejściowych (czyli za prompt, który wysyłasz do modelu) i 30 dolarów za milion tokenów obrazu wyjściowego. W praktyce za pojedynczy obraz płacisz od 0,006 dolara do 0,211 dolara, w zależności od rozdzielczości i jakości.

Dla porównania z poprzednią wersją GPT Image 1.5 obraz 1024×1024 w wysokiej jakości kosztował 0,133 dolara. Nowa wersja jest więc droższa w tym jednym punkcie. Przy większych rozdzielczościach GPT Image 2 jest już tańszy. Obraz 1024×1536 w wysokiej jakości kosztuje teraz 0,165 dolara zamiast 0,20 dolara. To pokazuje, że cennik został zaprojektowany z myślą o pracy z większymi formatami, które dla blogera, marketera albo grafika są i tak częściej używane.

W ChatGPT podział jest inny. Darmowy użytkownik dostaje standard w podstawowej jakości. Plus (20 dolarów miesięcznie) dostaje standard w lepszej jakości plus limitowany dostęp do trybu thinking. Pro (200 dolarów) dostaje thinking bez wyraźnych limitów. Business daje dodatkowo opcje administracyjne. Dla pojedynczej osoby, która generuje kilkanaście obrazów tygodniowo do bloga albo social mediów, Plus wystarczy z zapasem.

Za sześć centów dostajesz obraz, który wcześniej wymagał wieczoru pracy grafika w Canvie.

Ta zmiana cen wpisuje się w szerszy trend, w którym narzędzia AI przestają być drogim dodatkiem i zaczynają być tańsze od ręcznej pracy. Dla zespołów budujących workflow z automatyzacjami to sygnał, że opłaca się podpinać generator obrazów bezpośrednio do pipeline’u treści.

Kurs n8n 2.0 · Kodożercy

n8n + AI = automatyzacje, które naprawdę myślą

n8n pozwala podłączyć modele AI do swoich workflow – wysyłać dane do ChatGPT, analizować wyniki, generować grafiki przez API i reagować automatycznie. Kurs n8n 2.0 na Kodożercach pokaże Ci jak to połączyć krok po kroku.

Sprawdź jak to działa →

Jak to zmienia pipeline treści w praktyce

Dla osób, które produkują treści seryjnie – blogi, newslettery, social media, landing page’e – GPT Image 2 rozszerza katalog tego, co da się zautomatyzować. Przez ostatnie dwa lata w zespołach pracujących z AI panował podział. Tekst generowany przez LLM (czyli duży model językowy), grafika robiona w Canvie, Figmie albo Midjourney i ręcznie poprawiana przez grafika. Powód był prosty. Generator obrazów nie radził sobie z tekstem, a bez tekstu nie da się zrobić ani bannera reklamowego, ani okładki artykułu, ani karty produktu do social mediów.

Z nowym modelem ta granica przesuwa się. Grafiki z tekstem, które do tej pory wymagały pracy grafika albo szablonu w Canvie, można teraz zamówić jednym promptem. Pipeline treści w n8n, Make albo Zapierze może obejmować pełną produkcję wpisu. Research w Perplexity, tekst w Claude albo GPT, grafikę wyróżniającą w GPT Image 2. Na koniec skrócony post do LinkedIna, wrzucenie na WordPress i publikację. Więcej o tym jak łączyć AI z n8n pokazujemy w artykule o budowaniu asystenta AI w n8n krok po kroku.

Drugim praktycznym efektem jest rozszerzenie katalogu tego, co w ogóle warto generować. Do tej pory do komunikacji marketingowej z AI szły głównie grafiki abstrakcyjne, hero images, tła. Wszystko, co wymagało konkretnego tekstu (menu, ulotka, plakat wydarzenia, banner z ofertą), szło przez grafika albo Canvę. Teraz ten sam obraz można domówić u modelu z gotowym tekstem po polsku. Nie oznacza to, że zawód grafika znika. Oznacza, że grafik od drobnych prac typu “ulotka na wydruk, z diakrytykami, żeby było ładnie” zaczyna robić rzeczy mocniejsze koncepcyjnie, a mechaniczne zadania wędrują do pipeline’u. O podobnej zmianie dotyczącej projektowania interfejsów pisaliśmy przy okazji premiery Claude Design od Anthropic.

Spójność postaci – wrzuć swoje zdjęcie i zobacz, czy model trzyma

Jest jeszcze jeden test, który w praktyce mówi o modelu więcej niż wszystkie benchmarki. Spójność postaci. Wrzucasz swoje zdjęcie, prosisz o wersję w stylistyce cyberpunku, potem w klimacie Wiedźmina, potem jako detektywa z lat 30-tych. Pytanie: czy na wszystkich obrazach to wciąż ta sama twarz?

Ważna uwaga od razu. GPT Image 2 nie otworzył tutaj żadnych nowych drzwi. Nano Banana 2 od Google (oparta na Imagen 3), SeedDream od ByteDance, Flux.1 Kontext i Midjourney v7 od miesięcy robią character consistency na dobrym poziomie. Każde z tych narzędzi przyjmuje zdjęcie referencyjne i potrafi wygenerować tę samą osobę w innej scenerii. Dlatego sam fakt, że OpenAI udostępnia taką funkcję, nie jest ani przełomem ani zaskoczeniem. Jest raczej nadrobieniem zaległości.

Co GPT Image 2 realnie wnosi w spójność postaci

Co GPT Image 2 realnie wnosi w tym obszarze? Trzy rzeczy. Pierwsza to integracja z ChatGPT. Nie musisz szukać dedykowanego modelu ani rejestrować się w osobnej usłudze. Wrzucasz zdjęcie w chat, piszesz prompt, dostajesz obraz. Dla osoby, która i tak używa ChatGPT codziennie, to realna oszczędność czasu. Druga to tryb thinking, w którym model generuje do ośmiu spójnych wariantów w jednej sesji, trzymając tę samą postać, styl i paletę. Trzecia to połączenie spójności z renderingiem tekstu. Możesz poprosić o tego samego bohatera w komiksie, w którym każdy panel ma inny dialog po polsku. Oboje, twarz i tekst, wychodzą poprawnie w tym samym obrazku.

Nano Banana 2 to robi od dawna. Tu zmienia się to, że masz wszystko w jednym oknie ChatGPT.

Test praktyczny, który warto zrobić samemu

Dla zespołu takiego jak nasz najciekawsze jest to, co można zrobić z prawdziwą osobą. Zdjęcie z sesji zawodowej plus prośba “wrzuć mnie do świata gry wideo, zachowując moje rysy”. Efekt podobny do tego, co już można zrobić w Nano Banana albo Flux Kontext. Różnica polega na tym, czy chcesz pracować w chacie, czy w dedykowanym narzędziu.

Warto od razu zaznaczyć, że spójność postaci wciąż ma swoje granice we wszystkich modelach. Twarz wraca rozpoznawalna, ale subtelne szczegóły (dokładny kształt nosa, blizny, znamiona, konkretny odcień oczu) mogą się zmieniać między wariantami. Dla grafiki na bloga albo zdjęcia do LinkedIn to nie przeszkadza. Dla profesjonalnej retuszerki portretowej wciąż potrzebny jest ludzki edytor. To dotyczy wszystkich generatorów, nie tylko GPT Image 2.

Gdzie GPT Image 2 wciąż się potyka

Czy to znaczy, że każdy grafik może już zamknąć Photoshop? Nie. Żeby nie wpaść w pułapkę hype’u, warto znać granice modelu. Pierwsza to czas generowania. W trybie thinking czekasz od dwóch do trzech minut, a przy skomplikowanych scenach (komiks wielopanelowy, seria ośmiu spójnych obrazów) czas potrafi urosnąć do pięciu. Dla pracy seryjnej to istotne, bo generując sto obrazów tygodniowo różnica między piętnastoma sekundami a trzema minutami robi kilka godzin czasu.

Drugie ograniczenie to wiedza modelu, która sięga grudnia 2025 roku. Jeśli poprosisz GPT Image 2 o obraz, w którym liczy się aktualność, model tego nie wie. Przykłady: logo firmy, która się rebrandowała w styczniu, wizerunek polityka, który niedawno się zmienił, albo okładka najnowszej książki. Model może podać dane sprzed kilku miesięcy. Dla większości codziennych zastosowań to jest bez znaczenia. Natomiast dla newsroomów, portali branżowych albo marek z szybko zmieniającą się ofertą warto o tym pamiętać.

Trzecie ograniczenie, o którym mówią użytkownicy w pierwszych dniach po premierze, to wciąż obecny “sztuczny rys” w trybie standard. W trybie thinking model rzeczywiście generuje obrazy, które trudno odróżnić od zdjęć. W trybie instant wciąż zdarza się to subtelne “pluszowe” wykończenie, które oko wyłapie. Jeśli zależy Ci na efekcie hiperrealistycznym, trzeba przełączyć się w thinking i zapłacić tym dłuższym czasem generowania.

FAQ – najczęstsze pytania o GPT Image 2

Czy GPT Image 2 działa po polsku?

Tak, model rozumie polskie prompty i renderuje polski tekst z diakrytykami na obrazach. OpenAI oficjalnie chwaliło się obsługą języków azjatyckich (japoński, koreański, chiński, hindi i bengalski), ale polski również działa poprawnie. Pierwsze testy społeczności pokazują, że ą, ę, ś, ć, ż, ł, ó wychodzą prawidłowo w większości przypadków.

Czy muszę mieć płatny plan ChatGPT, żeby używać GPT Image 2?

Nie. GPT Image 2 w trybie standard jest dostępny dla wszystkich użytkowników ChatGPT, również w wersji darmowej. Żeby uzyskać tryb thinking (rozumowanie przed generowaniem, do ośmiu spójnych wariantów, lepszy fotorealizm) potrzebujesz planu Plus, Pro albo Business.

Co się dzieje z DALL-E 3, jeśli mam aplikację opartą o to API?

DALL-E 2 i DALL-E 3 zostaną wyłączone 12 maja 2026 roku. Jeśli masz aplikację, która generuje obrazy przez stare API, musisz ją zmigrować na gpt-image-2 przed tą datą. OpenAI opublikowało przewodnik migracji w dokumentacji API.

Czy obrazy wygenerowane w GPT Image 2 mają jakiś znak wodny?

Tak, OpenAI stosuje system znakowania obrazów generowanych przez AI zgodny ze standardem C2PA. Znak wodny nie jest widoczny dla człowieka, ale możliwy do wykrycia specjalistycznym oprogramowaniem. Dla porównania, Google stosuje do tego celu swój SynthID, o którym szerzej pisaliśmy przy okazji złamania watermarku SynthID przez badaczy.

Czy obrazy wygenerowane przez GPT Image 2 mogę wykorzystać komercyjnie?

Tak, zgodnie z regulaminem OpenAI użytkownik ma prawa do obrazów wygenerowanych przez model i może ich używać w celach komercyjnych. Osobne kwestie dotyczą tematu praw autorskich do tego, co generujesz (np. postaci Disney, loga firm), które podlegają zwykłym zasadom praw autorskich niezależnie od tego, czym obraz został zrobiony.

Podsumowanie

Po dwóch latach problemów z tekstem na obrazach OpenAI w końcu dogania czołówkę. GPT Image 2 dołącza do Ideogramu, Nano Banana 2 i Flux Kontext w klubie modeli, które poprawnie renderują tekst powyżej 95 procent. Polska diakrytyka działa. Fotorealizm w trybie thinking naprawdę trudno odróżnić od zdjęcia. Dla osób produkujących treści seryjnie głównym atutem jest integracja w ChatGPT. Nie musisz wychodzić z jednego okna ani opłacać osobnej subskrypcji w dedykowanym narzędziu. Cena w API wchodzi w zakres od 0,006 do 0,211 dolara za obraz 1024×1024. W ChatGPT dostęp ma każdy, tryb thinking tylko użytkownicy płatni. DALL-E 2 i 3 kończą 12 maja, więc każda starsza integracja potrzebuje migracji. Jeśli jeszcze nie testowałeś, warto spróbować chociaż jednego promptu z polskim tekstem i porównać wynik z tym, co daje Nano Banana 2 na tej samej frazie.

Newsletter · DevstockAcademy & Kodożercy

Bądź na bieżąco ze światem IT, AI i automatyzacji

Co wtorek: newsy z branży, praktyczne tipy i narzędzia które warto znać. Zero spamu.

Mateusz Wojdalski

Specjalista SEO i content marketingu w Devstock. Zajmuję się strategią treści, automatyzacją procesów marketingowych i wdrożeniami AI w codziennej pracy. Badam nowe narzędzia, adaptuję je do realnych zadań i piszę o tym, co faktycznie działa.

GPT Image 2 – co potrafi nowy generator obrazów od OpenAI

Co dokładnie ogłosiło OpenAI 21 kwietnia 2026

Dlaczego tekst w obrazach to największa zmiana

Tryb “thinking” – obrazki, które się zastanawiają przed wygenerowaniem

Ile to kosztuje w API i kto ma dostęp

n8n + AI = automatyzacje, które naprawdę myślą

Jak to zmienia pipeline treści w praktyce

Spójność postaci – wrzuć swoje zdjęcie i zobacz, czy model trzyma

Co GPT Image 2 realnie wnosi w spójność postaci

Test praktyczny, który warto zrobić samemu

Gdzie GPT Image 2 wciąż się potyka

FAQ – najczęstsze pytania o GPT Image 2

Czy GPT Image 2 działa po polsku?

Czy muszę mieć płatny plan ChatGPT, żeby używać GPT Image 2?

Co się dzieje z DALL-E 3, jeśli mam aplikację opartą o to API?

Czy obrazy wygenerowane w GPT Image 2 mają jakiś znak wodny?

Czy obrazy wygenerowane przez GPT Image 2 mogę wykorzystać komercyjnie?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

GPT Image 2 – co potrafi nowy generator obrazów od OpenAI

Co dokładnie ogłosiło OpenAI 21 kwietnia 2026

Dlaczego tekst w obrazach to największa zmiana

Tryb “thinking” – obrazki, które się zastanawiają przed wygenerowaniem

Ile to kosztuje w API i kto ma dostęp

n8n + AI = automatyzacje, które naprawdę myślą

Jak to zmienia pipeline treści w praktyce

Spójność postaci – wrzuć swoje zdjęcie i zobacz, czy model trzyma

Co GPT Image 2 realnie wnosi w spójność postaci

Test praktyczny, który warto zrobić samemu

Gdzie GPT Image 2 wciąż się potyka

FAQ – najczęstsze pytania o GPT Image 2

Czy GPT Image 2 działa po polsku?

Czy muszę mieć płatny plan ChatGPT, żeby używać GPT Image 2?

Co się dzieje z DALL-E 3, jeśli mam aplikację opartą o to API?

Czy obrazy wygenerowane w GPT Image 2 mają jakiś znak wodny?

Czy obrazy wygenerowane przez GPT Image 2 mogę wykorzystać komercyjnie?

Podsumowanie

Bądź na bieżąco ze światem IT, AI i automatyzacji

Mateusz Wojdalski

Linki

Strona

Newsletter

Sign in

Sign up