Práce s textem i fotorealističnost. ChatGPT-4o posouvá své schopnosti tvorby obrázků o několik tříd výše

27. 3. 2025 | Petr Michl
Obrázky tvořené AI jsou opět na nové úrovni. Překvapivě díky úpravě ChatGPT, který dosud ve tvorbě vizuálů zaostával. Nyní září nejen fotorealističností výstupů, ale i schopností pracovat na nich s textem, včetně české diakritiky.

OpenAI vylepšovala v posledních měsících zejména svůj jazykový model ChatGPT. Její genAI nástroj na tvorbu obrázků DALL-E je v něm integrovaný, ale dlouhou dobu zůstávala jeho podoba neměnná. Zaostával přitom v obrazové kvalitě za Midjourney, Flux, Ideogramem a dalšími genAI nástroji. To se nyní s vylepšením modelu ChatGPT-4o zásadně mění.

Fotorealističnost

„Naše modely jsme trénovali na společné distribuci online obrázků a textů a učili jsme se nejen to, jak obrázky souvisejí s jazykem, ale i to, jak souvisejí mezi sebou navzájem. V kombinaci s rychlým doškolováním má výsledný model překvapivou vizuální plynulost a je schopen generovat užitečné, konzistentní a kontextové obrázky,“ chlubí se OpenAI v tiskové zprávě. Znamená to, že se k výstupu můžete dostat i přes jeho úpravy v rámci konverzace v ChatGPT s menší námahou než doposud. Výrazný posun je ale patrný i v obrazové kvalitě.

Aktuální výstupy se ve fotorealističnosti mohou rovnat těm od výše zmíněných konkurentů, Flux dokonce překonávají ve schopnosti pojmout detailněji širší scénu. Dokládá to i obrázek níže, který jsme včera vytvořili k článku o tom, jak lidé nakupují s asistencí AI. Pod něj přikládáme také prompt.

 

Prompt

Setting: A comfortably cluttered home office. Bookshelves overflow with paperbacks and hardcovers. A worn, leather armchair sits slightly askew, facing a large, modern monitor. A soft, warm glow emanates from a desk lamp, casting gentle shadows across the room.

Subject: A man, early 30s, with a slightly disheveled but approachable look. He's wearing a faded band t-shirt and comfortable jeans. His brow is furrowed slightly in concentration as he gazes at the monitor. His fingers are poised over the keyboard. He has a light stubble and a generally relaxed posture, suggesting he's been at this for a while.

Object: Next to the man, perched on the arm of the chair, is a semi-transparent robot. It's humanoid in form, but its body is composed of shimmering, almost holographic material. You can partially see through it, revealing the chair's armrest beneath. The robot has a gentle, almost ethereal glow, and its facial features are subtle, but suggest intelligence and helpfulness. It's subtly oriented towards the screen, as if observing the man's shopping activity.

Action: The man is clearly engaged in online shopping. The monitor displays a website with various product images and descriptions. The robot is passively assisting, its presence a visual representation of AI-powered shopping assistance – suggesting it's providing real-time price comparisons, product recommendations, or perhaps even fraud detection.
Lighting: Warm and inviting, with a focus on highlighting the man's face and the robot's subtle glow. The monitor provides a cool, contrasting light source.

Aspect Ratio: 16:9

Photorealistic Details:
The subtle texture of the leather armchair.
The dust motes floating in the air, illuminated by the lamp.
The slight imperfections in the man's skin.
The realistic rendering of the semi-transparent robot, with subtle refractions and light play.
The high resolution of the monitor display, showing crisp text and detailed product images.

 

Níže si prohlédněte ukázku přímo od OpenAI.

Zajímavá je i schopnost proměňovat v realistické zobrazení ilustrace, jak ukázal na scénách z pohádek David Grudl. 

 


Práce s textem

Nevídaná je i práce s textem. A nemyslím tím jen to, že nápis „The National“ na tričku na první fotografii tohoto článku působí přirozeně s ohybem trička (pravděpodobně má jít o odkaz na existující kapelu The National, pozn. red.). Dosud platilo, že text na obrázku od DALL-E je příslibem průšvihu. Texty byly často vyvedené zvláštní směsicí abeced a zřídka dávaly smysl či byly bez chyb, obzvláště v češtině s její složitou diakritikou. Dodejme, že konkurenční obrazové genAI modely ve schopnosti zobrazit text také neexcelují.

Nyní jsem po třetí úpravě získal použitelný plakát punkové kapely lákající na její další koncert. Povšimněte si, jak ChatGPT následuje v promptu zmíněné umístění nápisů.

 

Prompt

Create me a scene of punk rocker surfing on his back on hands of enthusiastic crowd in a dark punk club. He has grey jeans, big black boots and white torn sleeveless t-shirt. Pink hair, mohawk haircut In upper third of the picture create centered text " FIKTIVNÍ KAPELA" with punk-style font In lower third of thie picture should data nad location: 30. 3. STARÁ PUNKÁRNA Nothing of the text should be over the singer

 

Pouhé poukázání na úpravu diakritiky a zvýšení fotorealismu stačilo k dosažení použitelného výsledku. Ač tedy text není vycentrovaný, jak žádá prompt. 

 

 

S o něco větším počtem změn jsem se dostal i ke vtipu v sérii dvou obrázků. 




Následující vykreslení vtipu už šlo při jednom obrázku lépe.



Prompt

Scéna:
Venkovský dvorek za jasného dne. Na pozadí je nízký dřevěný kurník, sem tam pár klovajících slepic, rozházené peří, ohrada z dřevěného plotu a staré kbelíky s vodou. Na zemi trochu slámy a zrní.

 

Hlavní děj:
Uprostřed scény stojí sebevědomý kohout s načechraným peřím a hrdým postojem. Před ním na zemi leží velké pštrosí vejce. Kolem něj je shromážděných několik překvapeně hledících slepic. V pozadí je pštros. 

 

Komiksová bublina (nad kohoutem):
„Dámy, nechci kritizovat. Jenom ukazuji, co se dělá v cizině."

 

 

Připomínám, že již několik měsíců můžete přímo označit na vytvořeném výstupu část, kterou chcete změnit (funkce Výběr). V tomto případě posloužila tato funkce nejprve k posunu bubliny k hlavě kohouta a poté jejímu opětovnému zaplnění textem.

 

Jen dva pokusy stačily k tvorbě scény, kdy ruka drží v letištní hale letenku. Jako cílovou destinaci jsem zvolil estonské město, které by díky přičinlivosti Čechů mělo zdobit jedno z letadel aerolinky Air Baltic.

Prompt

"POV wide-angle view. A hand is holding a plane ticket from a fictional company called "Air Baltic" The ticket clearly shows the departure location as "PRAHA" and the destination as "KUNDA." The background is slightly blurred, suggesting an airport setting or boarding gate. The overall atmosphere feels hopeful and organized, symbolizing a journey from disarray to structure. Include soft lighting and a subtle depth of field for cinematic effect. Make the branding on the ticket ("Air Baltic") look clean and modern. It is a golden hour and light . 4:3 Aspect ratio"

 

S trochou kreativity ovšem zvládnete i glosovat aktuální politické kauzy. Zde je narážka na to, jak několik zástupců americké administrativy plánovalo válečné operace proti jemenským povstalcům ohrožujícím námořní dopravu v Rudém moři nepochopitelně v chatovací skupině v aplikaci Signal, a přitom do ní omylem pozvali i šéfredaktora The Atlantic, Goldberga. Přímo nápodobu zmíněného novináře držícího telefon mi ChatGPT nicméně odmítl vytvořit.

 

Infografiky

Opravdu velké množství textu a údajů vyžadují infografiky. Nechal jsem vytvořit infografiku na základě textu článku o roli genAI při nakupování.  Ano, text má v sobě chyby, stejně nesedí vizuálně řada sloupcových grafů k vyjádřené procentuální hodnotě. Základ tu ale je, a s ním i naděje k „dopromptování“ k použitelnému výsledku.

OpenAI v tiskové zprávě přiznává mezi nedokonalostmi právě to, že si často neporadí s obrázky s poměrem stran výrazně na výšku, tedy třeba právě s infografikami. Ořezává je někdy nevhodně ještě na vytvořené ploše na koncích, zejména zespodu. 

 

Průhledné pozadí

Další velkou novinkou je to, že ChatGPT vám vytvoří obrázky i s průhledným pozadím. To se skvěle hodí na loga nebo na tvorbu objektů či postav, které chcete zasadit do jiného kontextu.

Vytvořil jsem logo fiktivního hokejového klubu Bobrů.

 

Když máte logo týmu, chce to merch. Produktové fotografie ChatGPT pochopitelně také zvládá. 

 

Prompt

 

Take this logo and create a product photo of a bottle. instructions for a bottle and rest below

"Ultra-realistic professional hockey water bottle. Features: Pure white squeeze bottle body Matte black screw-on cap with drinking spout Ergonomic grip design Studio lighting setup with main light and fill light Soft neutral grey gradient background Subtle reflections on the bottle surface Clean professional product photography Shot at f/8 aperture for maximum sharpness Centered composition with slight 3/4 angle view Photorealistic quality, 8K resolution, product photography style" "

 

 

Overlay text přes nahraný obrázek

Zeptal jsem se, jestli dokáže ChatGPT překrýt již existující obrázek textem. Prý ano. Praxe to ovšem nepotvrdila zcela. 

Níže je nahraný podkladový obrázek (nejde o tvorbu ChatGPT, ale o můj obličej nalepený s pomocí nástroje Pixlr na šablonu kovboje).


Dle tváře či jiného polohy šátku je zřejmé, že vložený obrázek ChatGPT nejdříve interně „zmapuje“, a pak si ho nanovo vytvoří. Je to poznat zejména v obličeji, který má trochu jiný tvar, ale i u některých detailů a stínů. Jinak je schopnost nástroje replikovat vložené vysoce pokročilá. I tak vám ale neposkytne dostatečnou konzistenci, když chcete jen textově doplnit konkrétní vizuál, který už máte. Na fotoromány s předfocenými osobami to tedy není. Pro mnoho aplikací může být ale i současná schopnost odpovídající. 

 

Ochrana

ChatGPT má mezi genAI nástroji jednu z nejpřísnějších ochran. „Mračí se“ na jakýkoliv náznak násilí či něčeho vyzývavého, nechce upravovat obsah, který by mohl mít copyright. Jak ale vidíte níže, dá se „ukecat“.

Mimochodem králíček Azurit na stole je nechtěný pozůstatek z předchozích promptů. Pro každý nový vizuál se proto spíše vyplatí otevřít nové chatovací vlákno.  

OpenAI využívá prostředek ke zjištění původu obsahu, který používáte. Společnost k tomu říká:

Všechny vygenerované snímky jsou opatřeny metadaty C2PA, která identifikují, že snímek pochází z GPT-4o, a zajišťují tak transparentnost. Vytvořili jsme také interní vyhledávací nástroj, který využívá technické atributy generací, aby pomohl ověřit, zda obsah pochází z našeho modelu.“

 

Závěr

Popsaná vylepšení jsou změnou, kterou nikdo nečekal. Nejde jen o novou úroveň fotorealističnosti výstupů. Neméně důležité jsou i nové možnosti ovlivnění výstupu. Někteří lidé si ruší předplatné Midjourney, další mluví o zániku řady oborů profesionální fotografie. Z mého pohledu jde spíše o další hřebíček do rakve fotobank a částečně ilustrátorů.  

Štítky dokumentu: AI

To nejlepší z moderního marketingu každý pátek do vašeho inboxu.

Ochrana proti spamovacím robotům. Odpovězte prosím na následující otázku: Jaký je letos rok?
Podobné články: