Práce s textem i fotorealističnost. ChatGPT-4o posouvá své schopnosti tvorby obrázků o několik tříd výše
OpenAI vylepšovala v posledních měsících zejména svůj jazykový model ChatGPT. Její genAI nástroj na tvorbu obrázků DALL-E je v něm integrovaný, ale dlouhou dobu zůstávala jeho podoba neměnná. Zaostával přitom v obrazové kvalitě za Midjourney, Flux, Ideogramem a dalšími genAI nástroji. To se nyní s vylepšením modelu ChatGPT-4o zásadně mění.
Fotorealističnost
„Naše modely jsme trénovali na společné distribuci online obrázků a textů a učili jsme se nejen to, jak obrázky souvisejí s jazykem, ale i to, jak souvisejí mezi sebou navzájem. V kombinaci s rychlým doškolováním má výsledný model překvapivou vizuální plynulost a je schopen generovat užitečné, konzistentní a kontextové obrázky,“ chlubí se OpenAI v tiskové zprávě. Znamená to, že se k výstupu můžete dostat i přes jeho úpravy v rámci konverzace v ChatGPT s menší námahou než doposud. Výrazný posun je ale patrný i v obrazové kvalitě.
Aktuální výstupy se ve fotorealističnosti mohou rovnat těm od výše zmíněných konkurentů, Flux dokonce překonávají ve schopnosti pojmout detailněji širší scénu. Dokládá to i obrázek níže, který jsme včera vytvořili k článku o tom, jak lidé nakupují s asistencí AI. Pod něj přikládáme také prompt.
PromptSetting: A comfortably cluttered home office. Bookshelves overflow with paperbacks and hardcovers. A worn, leather armchair sits slightly askew, facing a large, modern monitor. A soft, warm glow emanates from a desk lamp, casting gentle shadows across the room. |
Níže si prohlédněte ukázku přímo od OpenAI.
Zajímavá je i schopnost proměňovat v realistické zobrazení ilustrace, jak ukázal na scénách z pohádek David Grudl.
Práce s textem
Nevídaná je i práce s textem. A nemyslím tím jen to, že nápis „The National“ na tričku na první fotografii tohoto článku působí přirozeně s ohybem trička (pravděpodobně má jít o odkaz na existující kapelu The National, pozn. red.). Dosud platilo, že text na obrázku od DALL-E je příslibem průšvihu. Texty byly často vyvedené zvláštní směsicí abeced a zřídka dávaly smysl či byly bez chyb, obzvláště v češtině s její složitou diakritikou. Dodejme, že konkurenční obrazové genAI modely ve schopnosti zobrazit text také neexcelují.
Nyní jsem po třetí úpravě získal použitelný plakát punkové kapely lákající na její další koncert. Povšimněte si, jak ChatGPT následuje v promptu zmíněné umístění nápisů.
PromptCreate me a scene of punk rocker surfing on his back on hands of enthusiastic crowd in a dark punk club. He has grey jeans, big black boots and white torn sleeveless t-shirt. Pink hair, mohawk haircut In upper third of the picture create centered text " FIKTIVNÍ KAPELA" with punk-style font In lower third of thie picture should data nad location: 30. 3. STARÁ PUNKÁRNA Nothing of the text should be over the singer |
Pouhé poukázání na úpravu diakritiky a zvýšení fotorealismu stačilo k dosažení použitelného výsledku. Ač tedy text není vycentrovaný, jak žádá prompt.
S o něco větším počtem změn jsem se dostal i ke vtipu v sérii dvou obrázků.
Následující vykreslení vtipu už šlo při jednom obrázku lépe.
PromptScéna:
Hlavní děj:
Komiksová bublina (nad kohoutem):
|
Připomínám, že již několik měsíců můžete přímo označit na vytvořeném výstupu část, kterou chcete změnit (funkce Výběr). V tomto případě posloužila tato funkce nejprve k posunu bubliny k hlavě kohouta a poté jejímu opětovnému zaplnění textem.
Jen dva pokusy stačily k tvorbě scény, kdy ruka drží v letištní hale letenku. Jako cílovou destinaci jsem zvolil estonské město, které by díky přičinlivosti Čechů mělo zdobit jedno z letadel aerolinky Air Baltic.
Prompt"POV wide-angle view. A hand is holding a plane ticket from a fictional company called "Air Baltic" The ticket clearly shows the departure location as "PRAHA" and the destination as "KUNDA." The background is slightly blurred, suggesting an airport setting or boarding gate. The overall atmosphere feels hopeful and organized, symbolizing a journey from disarray to structure. Include soft lighting and a subtle depth of field for cinematic effect. Make the branding on the ticket ("Air Baltic") look clean and modern. It is a golden hour and light . 4:3 Aspect ratio" |
S trochou kreativity ovšem zvládnete i glosovat aktuální politické kauzy. Zde je narážka na to, jak několik zástupců americké administrativy plánovalo válečné operace proti jemenským povstalcům ohrožujícím námořní dopravu v Rudém moři nepochopitelně v chatovací skupině v aplikaci Signal, a přitom do ní omylem pozvali i šéfredaktora The Atlantic, Goldberga. Přímo nápodobu zmíněného novináře držícího telefon mi ChatGPT nicméně odmítl vytvořit.
Infografiky
Opravdu velké množství textu a údajů vyžadují infografiky. Nechal jsem vytvořit infografiku na základě textu článku o roli genAI při nakupování. Ano, text má v sobě chyby, stejně nesedí vizuálně řada sloupcových grafů k vyjádřené procentuální hodnotě. Základ tu ale je, a s ním i naděje k „dopromptování“ k použitelnému výsledku.
OpenAI v tiskové zprávě přiznává mezi nedokonalostmi právě to, že si často neporadí s obrázky s poměrem stran výrazně na výšku, tedy třeba právě s infografikami. Ořezává je někdy nevhodně ještě na vytvořené ploše na koncích, zejména zespodu.
Průhledné pozadí
Další velkou novinkou je to, že ChatGPT vám vytvoří obrázky i s průhledným pozadím. To se skvěle hodí na loga nebo na tvorbu objektů či postav, které chcete zasadit do jiného kontextu.
Vytvořil jsem logo fiktivního hokejového klubu Bobrů.
Když máte logo týmu, chce to merch. Produktové fotografie ChatGPT pochopitelně také zvládá.
Prompt
Take this logo and create a product photo of a bottle. instructions for a bottle and rest below
|
Overlay text přes nahraný obrázek
Zeptal jsem se, jestli dokáže ChatGPT překrýt již existující obrázek textem. Prý ano. Praxe to ovšem nepotvrdila zcela.
Níže je nahraný podkladový obrázek (nejde o tvorbu ChatGPT, ale o můj obličej nalepený s pomocí nástroje Pixlr na šablonu kovboje).
Dle tváře či jiného polohy šátku je zřejmé, že vložený obrázek ChatGPT nejdříve interně „zmapuje“, a pak si ho nanovo vytvoří. Je to poznat zejména v obličeji, který má trochu jiný tvar, ale i u některých detailů a stínů. Jinak je schopnost nástroje replikovat vložené vysoce pokročilá. I tak vám ale neposkytne dostatečnou konzistenci, když chcete jen textově doplnit konkrétní vizuál, který už máte. Na fotoromány s předfocenými osobami to tedy není. Pro mnoho aplikací může být ale i současná schopnost odpovídající.
Ochrana
ChatGPT má mezi genAI nástroji jednu z nejpřísnějších ochran. „Mračí se“ na jakýkoliv náznak násilí či něčeho vyzývavého, nechce upravovat obsah, který by mohl mít copyright. Jak ale vidíte níže, dá se „ukecat“.
Mimochodem králíček Azurit na stole je nechtěný pozůstatek z předchozích promptů. Pro každý nový vizuál se proto spíše vyplatí otevřít nové chatovací vlákno.
OpenAI využívá prostředek ke zjištění původu obsahu, který používáte. Společnost k tomu říká:
„Všechny vygenerované snímky jsou opatřeny metadaty C2PA, která identifikují, že snímek pochází z GPT-4o, a zajišťují tak transparentnost. Vytvořili jsme také interní vyhledávací nástroj, který využívá technické atributy generací, aby pomohl ověřit, zda obsah pochází z našeho modelu.“
Závěr
Popsaná vylepšení jsou změnou, kterou nikdo nečekal. Nejde jen o novou úroveň fotorealističnosti výstupů. Neméně důležité jsou i nové možnosti ovlivnění výstupu. Někteří lidé si ruší předplatné Midjourney, další mluví o zániku řady oborů profesionální fotografie. Z mého pohledu jde spíše o další hřebíček do rakve fotobank a částečně ilustrátorů.