Google opravil AI generátor obrázků. Imagen 3 už obrazovou kvalitou předčí DALL-E

29. 8. 2024 | Petr Michl

Nový model Imagen 3 se polepšil, ve fotorealističnosti je lepší než DALL-E a není daleko za Midjourney. Můžete přitom také měnit detaily vytvořeného obrázku dalšími prompty.

Zdroj: Imagen 3, repro Petapixel

Google ve vývoji AI operuje ve stylu „pozdě, ale pořádně“. Připomínka, že má tato minimálně z první půlky nedobrovolná taktika své výhody, přišla letos v únoru, když uvedl svůj AI nástroj pro tvorbu obrázků Imagen. Tehdy čelil zesměšnění, když i u historických postav dosazoval mylně černochy, a to třeba i mezi generály Konfederace v americké občanské válce, kteří ve skutečnosti bojovali za zachování otroctví. Nyní chce složit reparát se značně vylepšeným modelem Imagen 3.

Google slibuje možnost generovat „obrázky s ještě lepšími detaily, bohatším osvětlením a menším množstvím rušivých prvků. než naše předchozí modely. „Výrazně jsme zlepšili schopnost modelu Imagen 3 porozumět promptům, což pomáhá modelům generovat širokou škálu vizuálních stylů a zachytit drobné detaily z delších promptů," říká.

„U Imagen 3 jsme dosáhli významného pokroku v poskytování lepšího uživatelského komfortu při generování obrázků lidí," uvedl v tiskové zprávě manažer Googlu Dave Citron. Původní Imagen měl problémy vykreslit jako bělochy třeba tzv. zakládající otce USA nebo papeže.

New game: Try to get Google Gemini to make an image of a Caucasian male. I have not been successful so far. pic.twitter.com/1LAzZM2pXF
— Frank J. Fleming (@IMAO_) February 21, 2024

Záhy Google vpynul možnost zobrazovat lidi jako celek a tato ukázka „AI nedostatečnosti“ tehdy způsobila i propad o hodnoty společnosti o pěkných pár miliard na burze. Nyní se Google jistí tím, že nedovoluje vykreslovat reálné postavy. A jistou brzdou proti deepfakes mají být i limity v zobrazování politických nebo kontroverzních témat. Podobné zábrany má v sobě přitom DALL-E i Midjourney.

Právě těmto předním generátorům obrázků by se měl Imagen 3 vyrovnat. Následující grafy tzv. „Elo score“ ukazují, že je na tom jen o něco hůře než Midjourney V6 a citelně lépe než DALL-E nebo StableDifusion 3 (v grafu jako „SD 3", pozn. red.).

Zdroj: Google DeepMind

Níže můžete vidět posun v detailu obrázku rosy na květu růže od modelu Imagen 2.

Zdroj: Google blog

A ve videu níže jsou představené funkce Imagen 3 podrobně.

Podobně jako DALL-E umí i ladění detailů v již vytvořeném vizuálu. Prvně jmenovaný nástroj od OpenAI je ovšem v implementaci úprav dost svérázný a tvrdohlavý, tak uvidíme, jaká bude praxe u toho od Googlu. V tuto chvíli si to mohou vyzkoušet uživatelé placeného AI chatbota Gemini Advanced v angličtině. Údajně by ale měl být později omezeně dostupný i ve free verzi globálně.

Níže si můžete prohlédnout vytvořené obrázky s jejich prompty (po kliknutí na obrázek je zvětšíte).

Prompt: An animated image of a tiny dragon hatching from an egg in a sunlit meadow, surrounded by curious glowing butterflies. Vibrant colors, detailed scales. Zdroj: Google blog

Prompt: An image of a ball gown made of paper napkins in an elegant showroom. Zdroj: Google blog

Prompt: A photorealistic image of a breathtaking mountain vista with jagged peaks and snow-capped summits, bathed in the warm glow of a setting sun. Dramatic clouds, painted in vibrant hues of orange, pink, and purple, streak across the sky, casting long shadows across the rugged landscape.Zdroj: Google blog

Prompt: A vibrant abstract painting with the words 'Dream Big' splashed across the canvas in bold colors. Zdroj: Google blog

Štítky dokumentu: AI Google

Adresáti:*
Váš e-mail:*		Váše jméno:
Připojit zprávu: