Vyzkoušeli jsme Soru. AI video nástroj od OpenAI je konečně dostupný v Česku
Když Sora v prosinci loňského roku oznámila své uvedení na trh, bylo to po více než 10 měsících od uvedení prvního traileru, který veřejnost doslova namlsal. Na to, abychom si ji mohli reálně vyžkoušet jsme si ale museli počkat ještě bezmála další 3 měsíce. Nyní dostupnost svého GenAI video nástroje rozšiřuje společnost OpenAI i pro uživatele z Velké Británie, Švýcarska, Norska, Lichtenštejnska, Islandu a především EU, včetně České republiky.
Můžeme si rovnou přiznat, že očekávání nebyla naplněna. Sora není o míle vpředu před dalšími genAI video nástroji, které se během loňského roku objevily. Fotorealističností záběrů má ovšem co nabídnout.
Nástroj je dostupný uživatelům prémiových účtů ChatGPT Plus (20 dolarů měsíčně) a Pro (200 dolarů měsíčně). První skupina může vytvořit až 50 videí se stopáží 5 sekund a rozlišením 720p. Uživatelé s předplatným s desetinásobnou cenou mají k dispozici až 500 FullHD videí o délce 10 sekund, délka videa může být ale až 20 sekund.
S Pro účtem je spojených 1000 kreditů, s tím s označením Plus 10 000 kreditů. Kvalita rozlišení a délky generovaného videa přitom určuje jeho kreditovou hodnotu, kterou ukazuje následující tabulka z nápovědy OpenAI.
Nižší spotřebu kreditů pak mají další funkce Re-cut, Remix, Blend a Loop, s nimiž upravujete již vytvořené video.
Níže představujeme na videích od OpenAI, co některé z těchto funkcí umí.
Naše testování
Během našeho testování se potvrdila pověst, která Soru předchází. Tedy fotorealističnost je vysoká, ale nástroj je poměrně omezený v ovládání. Nejpokročilejší možností je Storyboard, v němž můžete v rámci nastavené stopáže určovat, co se stane. I tak charaktery neposlouchají zrovna na slovo.
Zkoušeli jsme rozhýbat konzistentní postavu ženy v různých scénách aktivního pohybu, tedy věc, pro kterou máme u jednoho z projektů agentury Focus konkrétní využití. Vkladem z naší strany bylo vždy přidání fotografie statické scény, kterou měla Sora rozhýbat. Prompty byly nekomplikované, popisující, co má charakter v dané scéně dělat za pohyb, případně jak se má pohybovat kamera.
Podkladový snímek
Zachování scény a obrazové kvality podkladové fotografie výše bylo povedené. U rozjíždění byl v pořádku i pohyb. Jízda na kole působila ovšem nepřirozeně.
(3/3) Jízda na kole působila ovšem nepřirozeně. pic.twitter.com/k8VUKOKTwq
A to se bohužel týkalo i běžné chůze. (3/3) Snaha o opravu videa funkcí Remix se povedla napůl. Chůze je až na jedno poskočení přirozenější. Samotná žena a částečně i scéna ale ztrácí původní podobu. pic.twitter.com/YtTDRzX4lP
Podkladový snímek
Chůze je nepřirozená. Jedna noha prostupuje druhou. Snaha o opravu videa funkcí Remix se povedla napůl. Chůze je až na jedno poskočení přirozenější. Samotná žena a částečně i scéna ale ztrácí původní podobu.
Níže vidíte video běhání, které vypadá jako hopsání poníka. Video vychází čistě z detailního textového promptu.
Video vychází z čistě z detailního textového promptu. pic.twitter.com/y56x9B1tw4
Podkladový snímek
Pohyb hlavy a mimika v následující scéně se nicméně povedly. To už bohužel nejde říct o funkci Remix s využitím charakteru v jiné scéně, podoba je ženě z podkladového snímku a videa jen vzdálená.
3/3 funkce Remix s využitím charakteru v jiné scéně (podoba je ženě z podkladového snímku a videa bohužel jen vzdálená) pic.twitter.com/L17kxH6DqZ
Pro pochopení limitů Sory nám pomohlo toto Reddit vlákno, v němž autor shrnuje strukturovaně výsledky u různých druhů promtů. Jeho finální závěr zní:
„Sora skvěle zvládá výzvy, které kladou důraz na kreativní, zábavné a srozumitelné vyprávění. Je vynikající při vytváření vizuálně poutavých a nápaditých výstupů, pokud jsou podněty stručné a cílené.
Má však potíže s úkoly náročnými na přesnost nebo s podněty vyžadujícími složité vrstvení. To poukazuje na mezeru v efektivním zpracování velmi podrobných nebo abstraktních pokynů. Mám podezření, že je to způsobeno omezeným kontextovým oknem systému Sora.Zatímco každé video pracuje s rychlostí 30 snímků za sekundu, domnívám se, že kontextové okno potřebné pro výstup každého snímku je podstatně větší. Proto jednoduché výzvy vytvářejí kvalitnější videa… Prozatím je Sora cenným nástrojem pro úkoly, které se spoléhají na přímočarou kreativitu a strukturované provedení. Pro složitější úkoly bude nutné zdokonalení a vyladění, aby se rozšířily její schopnosti.“
Souhlasíme. Kreativnější zadání mimo těch výše představených nám vyšla lépe. V sekci Featured v rámci Sory je navíc nespočet ukázek, které výlety do fantaskních světů a scén velmi pěkně zprostředkovávají. Pro komerční použití, kdy chcete, aby konkrétní charakter dělal konkrétní věc, je ale práce se Sorou lehce frustrující.