SPD vytvořila vlasteneckou volební píseň s pomocí 'cizácké' AI
Zdroj: Facebook / Tomio Okamura – SPD
SPD je jedním z hrdých pokračovatelů v tradici politické písně, která zažila své zlaté časy v době komunistické diktatury. Dříve této politické straně propůjčili svůj hlas Petr Kolář nebo Olivie Žižková. V tvorbě nové songu ovšem hrála prim umělá inteligence.
Facebooková stránka Tomio Okamura – SPD uvedla svůj počin takto:
„Nový song o silných poutech k domovu, k lidem, k naší zemi. Sentimentální? Možná. Ale láska k vlasti není klišé – je to síla, která nás drží pohromadě a motivuje do akce.
Tahle země není jen místo na mapě. Je to srdce, které bije v každém z nás.
Poslechněte si ji teď a dejte vědět, jestli ve vás vzbudila stejné emoce jako v nás!“
Píseň působí uměle, ale přiznejme si, že folková odrhovačka doprovázená primárně akustickými kytarami se sólem na harmoniku by se ztratila v proudu vysílání mnoha českých rádiových stanic. A to platí i pro text spočívající ve vyjmenovávání toho, co všechno české má (pravděpodobně syntetický) autor rád. Oproti přehrávané národovecké teatrálnosti Kolářem interpretované hymny SPD s textem Karla Maříka nebo jen primitivně stranicky adorační skladby Olivie Žižkové je vyznění nové písně pozitivní (skladby s živými interprety vkládáme pro srovnání na konec článku, pozn. red.).
Lze předpokládat, že píseň vznikla s pomocí genAI nástroje, jako je Suno.ai. SPD už v nedávné minulosti na sociálních sítích přidalo pokusy o hudbu, u kterých je označení „AI zpívánky“ více než přiléhavé. Hudební výstup je tentokrát bližší běžné produkci. Do hlubokých umělých vod ho ale potápí videoklip. V něm je folklórní úbor zpěváka jakýmsi mixem tradic napříč středoevropským prostorem, ženy pak mají halenky s výrazným dekoltem jak servírky na Oktoberfestu. Věřit tak lásce ke všemu českému je poté těžší než u reklam Kauflandu.
Ve snaze hledat pozitiva poukážeme snad na to, že v klipu AI rozhýbá i „afrického lékáře hdrlořeza“ z nechvalně známého plakátu SPD. Zde se tváří i trochu mile a ve zkrvavených rukou se mu objeví květina. Že by to byl nakonec jen nešikovný zahradník, co se pořezal při práci? Plně si uvědomujeme, že to publikum strany Tomia Okamury může interpretovat jinak.
Zdroj: Facebook / Tomio Okamura – SPD
Dalo se AI video vytvořit lépe? To zhodnotí na konci článku tvůrci a lektoři videotvorby s využitím AI nástrojů, Ondřej Svoboda a David Spáčil. Prvně se ale pojďme podívat na reakce na hudbu a klip v komentářích přímo pod videem.
Lenka Bublíková poukázala na hned několik „AI blikanců“ u videoklipu i na to, že SPD opomněla celou řadu příležitostí, jak za hudbu i video zaplatit českým lidem.
„Víte, co je to pravý ořechový český? To tradiční, čím naši předci definovali tuto zem? Jsou to hlavně hodnoty jako poctivost, fortelná práce, kvalita, chuť si pomáhat... A já nenacházím žádnou spojitost mezi těmito hodnotami a jakýmsi zpěvným videem vytvořeným pomocí AI. Což je přesně ten styl práce, jaký SPD vystihuje,“ uvedl v komentářích Vít Sosna.
„K úplné dokonalosti už chybí jen to, aby video vytvořila česká AI,“ říká (pravděpodobně s trochou ironie) Jakub Jeřábek.
„Jediné, co mě zaujalo. Proč ve videoklipu hoří chalupa, motorkáři několikrát mizí, půllitr z ruky atd.? Docela nedotažená AI slátanina. Ale jako politická agitace pro určitou skupinu lidí dostačující,“ hodnotí Dušan Běhounek video a pravdivě uznává, že své publikum si klip stejně najde.
To ostatně dokazují i následující reakce.
Videoklip SPD očima odborníků
Při sledování videoklipu SPD jsem měl dost podobné výtky, které můžete vidět v komentářích z Facebooku výše. Je ovšem daná kvalita odrazem limitů toho, co AI videotvorba dnes nabízí? Můžeme mimo sporně vlasteneckého zadavatele vinit z polovičaté práce i člověka, který videoklip s pomocí AI nástrojů stvořil? Na to jsme se zeptali profesionálů videotvorby s AI nástroji a zároveň lektorů této disciplíny, Ondřeje Svobody a Davida Havrana Spáčila. Důkazem jejich kompetence jsou nejen nadšené recenze na jejich kurzy, ale také jejich výstupy. U Ondřeje Svobody například jeho tvorba promo videí pro TV Prima, u Davida Spáčila třeba jeho pocta Karlu Zemanovi nebo videoklip skupiny Poletíme.
Ondřej Svoboda, pochopitelně na záběru vytvořeném umělou inteligencí
Je podle vás videoklip čistě AI tvorbou, nebo si myslíte, že je v nějaké části kombinovaný s živým záběrem, třeba z videobanky?
David Spáčil:
Je to zřejmě kombinované a jde docela dobře poznat, i když se to snažili barevně sjednotit (řekl bych, že v promptu bylo docela často “golden hour”). Mezi záběry z videobanky může být např. kovadlina se železem (0:23), záběr foukaného skla hned za tím, nebo český srdce (0:48), které je podle mě z videobanky na 95 %. Kvalita záběrů není prvotřídní, takže je teoreticky možné, že něco dělali v nástroji Veo 2, který už je fakt dobrý a někdy lze odlišit od reality obtížněji. U výstupů z HailuoAi, Klingu, Runway Gen3 a LumaLabs je AI původ zřejmější. Samozřejmě na to ale také mohli použít i nějakou lokálně provozovanou verzi, jakou umožňuje generování např. modelem Hunyuan Video přes Comfy ui.
Ondřej Svoboda:
Na první pohled lze rozpoznat ve videu dvojí kvalitu záběrů. Na některých jsou znatelné deformace, kdy objekty mění své tvary, objevují se a zase zanikají. Tyto jsou jednoznačně generovány pomocí AI nástrojů. Co se týče těch lépe vypadajících záběrů, tak již dnes se lze teoreticky velmi přiblížit této kvalitě především použitím text-to-video přístupu některým z nejnovějších generátorů (např. Veo-2 od Googlu). Každopádně i tyto generátory mají zatím nedostatky viditelné především při pohybu kamery a objektů. V neposlední řadě je generovaná videa také bývají o něco méně ostrá, v menším rozlišení.
Některé záběry ve videu jsou až příliš ostré, což nasvědčuje tomu, že byly použity záběry z videobanky, kde se běžně nacházejí videa v té nejvyšší kvalitě v rozlišení 4k a vyšším. Potvrzuje to i fakt, že záběry z videoklipu SPD lze jednoduše dohledat na Googlu přes vyhledávání pomocí obrázků. Například tento s dívkou na skále.
Jak to jde případně poznat? Některé close-up záběry na lidi působí už tak doopravdy, že mám potíže to poznat.
David Spáčil:
Jde to poznat, u videa většinou když si ho člověk stopne. V pohybu detaily kolikrát zaniknou. Je to patrné na lidech v pozadí a různých pravidelných strukturách. A taky na dynamice pohybu. Zpozorovat jmenované AI nedostatky je nicméně čím dál náročnější. Špatná kvalita a rychlé střihy jsou nicméně nejlepší metody, jak je zamaskovat.
Ondřej Svoboda:
Stále často funguje, když se člověk zaměří na detaily. Pomůže zaměřit se na objekty v pozadí, souměrné a pravidelné struktury. Mění se tvar objektů nebo postav? Pokud se nějaký objekt schová za jiný, objeví se pak v nezměněné podobě? Stává se, že se objekty nebo jejich části náhodně objevují a mizí? Pohybují se lidé tak trochu gumově nebo nepřirozeně? Pak je pravděpodobné, že video bylo vygenerováno pomocí AI. Pokud je naopak záběr velmi ostrý, veškerý pohyb v něm plynulý a odpovídající fyzikálním zákonitostem, pak je záběr pravděpodobně skutečný.
Je však důležité upozornit na to, že vzhledem k neskutečnému tempu vývoje bude stále těžší skutečné záběry rozeznat od těch generovaných a může se stát, že za půl roku nebo rok, již nebude platit nic z výše uvedeného.
David Havran Spáčil (s mikrofonem) s šéfredaktorem Marketing Journalu, Petrem Michlem, během panelové diskuze v rámci jím pořádané AI konferenci Pravidla se změnila.
Dokážete poznat, jaké AI video nástroje k tomu byly použity? Jestli je to čínská, nebo americká umělé inteligence?
David Spáčil:
Pokud video nemá vodoznak, tak ne. Někdy se dá odhadnout použitý AI nástroj podle specifických výsledků. Například Pika má funkce Pikaeffects, Pikascenes, Pikadditions a Pikaswaps, které jsou hodně specifické. To platí i pro funkce Kling Elements u genAI nástroje Kling.
U klipu SPD bych tipoval, že některé záběry pravděpodobně tvořili s pomocí nástroje HailuoAi a některé s obrazem na hraně rozpoznatelnosti od reálu pak s nástrojem Googlu, Veo 2.
Ondřej Svoboda:
Tohle je trochu těžké určit, zdá se totiž, že nástrojů bylo použito více. V některých záběrech se objevuje synchronizace pohybu úst se zpěvem, což umí jak americký RunwayML, tak čínský Kling. Vypadá to, že v mnoha případech byly použit princip image-to-video, kdy se nejdříve vygenerují obrázky (např. přes nástroj Midjourney) a ty se následně rozpohybují pomocí jiného nástroje. Překvapivě často se v záběrech objevují různé deformace, především rukou, což se v těch nejlepších dnešních nástrojích již neobjevuje v takové míře jako dříve. Taky je znát, že některé záběry jsou uměle zrychlené, protože obzvláště starší modely video generátorů vytvářely záběry jakoby zpomalené, čímž získávaly čas a vyhýbaly se tak výraznějším deformacím.
Těžko říct, které modely byly přesně použity, ale vím jistě, že při tvorbě videa rozhodně nebyl použit žádný vlastenecký video model. Nejen proto, že mnoho postav vypadá spíše bavorsky, ale hlavně proto, že aktuálně žádný takový neexistuje.
Dá se rozlišit dle výstupu, z jakého to je genAI hudebního nástroje? Dá se říct: „To je jasné Suno AI, protože „něco“”?
David Spáčil:
Podle mě nedá, ale ze Suno nebo Udio pochází většina současné hudební AI produkce…
Ondřej Svoboda:
Odhadoval bych v tomto případě Suno.ai, především proto, že s touto službou často pracuji a mám to naposlouchané. Jedná se o aktuálně asi nejlepší službu pro generování skladeb, která je zároveň jednoduše použitelná a je možné tam vkládat vlastní text. Nejnovější verze v4 jejich modelu už dokáže generovat hlas, který zní dosti přirozeně, ale stále je zřetelné někdy nepřirozené frázování. Pro české písně tvoří často generický hlas připomínající něco mezi Chinaski a Kabáty. Zároveň Suno standardně generuje skladby v plné délce a je možné je rovnou použít, na rozdíl od Udio.com, kde je běžnější generování po částech a český hlas nezní tak přirozeně.
Myslím si, že v případě této písně by stálo za to dát si trochu více práce s textem a promptováním, protože třeba není jasně rozpoznatelná sloka a refrén. To je jinak velmi snadno dosažitelné pomocí promptu [Verse] resp. [Chorus]. Je třeba nezapomínat na to, že autorský vklad a kreativita je nezbytná i při práci s AI nástroji.
Záběr z videoklipu SPD ukazuje výstřihy jak u servírek na Oktoberfestu. Zajímavé také je, že u stolu jsou muži i ženy jak jednovaječná dvojčata. To je pravděpodobně způsobeno využitím natrénovaných avatarů. Zdroj: Facebook / Tomio Okamura – SPD
Je podle vás video dobře udělané? Kde vidíte profesně dobré stránky a nedostatky?
David Spáčil:
Jde o slabší průměr české klipové tvorby. Jsou to vlastně za sebou bez ladu a skladu poskládaný záběry, dost často ilustrující, o čem se zrovna zpívá. Takovému stylu se je lepší vyhnout.
Ondřej Svoboda:
Koncept není špatný, záběry kombinující zpívající interprety a ilustračními záběry pro toto použití dává smysl. Oceňuji snahu napasovat pohyb úst a zpěváků do rytmu skladby. Kombinace velmi kvalitních záběrů z videobanky a ne tolik kvalitních záběrů z AI nástrojů považuji za nešťastnou volbu, protože výše kvality záběrů z video bank ještě více zvýrazní nekvalitní AI záběry.
Pro generování AI záběrů bych volil novější video modely, případně zřetelnější vstupní obrázky, aby se minimalizovaly deformace. Případně text-to-video přístup, který většinou nabízí konzistentnější video, i když je náročnější zachovat jednotný vizuální styl. Nejednotnost vizuálního stylu a použitých postupů vnímám jako hlavní nedostatek.
Dá se nějak nedostatkům jasně křičícím, že jde o AI, typu prolnutí obrazu, „kytaro-harmonik” či folklórní vestičky bez konkrétního vzoru zabránit na úrovni promptu, nebo to je spíše o tom, že videotvůrce nezkoušel to samé dost krát, dokud se AI neumoudřila?
Ondřej Svoboda:
Toto je obecně problém při použití image-to-video (tedy rozpohybování vygenerovaných obrázků). Video model totiž musí nejdříve „pochopit”, co na obrázku je a jak by se to mohlo chovat ve skutečném světě s ohledem na prompt. Udělat správně interakci postav s objekty bývá stále často dost problematické. Nicméně se tomu dá pomoci použitím přístupu text-to-video, vybráním vhodného video modelu a dostatečným množstvím generování.
Pokud bychom se bavili o vzoru na folklorní vestičce, tak pokud potřebujeme nějaký přesný, je možnost upravit vstupní obrázek třeba ve Photoshopu a rozanimovat pomocí image-to-video tentzo upravený obrázek.
Při tvorbě videa pomocí AI je obecně stále potřeba používat rozdílné přístupy pro různé typy záběrů. Člověk si musí udržovat přehled o tom, čeho lze jak dosáhnout. Sám ve videích, která vytvářím, kombinuji několik nástrojů i přístupů v závislosti na tom, co je cílem. Pokud např. potřebuji kontrolu spíše nad vizuálním stylem, použiji vstupní obrázek a image-to-video. Pokud je stěžejní kontrola nad pohybem a interakci mezi objekty, využiji text-to-video.
Zdá se vám synchronizace zvuku (např. řeči, zpěvu) s obrazem přirozená? Jaké chyby v této oblasti AI stále nejčastěji dělá?
Ondřej Svoboda:
Synchronizace vcelku odpovídá současným možnostem. Hlavní nedostatek vnímám ve vyjádření emoci v obličeji. Zde zatím nemáme dostatečnou a pohodlnou kontrolu nad tím, jak se má postava v průběhu zpěvu nebo hovoru tvářit, aby to vypadalo dostatečně přirozeně.
Pokud byste měl zkusit vytvořit něco podobného, jaký by byl váš proces? Jaké nástroje byste pravděpodobně použil a proč?
Ondřej Svoboda:
Nejdříve bych se obrátil na ChatGPT nebo Claude, aby mi dal nápady na to, jak podobné video pojmout. Některé z nápadů by ve mně pravděpodobně spustily myšlenkové asociace, které by mě nakonec dovedly k vlastnímu originálnímu pojetí.
Pokud bych měl generovat i hudbu, pomocí generátorů a svého vkladu bych dal dohromady text, zamyslel se nad žánrem a zkoušel generovat různé varianty přes Suno.
Co se videa týče, začal bych si generovat některé klíčové záběry klipu pomocí Midjourney a během toho si definoval vizuální styl. Reprezentativní vygenerované obrázky ve vybraném vizuálním stylu bych použil jako základ pro vlastní Moodboard v Midjourney, který bych následně využíval pro generování dalších záběrů pro video.
Průběžně bych vygenerované obrázky rozpohybovával pomocí video generátoru, pravděpodobně HailuoAI, případně RunwayML. Pokud bych ani po několika pokusech nedostal to, co jsem si představoval, zkusil bych KlingAI nebo další nástroje, případně změnil výchozí obrázek, aby byl pro video model rozpoznatelnější.
Záběrům zpěváků bych se spíše vyhýbal, případně se snažil udělat to přiznaně jako AI, tedy absurdně a záměrně nedokonale. Lip-sync bych dělal přes RunwayML a jejich Act-One.
Postupně bych pak v DaVinci Resolve stříhal záběry tak, aby pasovaly na hudbu. Některé specifické záběry bych možná generoval přes text-to-video, ale bylo by potřeba velmi dobře v promptu definovat vizuální styl, aby výsledek působil jednotně.
I v komentářích pod videem někteří lidé vyčítají SPD, že strana nenechala vydělat při jeho tvorbě českým lidem. Pokud to dával dohromady český videotvůrce, tak dala. Dokážete ale odhadnout, jaké můžou být náklady na tvorbu AI videa tohoto rozsahu či alespoň kolik hodin práce by takovéto dílo mohlo zabrat?
David Spáčil:
Mně trvá třeba 70% času vymyšlení konceptu, něco přece jen zabere to generování (většina záběrů se nepovede napoprvé, člověk upravuje prompt apod.), copy, generování hudby… V tomto případě žádný skutečný koncept/scénář nevidím, ale nějaký čas si i tak tvorba vzala. Tipnul bych nižší jednotky dní, třeba dva.
Ondřej Svoboda:
Ve videu jsou záběry s délkou zhruba 2 sekundy, což odpovídá asi 70 záběrům celkově. Některé jsou z video banky, tedy generovaných bude zhruba 50. Za předpokladu, že byl použit 1 z 2 generovaných záběrů a průměrná cena by byla zhruba 10 korun za vygenerovaný záběr, muselo být vygenerováno odhadem 100 záběrů, což odpovídá 1 000 Kč za samotné generování. Vzhledem k tomu, že byly použity pravděpodobně vstupní obrázky pro rozpohybování, tak jejich generování mohlo stát v rámci předplatného okolo 200 korun.
Množství hodin potřebných pro vytvoření podobného videa závisí především na schopnostech tvůrce a jeho dovednostech s AI nástroji, ale rámcově bych odhadoval 1-2 dny. Při větším důrazu na jednotný styl, kvalitnější a konzistentnější záběry by množství práce mohlo být násobně vyšší.
Dokážete dát kvalifikovaný odhad, kolik by stála podobná produkce s tolika lokacemi a lidmi pro „živém natáčení“?
David Spáčil:
Násobně víc, ale záleží na velikosti produkce a kvalitě.
Ondřej Svoboda:
Nejsem schopen kvalifikovaně odhadnout, střelil bych jako odhad vyšší stovky tisíc.
Jak vnímáte etické otázky okolo AI ve volebních videích? Vidíte tu riziko, že AI může přispět k manipulaci diváků, nebo je to jen další evoluční stupeň marketingu / videoprodukce a je to vlastně jedno?
Ondřej Svoboda:
Jestli se nepletu, tak v minulých hudebních videích tato strana záběry z videobank již hojně používala. Použití AI pro vygenerování podobných videí vnímám jako přirozený vývoj. Dlouhodobě si myslím, že je nevyhnutelné, že AI videa a obecně obsah vytvořený AI bude zabírat stále více online prostoru a bude stále obtížnější rozpoznat, že obsah byl vytvořen synteticky. Nezbývá, než se na toto připravit.
Z mého pohledu jsou, co se AI týče, mnohem větším současným rizikem algoritmy sociálních sítí.
AI generátory vnímám jako silné nástroje, které usnadňují tvorbu obsahu a umožňují nové, rychlejší a levnější možnosti, jak předat svou myšlenku širokému publiku. Každopádně je nezbytné, aby společnost byla obezřetná a dokázala kriticky vnímat obsah, který konzumuje.
Tip redakce
Podívejte se pro srovnání na dřívější politické písně SPD. Ani u nich nebyly videoklipy nikdy propracovaným veledílem, u videoklipu k hymně SPD dominují záběry z videobanky.
Kam dál?
Pozitivními příklady se nemá šetřit. Podívejte se na AI videoklip z dílny Davida Havrana Spáčila v článku: