AI video a zvuk: Pika přidává lip sync. ElevenLabs zvládne dodat zvuk do videa na základě promptu

28. 2. 2024 | Petr Michl

Videotvorba ještě nebyla jednodušší. ElevenLabs odstraňuje jednu z největších bolestí videotvůrců a Pika dokáže nově napasovat AI vytvořeným postávám ze svých videí slova do úst.

Je to pár týdnů, co společnost Open AI uvedla svůj AI video nástroj Sora, a přidala tak videoprodukcím a videografům několik dalších vrásek na čele. Ale ani zavedenější nástroje rozhodně nezahálí. Na showcase videu od Sory ukázaly záhy své zvukové čáry ElevenLabs a nyní tu je AI video nástroj Pika, který přichází s lip syncem.

Videa generovaná s pomocí nástroje Pika vykazovala přes své nesporné kvality dosud v pohybu rtů a výrazech tváře postav nedostatky. Tato funkce by měla dodanou řeč postavám ve videu tzv. napasovat do pusy. Podívejte se na ukázku níže.

Postavy vytvořené s pomocí Pika jsou pořád mnohem víc „digital art“ než fotorealistické. Lip Sync na velmi dobré úrovně zvládá již dlouhé měsíce nástroj HeyGen, který nabízí možnou tvorbu AI avatarů skutečných osob. Nicméně jeho schopnosti i pro lip sync při lokalizaci svých videí pro další trhy využívá například internetová televize Fameplay.

Zároveň je potřeba zdůraznit, že pro uvěřitelnost je potřeba nejen napasovaná řeč do úst, ale také odpovídající výrazy tváře a pohyby těla. A s tím mohou mít AI videa, včetně těch od Pika, problémy. Nemůžeme tak v případě vylepšení u Pika mluvit o revoluci nebo nahrazování televizních moderátorů.

Další ukázková videa nicméně naznačují, že pro online reklamy nebo tvorbu memů může lip sync skvěle posloužit.

pic.twitter.com/Rc6TDxrrc6
— Pika (@pika_labs) February 27, 2024

Here's one I just did pic.twitter.com/4tqKny6T24
— David M. Comfort (@DavidmComfort) February 28, 2024

Enjoy! pic.twitter.com/PS0kdyUERw
— Pika (@pika_labs) February 27, 2024

Jedna z největších bolestí videotvůrců odstraněna

Můžete mít ty nejkrásnější záběry, bez dobrého zvuku bude ale celkový dojem poloviční. Když mluvíme o videích, myslíme povětšinou audiovizuální díla. Přitom zvolit správnou hudbu, pracovat s ruchy a celkovým sound designem je velmi složitá disciplína.

AI audio nástroj ElevenLabs přišel 18. února s funkcí, která by ji mohla zásadně zjednodušit. Stačí mu napsat, jak by zvukový podklad k videu měl znít, a on ho vytvoří.

Následující ukázka je videem od výše zmíněného nástroje Sora společnosti OpenAI. Ta dokázala „povolit čelisti“ většině svých diváků jen kvalitou obrazu, se zvukem je to ale ještě lepší.

S pomocí ElevenLabs vznikl mimochodem i zvuk řeči jako podklad pro lip sync do videí od Pika.

Lidé seznámení se složitostí tvorby videa dokážou AI inovace v této oblasti ocenit a zároveň jistě u řady z nich vyvolává otázky existenciálního charakteru. Je nesporné, že právě tato oblast v sobě díky boření poměrně vysokých bariér skrývá tu největší demokratizaci. Vlastní videotvorba nebyla ještě nikdy tak dostupná.

LipSync od Pika je již k dispozici pro prémiové uživatele nástroje, pro přístup k tomu od ElevenLabs můžete požádat zde.

David Spáčil: Funkce AI nástrojů řešící zvuk mají potenciál zbavit videotvůrce nudné a rutinní činnosti, která byla dosud pro dobrý výstup nezbytná

Pomáhají AI nástroje videotvůrcům? Komu můžou vytrhnout trn z paty a komu mohou způsobit existenční potíže? Na to pro Marketing Journal odpovídá David (Havran) Spáčil, videotvůrce, ilustrátor, zakladatel několika video startupů a nyní také majitel a tvůrce ve společnosti 60seconds zaměřené na explainer videa.

Hudba, sound design a srozumitelný voiceover mají zásadní význam pro kvalitu videí, což je fakt, který je často opomíjen. A neplatí to jen u AI videí, překvapivě to vždycky byl jeden z hlavních problémů i u těch natáčených „klasicky“. Já u některých videí spolupracuji se zvukařem, ale často si SFX (sound FX) dělám sám a je to náročné. V praxi to vypadá tak, že máte v databázi tisíce zvuků a podle toho, co se děje ve videu, mezi nimi hledáte. Kroky, výbuch, zvuk markeru na papíru, light saber… co nemáte, lovíte na internetu, nebo si to musíte natočit.

Vytvoření zvukové stopy pro minutové video může zabrat celý den. Nástroj ElevenLabs Sound Effects, jenž umožňuje generování zvuků na základě textových promptů, má nyní potenciál videotvůrce části této nudné a poměrně rutinní práce zbavit.

Ve skutečnosti mě trochu překvapilo, že neudělali rovnou „video to sound“. Stačilo by jen nahrát video. AI nástroj by pak sám analyzoval scény a podle toho, co se v nich odehrává, by vygeneroval textový prompt a na základě toho zvuk udělal — všechny ty kroky už jsou dnes možné, akorát by to bylo potřeba seskládat dohromady. V současnosti jsou k dispozici první pokusy, jako je projekt SonicVisionLM, který představuje možný směr vývoje v této oblasti.

Videa z Runway, Piky a dalších AI nástrojů byla zatím trochu unylá, jimi vytvořené postavy měly konstantní pomalé pohyby, postupně se rozplizávají a samozřejmě nemají mimiku a lip sync… tedy do teď.

Novinka od Pika Labs tvůrcům zásadně rozšíří možnosti. Jak? Chcete například udělat s pomocí AI reklamu, kde postava jde po pláži a propaguje cestovní kancelář – něco vykládá a směje se. Nebo trailer na fiktivní film. Ne že by to doteď nešlo, ale tvůrce musel nakombinovat a v postprodukci sesadit výsledek z víc zdrojů, takže vlastně moc času neušetřil. Pokud se tedy nepustil do parodie na filmy Wese Andersona, jako jsem to udělal já.

Podobných videí vznikla celá řada. Je to dané specifickým výtvarným stylem Wese Andersona, který je mimo jiné typický statickými záběry. A ty jde lehce rozmluvit přes AI nástroj D-iD. S jeho pomocí ovšem rozmlouváte obrázek, ne video. Právě proto je Lip Sync od Piky zdánlivě malý krůček, ale odemyká tvůrcům celý obzor rozmluvení a rozpohybování video scén místo statických záběrů.

To, co se teď v AI videu děje, povede podle mě v dohledné době k následujícímu vývoji. Pro kreativce s hlavou plnou nápadů, takové ty one man show, co si to od konceptu až po postprodukci lepí všechno sami, to bude skvělé. Strašnou spoustu dílčích řemesel si udělají za zlomek času a ceny. Hlavní bude dobrý nápad a intuice. Pro některá jednotlivá řemesla to bude náročné. Jejich workflow se přinejmenším výrazně změní a počet zakázek se zredukuje. Mezi to počítám překladatele, tvůrce filmové (video) hudby, voiceover, SFX, videobanky, částečně moodboardy, koncept arty a storyboardy.

Kam dál?

Lukáš Záhoř na AI Connect.

Za 3 měsíce používání AI nástrojů zvládli ve Fameplay TV:

- 33x navýšit své publikum (díky lokalizaci obsahu pro zahraniční trhy)
- O 30 % se snížila cena samotné lokalizace
- 3x se pak snížila cena produkce za minutu videa.

Šéfproducent Fameplay TV Lukáš Záhoř ukázal na setkání AI Connect, jak konkrétně jim AI pomáhá, a předal tipy, jak překonat odpor a zavést používání AI do workflow firmy.

Jeho rady mají platnost i pro společnosti, co netvoří video obsah. Nejvíce dechberoucí nám ale přijdou právě ukázky toho, co vše AI při videoprodukci umí.

Podívejte se na ně v reportáží z AI Connect ZDE.

Štítky dokumentu: AI

Adresáti:*
Váš e-mail:*		Váše jméno:
Připojit zprávu: