Google uvádí genAI video nástroj Veo 2. S rozlišením 4K překonává Soru od OpenAI
AI laboratoře společnosti Alphabet, Google DeepMind, přicházejí s verzí 2 svého genAI video nástroj Veo. Mezi jeho hlavní výhody má patřit rozlišení a potenciální délka jednotlivých generovaných videí.
S rozlišením 4K a až dvouminutovou stopáží videí překonává čtyřnásobně, respektive šestinásobně genAI video nástroj Sora od OpenAI, který byl zveřejněn minulý týden. Sora má svá maxima na 1080p a klipech s délkou 20 vteřin.
V čem je Veo 2 lepší? Google DeepMind shrnuje hlavní výhody takto:
„Přináší lepší porozumění reálné fyzice a nuancím lidského pohybu a výrazu, což pomáhá zlepšit jeho detailnost a celkovou realističnost.
Veo 2 rozumí jedinečnému jazyku kinematografie: požádejte jej o žánr, určete objektiv, navrhněte filmové efekty a Veo 2 vám je dodá — v rozlišení až 4K a v délce prodloužené na minuty.
Požádejte o sledovací záběr z nízkého úhlu, který proplouvá středem scény, nebo o detailní záběr na tvář vědkyně, která se dívá do mikroskopu, a Veo 2 ho vytvoří. Navrhněte v zadání '18mm objektiv' a Veo 2 umí vytvořit širokoúhlý záběr, kterým je tento objektiv známý, nebo rozostřete pozadí a zaměřte se na objekt zadáním 'malá hloubka ostrosti'.“
Prompt videa: „Cinematic shot of a female doctor in a dark yellow hazmat suit, illuminated by the harsh fluorescent light of a laboratory. The camera slowly zooms in on her face, panning gently to emphasize the worry and anxiety etched across her brow. She is hunched over a lab table, peering intently into a microscope, her gloved hands carefully adjusting the focus. The muted color palette of the scene, dominated by the sickly yellow of the suit and the sterile steel of the lab, underscores the gravity of the situation and the weight of the unknown she is facing. The shallow depth of field focuses on the fear in her eyes, reflecting the immense pressure and responsibility she bears.“
Veo 2 je lepší také v modelování vlastností světla (mimo jiné stíny a odrazy) a dynamiky tekutin — například nalévání kávy do hrnku nebo lití medu na palačinky.
Prompt videa: „The sun rises slowly behind a perfectly plated breakfast scene. Thick, golden maple syrup pours in slow motion over a stack of fluffy pancakes, each one releasing a soft, warm steam cloud. A close-up of crispy bacon sizzles, sending tiny embers of golden grease into the air. Coffee pours in smooth, swirling motion into a crystal-clear cup, filling it with deep brown layers of crema. Scene ends with a camera swoop into a fresh-cut orange, revealing its bright, juicy segments in stunning macro detail.“
Veo 2 vám také dává pokročilejší možnosti toho chovat se jako režisér, který umísťuje pomyslnou kameru v rámci scény do jiných míst tak, aby snímala obraz z různých úhlů. Instrukce pro kameru můžete vyčíst i z promptu následujícího videa.
Prompt videa: „A cinematic, high-action tracking shot follows an incredibly cute dachshund wearing swimming goggles as it leaps into a crystal-clear pool. The camera plunges underwater with the dog, capturing the joyful moment of submersion and the ensuing flurry of paddling with adorable little paws. Sunlight filters through the water, illuminating the dachshund's sleek, wet fur and highlighting the determined expression on its face. The shot is filled with the vibrant blues and greens of the pool water, creating a dynamic and visually stunning sequence that captures the pure joy and energy of the swimming dachshund.
Realističnost je skutečně vysoká. K jejím dokonalému ztvárnění ovšem něco chybí. Na následujících videích je vozovka u honičky aut nepřirozená leskem i texturou. A u videa pod ním se včelařem můžete (pravděpodobně až ve fullscreen módu na monitoru počítače) vidět, že se v jeden okamžik „slévají“ prsty do sebe.
Prompt videa: „The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.“
Prompt videa: „Low-angle tracking shot, 18mm lens. The car drifts, leaving trails of light and tire smoke, creating a visually striking and abstract composition. The camera tracks low, capturing the sleek, olive green muscle car as it approaches a corner. As the car executes a dramatic drift, the shot becomes more stylized. The spinning wheels and billowing tire smoke, illuminated by the surrounding city lights and lens flare, create streaks of light and color against the dark asphalt. The cityscape – yellow cabs, neon signs, and pedestrians – becomes a blurred, abstract backdrop. Volumetric lighting adds depth and atmosphere, transforming the scene into a visually striking composition of motion, light, and urban energy.“
Veo 2 ale samozřejmě zvládne i animaci či „digital art“ — tedy žánry, s kterými mají genAI video nástroje menší potíže než s realističností.
Prompt videa: „This medium shot, with a shallow depth of field, portrays a cute cartoon girl with wavy brown hair, sitting upright in a 1980s kitchen. Her hair is medium length and wavy. She has a small, slightly upturned nose, and small, rounded ears. She is very animated and excited as she talks to the camera.“
Prompt videa: „The camera spirals down through an infinite network of glowing threads, pulsating with multicolored light. The setting feels alive, each thread thrumming with faint whispers and bursts of imagery—fractals, mythological beasts, and celestial maps. The courier darts through the maze, their silhouette painted with the kaleidoscopic glow of the fibers. As they weave between strands, their every touch triggers animations—one a glowing phoenix, another a blooming lotus—until they stumble upon a massive, golden thread. It flares, and a holographic figure emerges: a younger version of themselves, surrounded by fiery glyphs. The scene shifts between soft, glowing pastels and brilliant, fiery tones, blending hand-drawn 2D animation with dynamic light effects, captured in fluid, sweeping motion..“
Google DeepMind neprozradil, na jakých datech byl trénován. Nikoho by ale nepřekvapilo, kdyby to bylo na videích z YouTube. Dle Google Mind a jeho mateřské společnosti je nicméně využívaní veřejně dostupných dat jejich férovým užitím.
Proti neférovému užití výstupů Veo 2 v podobě deepfakes má pomoci technologie vodoznaku SynthID.
Ukázky videí Veo 2 jsou v něčem ohromující. Zároveň ale dodejme, že použití nástroje je pro běžné uživatele dále než Sora, která je sice na území EU a v několika dalších zemí Evropy zatím nedostupná, ale evropští uživateléuž hlásí úspěchy s využitím VPN. Přitom k vyzkoušení video nástroje OpenAI stačí placený účet ChatGPT.
Pro vyzkoušení Veo 2 se musíte přihlásit na čekací listinu. I již vyvoleným je nástroj dostupný skrze rozhraní VideoFX, kde má zatím omezení videí na rozlišení na 720p a osmivteřinovou délku. Je zřejmé, že Google přichází s odtajněním toho, co má, nyní v reakci na uvedení Sory nebo pár dnů staré představení verze 2.0 dalšího genAI video nástroje Pika. Skutečně v plném rozsahu si ho budou moci uživatelé užít pravděpodobně až příští rok.
Zdroj: Google blog, YouTube / GoogleDeepMind
