DeepFake video start-upu Canny AI ukazuje, jak reálná může být fikce
Deep learning, machine learning nebo AI – buzzwordy, o kterých se v souvislosti s vývojem technologií stále více mluví jako o možné cestě do budoucnosti, ale i do pekla. Strojové učení, u něhož už není potřeba zdlouhavého programování, nastavování a 3D modelování, ale stačí pouze poskytnout umělé inteligenci dostatek materiálů, ze kterých může čerpat, zní jako výborný nástroj pro mnoho odvětví. Může být ale i děsivou ukázkou, jak reálné mohou výstupy být a zda vůbec budeme v budoucnu schopni odlišovat, co je realita a co je pouhá fikce.
Imagine by World Leaders
Právě na tuto oblast se rozhodl zaměřit izraelský start-up Canny AI, jehož zakladatelé Omer Ben-Ami a Jonathan Heimann si dokázali ihned zpočátku zařídit výraznou publicitu svým virálním videem s názvem „Imagine by World Leaders”. Ve videu hlavy státníků světových mocností společně zpívají legendární píseň Johna Lennona, Imagine, a pokud by před videem nebylo upozornění, že to co právě uvidíte není reálné, mnoho z diváků by se pravděpodobně zamýšlelo, jak takové video autoři dokázali zprodukovat. Díky jejich technologii VDR™(Video Dialogue Replacement) jsou totiž schopni komukoliv vložit do úst jakékoliv vyjádření a výsledek je téměř nerozeznatelný od reality.
Obamova DeepFake premiéra
Technologie dokonalé synchronizace pohybu úst a vyřčeného obsahu byla prezentována už v roce 2017 Univerzitou ve Washingtonu na konferenci o technologických inovacích SIGGRAPH. Tým vedený Supasorn Suwajanakornem tam představil velmi realisticky vypadající video bývalého prezidenta Spojených států Baracka Obamy, který mluví v Bílém domě. Vytvořeno však bylo čistě z audio nahrávky, která pocházela z televizní talk-show, kde Obama vystoupil v minulosti.
Právě osobu Baracka Obamy si tým nevybral zcela náhodně. Pro efektivní strojové učení je totiž nutné mít co nejvíce záznamů dané osoby, aby mohl být namapován jeho obličej, výrazy a mimika, kterou při běžném hovoru používá. Pro účely tohoto videa tým Univerzity ve Washingtonu použil 14 hodin materiálu mluvícího Obamy. Jejich přístup využívá neuronovou síť k převodu jednotlivých zvuků na příslušný pohyb úst a pomocí složitých následných úprav a zdokonalování umožňuje vytvořit video, které vypadá jako reálně zachycený rozhovor s danou osobou.
Kam dál?
Technologie záměny tváří má pomáhat například při synchronizaci hlasu a tváře během dabingu, ale existuje i riziko zneužití pro šíření falešných zpráv. U DeepFake videí totiž téměř nedokážete rozpoznat, že nejsou pravá. O výše zmíněnému videu s Barackem Obamou jsme psali již dříve. Podívejte se na něj.