Meta uvádí AI nástroj, který tvoří hudbu z textových promptů
Sféra generativního AI nejdříve zaskočila tvůrce vizuálního obsahu, poté toho textového, a nakonec dojde i na hudebníky. Společnost Meta přichází s AI nástrojem AudioCraft, který je schopen tvořit hudbu a audio obecně na základě textových promptů.
Prakticky to znamená, že nemusíte pro zhmotnění svých hudebních vizí umět hrát na jakýkoliv nástroj a poslouchatelnou hudbu s nádechem world music vám dodá i prompt typu: „zemité tóny, šetrné k životnímu prostředí, plné ukulele, harmonické, svěží, pohodové, organické instrumentace, jemné groovy“. Nyní přitom v překladu citujeme konkrétní prompt z blogu Meta, kde si můžete výsledek přehrát.
Tento model staví na třech modelech MusicGen, AudioGen a EnCodec. První z nich je pro tvorbu hudby. AudioGen přináší zvukové efekty a EnCodec je dekodér, který umožňuje generovat „hudbu ve vyšší kvalitě s menším množstvím artefaktů“. Právě na prolincích v názvech modelů výše si můžete jednotlivé nástroje vyzkoušet.
Meta uvádí v tiskové zprávě:
„Zatímco u obrázků, videa a textu jsme byli svědky velkého nadšení z generativní umělé inteligence, u zvuku se zdá, že zůstává trochu pozadu. Některé nástroje jsou již venku, ale jsou velmi komplikované a nepříliš otevřené, takže si s nimi lidé nemohou snadno hrát. Generování vysoce věrného zvuku jakéhokoli druhu vyžaduje modelování složitých signálů a vzorců v různých měřítkách. Hudba je pravděpodobně nejnáročnějším typem zvuku pro generování, protože se skládá z lokálních a dálkových vzorců, od sady not až po globální hudební strukturu s více nástroji.
Rodina modelů AudioCraft je schopna vytvářet vysoce kvalitní zvuk s dlouhodobou konzistencí a snadno se používá. S AudioCraftem zjednodušujeme celkový návrh generativních modelů pro zvuk ve srovnání s předchozími pracemi v této oblasti — dáváme lidem plný recept na hraní si s existujícími modely, které Meta vyvíjela v posledních několika letech, a zároveň jim umožňujeme posouvat hranice a vyvíjet vlastní modely.“
Tím naráží zejména na fakt, že se jedná o open-source, dovoluje tedy úpravy a zlepšení od komunity, která je schopná si s dostupným kódem Audiocraftu poradit. Zároveň si s ním zdarma mohou pohrát i lidé hudebními schopnostmi nijak nepolíbení.
Nové tvůrce jen mírně varujeme, že mezi zadáním promptu a vytvořením poslouchatelného vzorku uplyne poměrně dost času. Jednoduchý prompt níže zabral MusicGen přes 5 minut, než přišel s 15vteřinovou ukázkou. Ladění promptů k dokonalosti a postupné vylepšování je tak časově náročná disciplína. Na druhou stranu jistě kratší než roky strávené reálným hudebním vzděláním.
Meta nicméně sází na to, že AudioCoder pomůže nejvíce muzikantům a sound designerům při jejich tvůrčím procesu — dokáže jim přinést inspiraci i rychle brainstormovat a upravovat to, jak by konkrétní skladba mohla znít.
Hudební průmysl je ve srovnání například s tím vizuálním prostoupen autorskými právy, které si hudebníci nárokují často jen za využití malého úseku jejich hudebního díla či za přílišnou podobnost. I z toho důvodu údajně Meta trénovala na zvucích a hudbě, které má pod vlastní licencí. Sama přitom přiznává, že v jejím katalogu nebyla dostatečná diverzita v hudebních žánrech a využívá pouze anglická metadata.
Tip redakce
Meta se svým AI zvukovým nástrojem není zdaleka první. Google spustil svůj MusicLM už na začátku letošního roku v lednu. Poslechněte si, co dokáže vytvořit.