Google stojí za nástrojem AI tvořícím hudbu dle textového zadání. Nechce ho ale zveřejnit

30. 1. 2023 | Petr Michl

Přichází „postrach“ pro tvůrce hudby MusicLM, který napíše hudbu dle textového zadání a využije přitom libovolné nástroje, náladu, žánr nebo úroveň zkušeností hudebníka. Google se ho ale zatím zdráhá vypustit zcela.

Zdroj: Stock photos on Shutterstock

Umělá inteligence (AI) způsobila loni pořádný průvan mezi zástupci kreativních profesí, když vizuální nástroje typu Midjourney nebo DALL-E2 vystrašily ilustrátory a ChatGPT pak tvůrce textů. A nyní přichází „postrach“ pro tvůrce hudby, a to z dílny skutečného technologického giganta Google.

Jeho nástroj nese název MusicLM a jeho výhodou oproti poměrně početnému zástupu předchůdců má být především to, že cvičil své schopnosti na obrovském datasetu o velikosti 280 tisíců hodin hudby. Akademický paper na toto téma říká, že MusicLM dokáže vytvářet na základě textových zadání „hudbu značné komplexity“ a jako jejich příklady uvádí třeba prompt „okouzlující jazzová píseň s nezapomenutelným saxofonovým sólem a sólovým zpěvákem" nebo "berlínské techno 90. let s hlubokou basou a silným kopákem".

Pojďme rovnou k ukázkám. „Fúze reggaetonu a elektronické taneční hudby s vesmírným, nadpozemským zvukem. Navozuje zážitek ztracení ve vesmíru" zní takto.

Yesterday, Google published a paper on a new AI model called MusicLM.

The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space." pic.twitter.com/XPv0PEQbUh
— Product Hunt (@ProductHunt) January 27, 2023

Následující minutová nahrávka je upravená na čtvrtiny s různým zamýšleným účelem.

Čas meditovat (0:00-0:15)

Čas vstávat (0:15-0:30)

Čas běhat (0:30-0:45)

Čas dát tomu 100 % (0:45-0:60)

But that's only one of its features.

Story Mode, for instance, generates music based on a sequence of text prompts.

time to meditate (0:00-0:15)
time to wake up (0:15-0:30)
time to run (0:30-0:45)
time to give 100% (0:45-0:60) pic.twitter.com/yTHgr5fIZo
— Product Hunt (@ProductHunt) January 27, 2023

Music LM ale dokáže i dodávat hudební soundtracky k vizuálním dílům, například níže k obrazu od Matisse.

Painting Caption Conditioning generates sounds based off painting descriptions.

Here's what a Matisse would "sound" like. pic.twitter.com/yS9Phi3mDF
— Product Hunt (@ProductHunt) January 27, 2023

Zvládá také vytvořit hudbu na základě libovolných nástrojů, nálad, žánrů nebo úrovně zkušeností hudebníka (začátečník na klavír, ale i šíleně rychlý profesionální hráč na klavír). Následující ukázka se snaží přiblížit, jak by to znělo v hudebním klub v 70. letech.

Other use cases include generating music based on any given instruments, moods, genres, or musician experience level (beginner piano player vs crazy fast professional piano player).

Here's what a club in the 70s would've sounded like. pic.twitter.com/8Eq2wZfjsj
— Product Hunt (@ProductHunt) January 27, 2023

Autorská práva představují velké riziko

U všech výše jmenovaných AI nástrojů se ve velkém zmiňovaly problémy s porušováním autorských práv. Nové výstupy z nich totiž vychází z již existujících děl. U vizuálních AI děl je původní inspirace někdy silně patrná, u textových zdaleka ne tolik, obzvláště kvůli tomu, že ChatGPT po většinu času nevytváří žádné velké umění, ale vytahuje si to své z článků a studií, které byly (zatím) do roku 2021 zveřejněny online. Někteří aktuální ilustrátoři si na Midjourney nebo DALL-E2 stěžují, zásoba starších uměleckých děl, na které se už copyright nevztahuje je ovšem nepřeberná.

U hudby se říká, že už všechno bylo napsáno. Zábavná série KUMŠT od Kytary.cz pak dává strukturované návody, jak vytvořit hudební hit v takřka jakékoliv žánru, a přitom ukazuje, že recyklací jde přijít k novému. Mluvíme ale o prostředí, kde fungují organizace jako český Ochranný svaz autorů (OSA) a jejich zahraniční mutace. O části showbyznysu, v níž interpret Vanilla Ice byl soudně donucen zaplatit za „krádež motivu“ ve svém hitu Ice Ice Baby jako vyrovnání 4 miliony dolarů skupině Queen (s dotčenou písní Under Pressure). Nové technologické možnosti přitom přinášejí nové žaloby. V roce 2020 podala nahrávací společnost rappera Jay-Z žalobu na ochranu autorských práv proti kanálu YouTube Vocal Synthesis za to, že pomocí AI vytvářel covery písní typu „We Didn't Start the Fire" od Billyho Joela, jako by je rappoval a produkoval právě Jay-Z.

Výzkumníci společnosti Google upozorňují na řadu etických problémů, které systém jako MusicLM představuje. Má tendence zahrnovat do generovaných skladeb materiál chráněný autorskými právy. Během experimentu zjistili, že přibližně 1 % hudby vygenerované MusicLM bylo přímo replikováno ze skladeb, na kterých byl systém vycvičen.

Ač se to zdá málo, pro Google je to v tuto chvíli dost na to, aby neposkytla MusicLM veřejnosti „na hraní", jako se to stalo v případě ChatGPT a vizuálních AI nástrojů. Mezitím mohou hudebníci přemýšlet nad tím, jak AI zatřese jejich profesí. Nepochybnou výhodu proti malířům nebo spisovatelům mají. Živé koncerty stále představují pro obrovské množství lidí příval energie, který nejde nahradit.

Tip redakce

Mnoho dalších příkladů výtvorů MusicLM si můžeme poslechnout zde.

Poslechněte si také WebTop100 podcast o AI s Janem Romportlem s podtitulem „Budou mít markeťáci co žrát?"

V rozhovoru s Janem Romportlem se mimo jiné dozvíte:

- jak AI pomáhá v jednotlivých marketingových oborech
- jak rychle se jednotlivé nástroje rozvinuly během pouhých několik měsíců
- čeká nás revoluce v rámci jednotlivých kreativních profesí?
- jaké regulace a standardy přinese vznikající AI Act
- potřebujeme vůbec vědět, jestli daný text napsal člověk, nebo stroj?
- v čem bude spočívat přidaná hodnota lidského vkladu

Přejeme příjemný poslech.

WebTop100

Rozhovor si můžete také najít na Spotify, stažení do mobilu pro poslech na cesty umožňují Google Podcasts nebo Apple Podcasts.

Adresáti:*
Váš e-mail:*		Váše jméno:
Připojit zprávu: