Ukázka: Co všechno umí Advanced Voice Mode v ChatGPT

30. 9. 2024 | Petr Michl
Zajíkat se smíchem, mluvit česky s libovolným přízvukem, působit smutně, vesele či opile. To vše na vyzvání zvládá v plynulé konverzaci pokročilý hlasový mód, který má k dispozici čím dál více uživatelů prémiových verzí ChatGPT. Poslechněte si to sami.


Zdroj: OpenAI

Tzv. Advanced Voice Mode (pokročilý hlasový mód) pro ChatGPT byl představený již v květnu. Až nyní se ovšem objevuje u čím dál většího počtu uživatelů. Ačkoliv v Česku se k němu můžete dostat jen s využitím VPN a předstíráním, že jste v USA, umí i česky. V tomto článku vám představíme řadu videí, které dosvědčují jeho schopnosti v češtině a dalších jazycích.

V čem je Advanced Voice Mode (dále AVM) tak pokročilý? Dokáže hlas vnímat jako plnohodnotnou formu komunikace, stejně jako text. Dosavadní hlasový mód, který byl již v ChatGPT-4 také umožňoval hlasovou konverzaci. Co jste ovšem řekli, si jazykový model přepsal a orientoval se v transkriptu. Podobně i dodal svou odpověď textem a tu případně přečetl. „Tento proces znamená, že hlavní zdroj inteligence, GPT-4, ztrácí mnoho informací — nemůže přímo pozorovat tón, více mluvčích nebo zvuky v pozadí a nemůže vyprodukovat smích, zpěv nebo vyjádřit emoce.

S GPT-4o jsme vycvičili jeden nový model end-to-end pro text, obraz a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí. Protože je GPT-4o naším prvním modelem kombinujícím všechny tyto modality, stále jsme jen na začátku toho zkoumání, co model dokáže a kde jsou jeho limity,“
uvedla OpenAI při představení ChatGPT-4o.

A právě vykrytí hluchých míst GPT-4 ilustrují ukázky lidí, kteří si s AVS nyní hrají. Například video AI video profesionála Ondřeje Svobody ukazuje, že se s AVS můžete pěkně pobavit. Donutíte chatbota, aby mluvil česky s francouzským či italským přízvukem, zajíkal se smíchem nebo mluvil vysokým či hlubokým hlasem. Zní to jak šikana zkoušejícího někde u konkurzu na dabingového univerzála. Akorát „dabingový adept“ se v tomto případě rozhodně neurazí, nechává se přerušovat po pár větách a postupuje na další úkoly bez mrknutí oka.


Influencer a tvůrce dosti bizarních hudebních počinů, Frank Wild, nutil chatbotku, šeptat, mluvit s nadšením, opilecky nebo extrémně rychle, ale také plakat při přednesu. Mimochodem dramatický hudební podkres v některých částech videa je dodán dodatečně, nevychází od ChatGPT.


AVS vládne také slovenštinou, dokonce umí i tzv. „po východňársku“.


Nejde ovšem zdaleka všechno. Další video ukazuje, že AVS má zákaz zpívat.



Jordan Wilson z YouTube kanálu EveryDay AI si vyzkoušel ChatGPT jako lektorku španělštiny schopnou hodnotit jeho mluvu, ale také narazil na jisté (celkem logické) limity. ChatGPT nedodá žádný hudební či zvukový podklad, ani beatbox nepřidá. Umí čarovat čistě se svým hlasem.

Wilson ale také vyzve jazykový model, aby griloval jeho jako CEO společnosti Everyday AI jako zkušený konzultant z poradenské společnosti typu McKinsey. Nikterak překvapivě to jde, výhoda oproti psané verzi lze snadno najít třeba jako formu nácviku debaty s potenciálním investorem.  

V testu od kanálu AI search si pak můžete poslechnout i nácvik pracovního pohovoru pro roli digitálního marketéra. 

 

AVM tedy nemusíte využívat zdaleka jen na ždímání možných emocí v hlase ve všech možných polohách.  

Další video ukazuje, že je AVM ve srovnání s dosavadním hlasovým módem mnohem lepší pro konverzaci za účelem urovnání myšlenek. Když mu řeknete, nebude vás přerušovat a nechá vás vyjádřit. V úvodu videa nicméně budete svědky toho, že je AVM skvělý i pro překlady.

 

O tom, že mu dokážou hlasové funkce ChatGPT pomoci zlepšovat angličtinu, mluvil minulý týden v rozhovoru v DVTV i její v Česku asi nejznámější online učitel, Bronislav Sobotka A.K.A. „nadšený učitel angličtiny Broňa“. Když má co dát jemu, tak si už každému. A jasně ukazuje, že průměrní učitelé angličtiny nebudou mít brzy racionální důvod existovat.

Čím neříkáme, že zmizí přes noc. Svět brázdí zástupy učitelů z anglosaských zemí, kteří se živí výukou mateřského jazyka a zejména pak hodinami konverzace. Čistě technicky může AI jejich přidanou hodnotu jednoduše vymazat.  Prakticky ale mnoho lidí bude vidět hodnotu v setkávání se tváří v tvář s člověkem z jiné kultury nadále.

S dabingem jako řemeslem vyžadujícím živé lidi to může být přece jen složitější. Posun od robotického AI přeříkávání bez emocí a výrazu k tomu, co nabízí AVS dnes, je ohromující. Tento obor navíc zažívá tlak na cenu dlouhodobě a diváci přitom neprojevují výraznou nostalgií po dabingu, na který bylo násobně více času.

Co AVS nabízí jiným uživatelům? Pochopitelně je extrémně užitečným pomocníkem pro ty, co mají fyzické problémy se čtením či psaním. Ve videu kanálu Everyday AI připomíná Jordan Wilson: „Můžete mluvit třikrát rychleji, než dokážete psát. A můžete poslouchat až téměř dvakrát rychleji, než dokážete číst.“ Je tu tedy rychlostní progres ve vstřebávání informací, a to v režimu „za pochodu“. Co je ale patrné na první poslech, je potenciální posun vnímání AI. S emocí v hlase je najednou schopnost přijetí umělé inteligence jako živého partnera výrazně vyšší.    

Připomínáme, že AVS je dostupný pouze v aplikaci v rámci placeného ChatGPT Plus a týmových účtů. V tuto chvíli navíc jen s využitím VPN a ideálně virtuálním připojením z USA. 

Štítky dokumentu: AI

To nejlepší z moderního marketingu každý pátek do vašeho inboxu.

Ochrana proti spamovacím robotům. Odpovězte prosím na následující otázku: Jaký je letos rok?
Podobné články: