ChatGPT vidí, slyší a mluví

26. 9. 2023 | Petr Michl
ChatGPT bude mít nové hlasové a obrazové funkce. Umožní přirozenou mluvenou konverzaci s chatbotem i asistenci při různých životních situacích, když ukážete skrze fotografii ChatGPT, co vidíte. Třeba s ní opravíte kolo.


Zdroj: OpenAI

OpenAI doplňuje do ChatGPT to, co si přálo velké množství uživatelů. Představuje nové hlasové a obrazové funkce, které umožní uživatelům vést hlasovou konverzaci a ukazovat obrázky, o nichž chtějí diskutovat.

Hlas poskytne plynulejší konverzace i vypravěče příběhů

Chat je v českém překladu „pokec“. A ten se nejpřirozeněji rozvíjí v mluvené podobě. Právě to by nyní hlasová funkce měla co nejvíce přiblížit. Využívá model převodu textu na řeč, který byl vyvinut ve spolupráci s hlasovými herci. Pro jeho ilustraci si přitom Open AI zvolila příběh o ježkovi Larrym, který už rozehrála v obrazech při představení DALL-E 3 minulý týden. Pohádku na dobrou noc tvořenou v rámci konverzace s chatbotem si můžete poslechnout níže.

Sám přitom využívám někdy ChatGPT právě pro brainstorming možných situací u příběhů na dobrou noc, které si žádá můj malý syn. Upřímně nyní ani ChatGPT Plus na tvorbu celých příběhů v dostatečné kvalitě „pro domácí potřebu“ nestačí a rozvíjet ho s prompty průběžně je nepohodlné. S možností hlasového zadání a čtení odpovědí ChatGPT se to ovšem může změnit.

Velké AI jazykové modely tu ovšem nejsou zdaleka jen pro pohádky. Hlasová funkce nabídne možnost přelívání konverzace mezi chatbotem a člověkem v přirozenější formě, a to i v situacích, kdy je využití klávesnice nebo dotykové obrazovky nekomfortní či nemožné. Nabízí se využití „on the go“, a tomu odpovídá i to, že prvně budete moci s chatbotem konverzovat hlasem jen v aplikacích pro iOS a Android. Nejen z hlediska přístupnosti lidem s handicapem by do budoucna bylo jistě vhodná i dostupnost na desktopu.

Dle Open AI bude ChatGPT dobrý v převodu „text to voice“ v angličtině, ale může mít problémy u jiných jazyků, zejména u těch nepoužívajících latinku.

ChatGPT vidí

Na desktopu i v aplikacích by měla být dostupná další funkce, která umožní ChatGPT 3.5 a 4 vidět. Využití obrázků / fotografií pro start konverzace již nabízí Bard od Googlu. Nyní bude k dispozici i u AI chatbota od Open AI.

Překážky v implementaci byly zejména bezpečnostního charakteru, stejně jako snahy o korektnost. Open AI si nechce vzít například na svědomí to, že bude ChatGPT jakkoliv normativně hodnotit vzhled lidí. „Přijali jsme technická opatření, která výrazně omezují schopnost ChatGPT analyzovat a přímo se vyjadřovat o lidech, protože ChatGPT není vždy přesný a tyto systémy by měly respektovat soukromí osob,“ přibližuje Open AI. U mnoha fotografií vám tak pravděpodobně řekne, že si o zobrazeném nic nemyslí nebo mu to nepřísluší.  

Korektnost Open AI je čím dál patrnější. Při zkoušení funkčnosti DALL-E 3 skrze bing.com/create jsem narazil například na to, že mi tento nástroj nechtěl vytvořit obrázek s promptem, ve kterém bylo „young girl“. Povolil až v okamžiku, kdy dívka nebyla mladá. Zároveň odmítá prompty, v kterých by byly známé osobnosti. Velkou část hyperkorektnosti s DALL-E 3 tak čekám i u obrazové funkce ChatGPT. 

Nová obrazová funkce má být především asistenční. „Tento přístup byl přímo ovlivněn naší prací s Be My Eyes, bezplatnou mobilní aplikací pro nevidomé a slabozraké, abychom pochopili její využití a omezení. Uživatelé nám řekli, že je pro ně cenné vést obecné rozhovory o fotografiích, které náhodou obsahují lidi v pozadí, například když se někdo objeví v televizi, zatímco se snažíte přijít na nastavení dálkového ovladače,“ vysvětluje Open AI, co ještě při jejím opatrném přístupu projde. Zároveň tím naznačuje, že bude skvělým pomocníkem pro zrakově postižené. 

Jako ukázku využití nabízí asistenci při opravě kola, kdy například poradí použití imbusového klíče konkrétní velikosti k uvolnění sedlové tyče, a dokonce ho pak i dokáže najít v kufříku plném nářadí.

Bezpečnost

Open AI přiznává, že s těmito funkcemi přicházejí další rizika. „Nová hlasová technologie, která dokáže vytvořit realistický syntetický hlas z pouhých několika sekund skutečné řeči, otevírá dveře mnoha kreativním a na přístupnost zaměřeným aplikacím. Tyto možnosti však přinášejí i nová rizika, například možnost, že se záškodníci budou vydávat za veřejné osoby nebo páchat podvody,“ říká.

Hlasy proto budou ve voice chatu vycházet z těch, které namluvili profesionální hlasoví herci a herečky.

Dostupnost

OpenAI plánuje postupně rozšiřovat tyto funkce mezi uživatele ChatGPT Plus a Enterprise a následně mezi další skupiny uživatelů.

Zdroj: OpenAI


Kam dál?

Čeká nás již v říjnu „nejlepší text to image generátor obrázků“? Třetí generace nástroje DALL-E si na tento titul brousí zuby. Jeho výraznou přidanou hodnotou má být vytváření obrázků přímo v ChatGPT a Enterprise bez složitého promptingu.


To nejlepší z moderního marketingu každý pátek do vašeho inboxu.

Ochrana proti spamovacím robotům. Odpovězte prosím na následující otázku: Jaký je letos rok?
Podobné články: