Umělá inteligence Mety zlepšuje kvalitu rozpoznávání řeči odezíráním ze rtů
Moderní systémy rozpoznávání řeči s umělou inteligencí nefungují vždy tak, jak by měly. Jde především o situace, kdy je v okolí hodně hluku nebo když mluví více lidí současně. Obvykle se jako řešení používají techniky potlačení šumu, které se ho snaží odfiltrovat. Ty se ale často nevyrovnají lidské schopnosti kombinovat sluch a zrak.
Řešení tohoto problému našla společnost Meta (dříve Facebook, pozn. red.)). Vytvořila nový rámec konverzační umělé inteligence nazvaný Audio-Visual Hidden Unit BERT, jehož cílem je trénovat modely umělé inteligence prostřednictvím kombinace zvuku a signálů pohybů rtů.
Dnešní modely rozpoznávání řeči používají jako vstup pouze zvuk, takže musí odhadnout, zda mluví jedna osoba či více osob najednou, nebo zda je zvuk pouze šumem v pozadí. AV-HuBERT se však učí podobně, jako si lidé osvojují nové dovednosti — tedy multisenzoricky.