Algoritmus BERT mění vyhledávání na Googlu. Má jít o největší změnu za posledních 5 let
Google má být zase o něco chytřejší a vyhledávat lépe. Nový algoritmus BERT má být výrazně schopnější než v roce 2015 představená vůbec první metoda využívající umělou inteligenci, RankBrain. Ovlivnit má výsledky u 1 z 10 vyhledávacích dotazů.
Co BERT znamená? Jde o akronym slov „Bidirectional Encoder Representations from Transformers“. Nebudeme se raději pokoušet o složitý doslovný překlad, jde o technologii k uchopení přirozeného jazyka a identifikování toho, co daný člověk skutečně zamýšlel. Lapidárně: pomůže vyhledávači Googlu myslet trochu více jako člověk. Zmíněné transformers jsou modely, které zpracovávají slova ve vztahu ke všem dalším slovům u vyhledávácího dotazu. BERT tak dokáže posoudit význam slova dle kontextu před ním a za ním. To se hodí zejména pro rozpoznání záměru vyhledávání.
Kde najde BERT uplatnění?
BERT bude využívám primárně pro pochopení vyhledávacích dotazů. Zároveň bude bude nalézat i vhodnější zobrazení tzv. „featured snippets“.
Jak BERT funguje?
Google uvedl několik příkladů toho, v čem je Bert silný. Následující obrátek ukazuje odlišné dodání výsledků pro query „2019 brazil traveler to usa need a visa”.
Dosud na ni Google odpovídal primárně pro Američana cestujícího do USA. Nebral ohled na „to USA“ (v překladu „do USA), spíše upřednostňoval výskyt řetězce klíčových slov a případně autoritu webů, kde se vyskytovaly. BERT ale dokáže identifikovat, že dotaz pocházel od brazilského cestovatele, a tak je prvním výsledkem příslušná stránka ambasády USA v Brazílii.
Schopnosti BERTa poodhalí i následující příklad s dotazem na to, jestli pracovníci estetických (kosmetických) salonů při své práci hodně stojí. Query zní: „do estheticians stand a lot at work.” Dříve Google nepochopil význam slova „stand“ a našel výsledek, kde jsou všechna další klíčová slova a poté „stand-alone“. Šlo ovšem o výčet vzdělávacích možnosti s tím, že existují školy s programem zaměřeným na estetiku samostatně (stand-alone). Naopak BERT už dokáže pochopit význam „stand“ jako slovesa se správným kontextem.
Google přikládá ještě jeden příklad, kdy už není dotaz nijak precizní: „Can you get medicine for someone pharmacy.“ Klíčem je zde pochopit, že „for someone“ v tomto kontextu směřuje dotaz k tomu, zdali můžete vyzvednout léky „pro někoho“. Současný algoritmus to není s to pochopit, BERT ano.
RankBrain nekončí
Google nehodlá zahodit to, co tak dlouho budoval. Ostatně je ve vyhledávání informací na internetu i tak nejlepší na světě. RankBrain je tak nadále metoda/algoritmus, který bude využívat a rozvíjet. BERT je doplňkem a Google se bude učit, kdy mu dát větší váhu.
Kdy začne BERT fungovat?
V angličtině jeho roll out už započal v druhé půlce minulého týdne a plně v provozu bude brzy. V dalších jazycích to pochopitelně bude trvat a čeština není jednoduchý jazykem, ani ho nepoužívá v globálním kontextu skutečně velké množství lidí. Je tak zřejmé, že si počkáme.
Optimalizace přímo pro BERT(a) bude obtížná, sám Google říká, že to de facto nejde. Posláním nového algoritmu je rozumět tomu, jak lidé mluví. Logickým poučením je tak i psát takovým způsobem. Pravidlo, že nepíšete pro fulltextové roboty, ale pro lidi, bude pravděpodobně jen ještě více podtržené.
Zdroj: Google Blog