V lednu 2023 bylo oznámeno, že se vyhledávání na Seznamu změnilo tím, že se nasadila nová verze. Je to něco podobného, jako když Google mění algoritmus. Tuto změnu, či aktualizaci Seznam nazval „vsáknutí vektorů“. Do určité míry změní pořadí výsledků ve vyhledávání. Aktuálně to analyzuji na svých 70 projektech, které sleduji na Collabimu, protože vzorek přes 10 tisíc klíčových slov je dostatečný, abych zjistil, jak to zamíchalo pořadím.
Zatím sleduji jen zlepšení (procházel jsem asi půlku projektů) , nenašel jsem žádné projekty, kde by se mi nestandardně zhoršili pozice. Vždy došlo ke zlepšení pozic, které vidíte na obrázcích níže. Kdo se nevyzná, tak „čím zelenější, tím lepší„.
Na screenech níže uvádím 9 projektů, kde jsem zaznamenal změny pozic v lednu na Seznam.cz. Pro analýzu jsem použil nástroj od Collabimu na historii rozložení pozic. Některé projekty jsou měřeny pozice denně a někdy 14 denně, proto se i projevy změny pozic objevují někdy 19.ledna a někdy koncem ledna.
Vsuvka: Aktualizováno dne 2.2.2023, kdy i Seznam.cz se oficiálně vyjádřil v článku „Vyhledávání pomocí významových vektorů“ od Martiny Pomikálkové, Vedoucí týmů zpracování dotazu a vektorového hledání.
Vyhledávání pomocí významových vektorů
Nyní už náhled změn, které jsem zaznamenal v druhé polovině ledna 2023:
Další článek na téma „Seznam.cz nasadil novou verzi vyhledávání…“ najdete níže:
Jinak uvádím i kopii twítů od Dušan Janovský @janovsky ze dne 18. 1. 2023
Ve vyhledávání Seznamu je nasazená nová verze. Projekt, který k této verzi vedl, se interně nazývá „vsáknutí vektorů“. Nasazení může vést k velkým změnám v pořadí nalezených výsledků.
Hlavní změna proběhla na nejhlubší vrstvě výběru kandidátů v komponentách předvýběru, které ještě nevyhodnocují relevanci, ale jenom k dotazu vybírají vhodné dokumenty pro další vyhodnocování. Podstatou změny bylo vnitřní spojení (vsáknutí) různých metod výběru.
Starší metoda je vybírání podle slov obsažených ve stránce (termový výběr), novější vybírá stránky pomocí jejich vektorové reprezentace. Poslední dva roky se tyto dva způsoby výběru kandidátů řešily na různých strojích a spojovaly se až v pozdějším procesu relevance.
Teď jsou termy i vektory na stejných strojích v blízkých komponentách. Účelem je, aby si mohly termy a vektory navzájem pomáhat. Zároveň se trochu rozvolnily požadavky na úzkost shody, takže relevance dostává kandidátů víc a může je následně pomocí vektorů řadit efektivněji.
Protože změny proběhly na hlubokých vrstvách vyhledávání, které také produkují nové signály (např. ty vektorové), bylo potřeba vytunit nebo přeučit i spoustu komponent relevance na vyšších vrstvách. Všechny relevanční modely jsou nové, a tak očekávám změny ve výsledcích velké.
Jedná se o klasický infrastrukturní projekt, jehož cílem není bezprostřední zaměření na nějakou vlastnost vyhledávání pro uživatele. Spíš je to odrazový můstek pro další zásadní rozvoj. Veřejně to hlásím jenom proto, že budou poskakovat ty výsledky, jinak je to dost interní věc.
Jako vektorová interpretace se používají embedingy z prediktivních jazykových modelů Electra naučených na korpusu z robota a doučených na relevančních anotacích. Takhle naučené neuronové síti se uříznou hlavičky a předposlední vrstva se prohlásí za vektor (embeding) vstupu.
Transformerová architektura využívá předpokladu, že podobné vstupy mají semanticky podobné embedingy (měřeno např. cosinovou podobností vektorů). Když pak uživatel zadá dotaz, stačí z něj neuronkou spočítat vektor a porovnat ho se všemi vektory všech dokumentů.
To se snáze řekne než udělá, hlavně protože těch všech vektorů jsou velké miliardy. Zároveň protože se vektory musejí někam vejít do paměti, jsou menší, než by bylo optimální, a tak se do nich nepřenese veškerá sémantika. Proto musejí stále významně pomáhat i slova z dotazu.
Celý projekt vsáknutí vektorů byl přípravou na další rozvoj s chytřejšími jazykovými modely. Žádný vyhledávač nemá dnes dost grafáren, času ani paměti na to, aby prohnal celý index příšerkou typu GPT-3, ale prostor pro další použití jednodušších modelů je obrovský.
Jednu z předchozích seznamáckých verzí jazykových modelů Seznam veřejně publikoval. https://blog.seznam.cz/2021/10/diky-neuronove-siti-jsme-zlepsili-vysledky-vyhledavani-a-detekujeme-clickbaitove-titulky/ Novější interní verze se liší zatím jen v tom, že jsou trénovány déle a na větších datech.
Nasazuje se to postupně v různých lokalitách. Hodně dotazů bude ještě v keši. Zítra bys to měl vidět všude. Také je možné, že už jsi byl v B verzi AB testu. Pokud to testuješ na krátkých jednoduchých dotazech, bude efekt malý. Větší změny budou na dlouhých víceslovných dotazech.
Zdroj: https://twitter.com/janovsky/status/1615731291735093248
Článek zpracoval: Bc. Tomáš Stýskala, MBA
SEO Specialista