Google nedávno zveřejni nový algoritmus SMITH, který má chápat obsah webů lépe než BERT
Nový algoritmus s názvem SMITH má překonávat BERTa v porozumění long-tail výrazů a dlouhých dokumentů. Zejména tento nový model vylepšuje BERTovo porozumění slovům a větám.
Používá Google algoritmus SMITH?
Google obecně neříká, jaké konkrétní algoritmy používá. Ačkoli tvrdí, že tento algoritmus překonává BERT, dokud Google formálně neřekne, že je algoritmus SMITH spuštěn, je čistě spekulativní říci, zda se používá či nikoli.
Co je to algoritmus SMITH?
SMITH je nový model, který se snaží porozumět celým dokumentům. BERT byl vytvořen proto, aby porozuměl slovům v kontextu vět. Ve velmi zjednodušeném popisu je model SMITH naprogramován tak, aby porozuměl pasážím v kontextu celého dokumentu. Zatímco BERT funguje na datových sadách k předpovídání náhodně skrytých slov z kontextu ve větách, algoritmus SMITH předpovídá, jaký je další blok vět.
Podle Googlu tento druh učení pomáhá algoritmu lépe porozumět větším dokumentům než algoritmus BERT.
Algoritmus BERT má omezení
Nedostatky BERTa:
Verze algoritmu BERT jsou však stále omezeny na krátký text, jako je několik vět nebo jeden odstavec. Sémantická shoda mezi dlouhými texty je náročnější úkol z několika důvodů:
1) Pokud jsou texty dlouhé, jejich shoda vyžaduje důkladnější pochopení sémantických vztahů (včetně shody vzorů mezi fragmenty textu).
2) Dlouhé dokumenty obsahují vnitřní strukturu, jako jsou oddíly, pasáže a věty. Pro uživatele hraje struktura dokumentu obvykle klíčovou roli pro porozumění obsahu.
Větší vstupní text
BERT je omezen na délku dokumentů. SMITH je výkonnější, když je text delší. Experimentální výsledky na několika srovnávacích datech pro shodu textu v dlouhé formě ukazují, že navrhovaný model SMITH překonává předchozí nejmodernější modely a zvyšuje maximální délku vstupního textu z 512 na 2048 znaků při srovnání s výchozími hodnotami založenými na BERT. Toto je největší výhoda nového algoritmu SMITH. Aktualizace SMITH nenahrazuje BERTa, ale doplňuje ho při úkonech, které BERT není schopen provést.
Je SMITH online?
Jak již bylo řečeno, dokud Google výslovně neuvede, že je SMITH spuštěn, neexistuje způsob, jak přesně říci, že se model SMITH v Googlu používá. Nezbývá než čekat, až zaregistrujeme případné změny v SERPu.
Zdroj: https://www.searchenginejournal.com/google-smith-algorithm/391929/