Tato příručka popisuje, jak optimalizovat procházení velmi rozsáhlých webů, které jsou často aktualizované.
Pokud váš web nemá velký počet stránek, které se rychle mění, nebo pokud se zdá, že vaše stránky jsou procházeny ještě v dne zveřejnění, nemusíte tuto příručku číst; postačí, když budete aktualizovat mapu stránek a pravidelně kontrolovat pokrytí indexu.
Pokud máte obsah, který je k dispozici již delší dobu, ale nikdy nebyl indexován, jedná se o jiný problém; místo toho použijte nástroj Kontrola URL a zjistěte, proč vaše stránka není indexována.
Pro koho je tato příručka určena
Tato příručka je určena pro pokročilé:
- velké weby (1 milion a více unikátních stránek) s obsahem, který se mění středně často (jednou týdně),
- střední a větší weby (10 000+ unikátních stránek) s velmi rychle se měnícím obsahem (denně),
- stránky, jejichž velká část celkových adres URL je službou Search Console klasifikována jako Discovered – v současné době nejsou indexovány.
★ Zde uvedená čísla jsou hrubým odhadem, který vám pomůže klasifikovat váš web. Nejedná se o přesné prahové hodnoty.
Obecná teorie procházení (crawlingu)
Web je téměř nekonečný prostor, který přesahuje možnosti společnosti Google prozkoumat a indexovat všechny dostupné adresy URL. V důsledku toho existují limity, kolik času může robot Google strávit procházením jednotlivých stránek. Množství času a zdrojů, které Google věnuje procházení webu, se běžně nazývá crawl budget. Všimněte si, že ne vše, co Google na webu prohledá, také zaindexuje; každá stránka musí být vyhodnocena, konsolidována a posouzena, aby bylo možné určit, zda bude po prohledání indexována.
Rozpočet na procházení je určen dvěma hlavními prvky: limitem kapacity procházení a poptávkou po procházení.
Omezení kapacity procházení
Googlebot chce procházet vaše stránky, aniž by zahltil vaše servery. Aby k tomu nedošlo, Googlebot vypočítává limit kapacity procházení, což je maximální počet souběžných paralelních připojení, které může Googlebot použít k procházení webu, a také časovou prodlevu mezi načteními. Tato hodnota je vypočítána tak, aby byl Googlebot prozkoumal důležitý obsah, aniž by došlo k přetížení serverů.
Limit kapacity procházení se může zvyšovat a snižovat na základě několika faktorů:
- Stav procházení: Pokud web po určitou dobu reaguje rychle, limit se zvýší, což znamená, že k procházení lze použít více připojení. Pokud se web zpomalí nebo reaguje s chybami serveru, limit se sníží a robot Google prochází méně.
- Limit nastavený vlastníkem webu v konzole pro vyhledávání: Majitelé webu mohou volitelně omezit procházení svého webu robotem Googlebot. Všimněte si, že nastavení vyšších limitů automaticky nezvýší procházení webu.
- Limity procházení stanovené společností Google: Google má mnoho strojů, ale ne nekonečně mnoho. Stále se proto musí rozhodovat s ohledem na prostředky, které má k dispozici.
Poptávka po procházení
Google obvykle stráví procházením webu tolik času, kolik je potřeba vzhledem k jeho velikosti, frekvenci aktualizací, kvalitě a relevanci ve srovnání s ostatními weby.
Faktory, které hrají významnou roli při určování náročnosti procházení, jsou:
- Vnímaný inventář: Bez vašich pokynů se robot Googlebot pokusí procházet všechny nebo většinu adres URL, o kterých na vašem webu ví. Pokud je mnoho z těchto adres URL duplicitních nebo je nechcete procházet z nějakého jiného důvodu (odstraněné, nedůležité apod.), ztrácí Google na vašem webu mnoho času procházením. To je faktor, který můžete pozitivně ovlivnit nejvíce.
- Oblíbenost: Adresy URL, které jsou na internetu populárnější, bývají procházeny častěji, aby byly v indexu Google čerstvější.
- Stálost: Systémy Google chtějí dokumenty znovu procházet dostatečně často, aby zachytily všechny změny.
Kromě toho mohou události na celém webu, jako je přesun webu, vyvolat zvýšený požadavek na prohledávání, aby bylo možné znovu zaindexovat obsah pod novými adresami URL.
Shrnutí
Pokud vezmeme v úvahu kapacitu procházení a poptávku po procházení dohromady, definuje společnost Google crawl budget jako soubor adres URL, které může a chce robot Google procházet. I když není dosaženo limitu kapacity procházení, pokud je poptávka po procházení nízká, bude Googlebot procházet váš web méně.
Jak získat větší rozpočet na procházení?
Společnost Google určuje množství prostředků na procházení, které přidělí každému webu, na základě popularity, uživatelské hodnoty, jedinečnosti a kapacity. Jedinými způsoby, jak zvýšit rozpočet na procházení, je zvýšit kapacitu pro procházení a (což je důležitější) zvýšit hodnotu obsahu na webu pro vyhledávače.
Osvědčené postupy
Dodržujte tyto osvědčené postupy, abyste maximalizovali efektivitu procházení:
Spravujte seznam adres URL: Pomocí vhodných nástrojů určete společnosti Google, které stránky má procházet a které ne. Pokud Google stráví příliš mnoho času procházením adres URL, které nejsou vhodné pro index, může se Googlebot rozhodnout, že mu nestojí za to, aby se podíval na zbytek vašeho webu (nebo na to navýšil rozpočet).
- Konsolidujte duplicitní obsah. Eliminujte duplicitní obsah, abyste se při procházení zaměřili spíše na jedinečný obsah než na jedinečné adresy URL.
- Zablokujte procházení adres URL pomocí souboru robots.txt. Některé stránky mohou být pro uživatele důležité, ale nemusíte nutně chtít, aby se zobrazovaly ve výsledcích vyhledávání. Například nekonečné rolování stránek, které duplikují informace na odkazovaných stránkách, nebo různě řazené verze téže stránky. Pokud je nemůžete konsolidovat způsobem popsaným v první odrážce, zablokujte tyto nedůležité (pro vyhledávání) stránky pomocí souboru robots.txt. Blokování adres URL pomocí robots.txt výrazně snižuje šanci, že budou tyto adresy URL indexovány.
- ! Nepoužívejte noindex, protože Google si stránku vyžádá, ale pak ji zahodí, když v odpovědi HTTP uvidí meta tag noindex nebo hlavičku, čímž ztratí čas při procházení. Nepoužívejte soubor robots.txt k dočasnému přerozdělení rozpočtu na procházení pro jiné stránky; soubor robots.txt používejte k blokování stránek nebo zdrojů, které nechcete, aby Google vůbec procházel. Google tento nově dostupný rozpočet na procházení nepřesune na jiné stránky, pokud již Google nenarazí na limit obsluhy vašeho webu.
- Vraťte stavový kód 404 nebo 410 pro trvale odstraněné stránky. Google nezapomene na adresu URL, o které ví, ale stavový kód 404 je jasným signálem, že danou adresu URL již nebude procházet. Zablokované adresy URL však zůstanou součástí fronty procházení mnohem déle a po odstranění blokování budou znovu procházeny.
- Eliminujte chyby soft 404. Stránky se soft 404 budou nadále procházeny a budou plýtvat vaším rozpočtem. Zkontrolujte, zda se v hlášení Index Coverage nevyskytují chyby soft 404.
- Udržujte své mapy stránek aktuální. Google pravidelně čte vaši mapu stránek, proto nezapomeňte zahrnout veškerý obsah, který chcete, aby Google procházel. Pokud váš web obsahuje aktualizovaný obsah, doporučujeme zahrnout značku <lastmod>.
- Vyhněte se dlouhým řetězcům přesměrování, které mají negativní vliv na procházení.
Zajistěte, aby se stránky načítaly efektivně: Pokud Google dokáže načíst a vykreslit vaše stránky rychleji, můžeme si z vašeho webu přečíst více obsahu.
Sledujte procházení webu: Sledujte, zda váš web neměl při procházení problémy s dostupností, a hledejte způsoby, jak procházení zefektivnit.
Sledování procházení a indexování webu
Zde jsou klíčové kroky pro sledování procházení vašeho webu:
- zjistěte, zda se robot Google na vašem webu setkává s problémy s dostupností,
- zjistěte, zda máte stránky, které nejsou procházeny, ale měly by být,
- zjistěte, zda některé části vašeho webu nepotřebují procházet rychleji než dosud,
- zlepšete efektivitu procházení webu,
- vypořádejte se s nadměrným procházením vašeho webu.
Zjistěte, zda se robot Googlebot setkává s problémy s dostupností vašeho webu
Zlepšení dostupnosti webu nemusí nutně zvýšit rozpočet na procházení; Google určuje nejlepší míru procházení na základě požadavků na procházení, jak bylo popsáno výše. Problémy s dostupností však brání Googlu procházet váš web tak často, jak by si možná přál.
Diagnostika:
Pomocí sestavy Crawl Stats si můžete prohlédnout historii procházení vašeho webu robotem Google. Zpráva ukazuje, kdy Google narazil na problémy s dostupností vašeho webu. Pokud jsou pro váš web hlášeny chyby dostupnosti nebo varování, vyhledejte v grafech dostupnosti hostitele případy, kdy požadavky Googlebotu překročily červenou mezní čáru, klikněte do grafu a zjistěte, které adresy URL selhaly, a pokuste se je spojit s problémy na vašem webu.
Ošetření:
- Přečtěte si dokumentaci k sestavě Crawl Stats a zjistěte, jak najít a řešit některé problémy s dostupností.
- Zablokujte stránky z procházení, pokud nechcete, aby byly procházeny (viz část Spravujte seznam adres URL).
- Zvýšení rychlosti načítání a vykreslování stránek (viz Zlepšení efektivity procházení webu).
- Zvyšte kapacitu svého serveru. Pokud se zdá, že Google trvale prochází váš web na hranici své obslužné kapacity, ale přesto máte důležité adresy URL, které nejsou procházeny nebo aktualizovány tak často, jak je třeba, může mít více obslužných zdrojů, které Googlu umožní vyžádat si více stránek na vašem webu. Zkontrolujte historii dostupnosti hostitelského serveru v sestavě Crawl Stats a zjistěte, zda se nezdá, že rychlost procházení serveru Google často překračuje hranici limitu. Pokud ano, zvyšte na měsíc zdroje a zjistěte, zda se během stejného období zvýšil počet požadavků na procházení.
Zjistěte, zda některé části vašeho webu nejsou procházeny, ale měly by být
Google věnuje vašemu webu tolik času, kolik je potřeba, aby zaindexoval veškerý kvalitní a uživatelsky hodnotný obsah, který najde. Pokud se vám zdá, že robot Google opomíjí důležitý obsah, buď o něm neví, obsah je pro Google blokován, nebo dostupnost vašeho webu omezuje přístup Googlu (nebo se Google snaží váš web nepřetěžovat).
- Nezapomeňte na rozdíl mezi procházením a indexováním. Tato stránka má pomoci Googlu efektivně procházet váš web, nikoliv to, zda se nalezené stránky dostanou do indexu.
Diagnostika:
V konzoli Search Console není k dispozici historie procházení webu, kterou by bylo možné filtrovat podle URL nebo cesty, ale můžete si prohlédnout protokoly webu a zjistit, zda Googlebot procházel konkrétní URL. Zda byly tyto procházené adresy URL indexovány, je jiná věc.
Nezapomeňte, že u většiny webů trvá minimálně několik dní, než si nových stránek všimne; většina webů by neměla očekávat procházení adres URL ve stejný den, s výjimkou časově citlivých webů, jako jsou zpravodajské weby.
Ošetření:
Pokud na web přidáváte stránky a nejsou v rozumné době procházeny, buď o nich Google neví, obsah je blokován, váš web dosáhl maximální kapacity obsluhy, nebo vám došel rozpočet na procházení.
- Informujte Google o nových stránkách: aktualizujte mapy stránek tak, aby odrážely nové adresy URL.
- Prozkoumejte pravidla souboru robots.txt a ověřte si, zda stránky náhodou neblokujete.
- Zkontrolujte priority procházení (neboli rozumně využívejte rozpočet na procházení). Spravujte svůj inventář a zlepšete efektivitu procházení webu.
- Zkontrolujte, zda vám nedochází obslužná kapacita. Googlebot omezí procházení, pokud zjistí, že vaše servery mají problém reagovat na požadavky na procházení.
Upozorňujeme, že stránky se nemusí zobrazit ve výsledcích vyhledávání, i když jsou procházeny, pokud nemají dostatečnou hodnotu nebo pokud uživatelé o jejich obsah nemají zájem.
Zjistěte, zda jsou aktualizace procházeny dostatečně rychle
Pokud na vašem webu postrádáme nové nebo aktualizované stránky, je to možná proto, že jsme je neviděli nebo jsme si nevšimli, že jsou aktualizovány. Zde je návod, jak nám můžete pomoci, abychom se o aktualizacích stránek dozvěděli.
Všimněte si, že Google se snaží kontrolovat a indexovat stránky v přiměřeném čase. U většiny stránek to jsou tři dny nebo více. Neočekávejte, že Google zaindexuje stránky ve stejný den, kdy je zveřejníte, pokud nejste zpravodajský web nebo nemáte jiný vysoce hodnotný, časově extrémně citlivý obsah.
Diagnostika:
Prozkoumejte protokoly webu a zjistěte, kdy byly konkrétní adresy URL procházeny robotem Google.
Chcete-li zjistit datum indexace, použijte nástroj pro kontrolu URL nebo vyhledejte ve vyhledávači Google adresy URL, které jste aktualizovali.
Ošetření:
Proveďte:
- Pokud váš web obsahuje zpravodajský obsah, použijte zpravodajskou mapu webu. Po zveřejnění nebo změně mapy stránek pošlete společnosti Google zprávu Ping.
- K označení aktualizace indexované adresy URL použijte v mapách stránek značku <lastmod>.
- Používejte jednoduchou strukturu adres URL, abyste pomohli vyhledávači Google najít vaše stránky.
- Poskytněte standardní, procházené odkazy <a>, které pomohou Googlu najít vaše stránky.
Vyhněte se:
- Odesílání stejné, nezměněné mapy webu několikrát denně.
- Očekávání, že robot Google projde vše, co je v mapě stránek, nebo že je projde okamžitě. Mapy stránek jsou užitečné návrhy pro Googlebot, nikoli absolutní požadavky.
- Zahrnutí adres URL do map stránek, které nechcete, aby se zobrazovaly ve vyhledávání. Můžete tak plýtvat rozpočtem na procházení stránek, které nechcete indexovat.
Zlepšení efektivity procházení webu
Zvyšte rychlost načítání stránek
Procházení stránek Googlem je omezeno šířkou pásma, časem a dostupností instancí Googlebot. Pokud váš server reaguje na požadavky rychleji, může být Googlebot schopen procházet více stránek na vašem webu. Přesto chce Google procházet pouze kvalitní obsah, takže pouhé zrychlení načítání stránek s nízkou kvalitou nepodpoří Googlebot v tom, aby procházel více vašich stránek. Naopak, pokud si Google myslí, že na vašich stránkách chybí kvalitní obsah, pravděpodobně zvýší váš rozpočet na procházení tohoto obsahu.
Zde se dozvíte, jak můžete své stránky a zdroje optimalizovat pro procházení:
- Zabraňte načítání velkých, ale nedůležitých zdrojů robotem Google pomocí souboru robots.txt. Ujistěte se, že blokujete pouze nekritické zdroje – tedy zdroje, které nejsou důležité pro pochopení významu stránky (například dekorativní obrázky).
- Dbejte na rychlé načítání stránek.
- Dejte si pozor na dlouhé řetězce přesměrování, které mají negativní vliv na procházení.
- Záleží jak na době odpovědi na požadavky serveru, tak na době potřebné k vykreslení stránek, včetně doby načítání a spouštění vložených zdrojů, jako jsou obrázky a skripty. Dávejte pozor na velké nebo pomalé zdroje potřebné pro indexování.
Zadávání změn obsahu pomocí stavových kódů HTTP
Google obecně podporuje hlavičky požadavků HTTP If-Modified-Since a If-None-Match pro procházení. Prohlížeče Google neposílají tyto hlavičky při všech pokusech o prohledávání; záleží na případu použití požadavku (například AdsBot spíše nastavuje hlavičky požadavků HTTP If-Modified-Since a If-None-Match). Pokud crawlery Google odesílají hlavičku If-Modified-Since, je její hodnotou datum a čas posledního procházení obsahu. Na základě této hodnoty se server může rozhodnout vrátit stavový kód HTTP 304 (Not Modified) bez těla odpovědi, v takovém případě společnost Google znovu použije verzi obsahu, kterou procházel naposledy. Pokud je obsah novější než datum uvedené prohledávačem v hlavičce If-Modified-Since, může server vrátit stavový kód 200 (OK) HTTP s tělem odpovědi.
Nezávisle na hlavičkách požadavku lze odeslat stavový kód 304 (Not Modified) HTTP a žádné tělo odpovědi pro jakýkoli požadavek Googlebot, pokud se obsah nezměnil od doby, kdy Googlebot naposledy navštívil adresu URL. Tím ušetříte čas a prostředky na zpracování serveru, což může nepřímo zvýšit efektivitu procházení.
Skrytí adres URL, které nechcete zobrazovat ve výsledcích vyhledávání
Plýtvání prostředky serveru na nepotřebné stránky může snížit aktivitu procházení stránek, které jsou pro vás důležité, což může způsobit značné zpoždění při objevování nového nebo aktualizovaného obsahu webu.
- Zablokování nebo skrytí již procházených stránek před opětovným procházením nepřesune rozpočet na procházení do jiné části webu, pokud Google již nenarazí na limity obsluhy vašeho webu.
Vystavení mnoha adres URL na webu, které nechcete, aby vyhledávač procházel, může negativně ovlivnit procházení a indexování webu. Obvykle tyto adresy URL spadají do následujících kategorií:
- Fazetová navigace a identifikátory relací: Identifikátory relace a další parametry URL, které jednoduše třídí nebo filtrují stránku, neposkytují nový obsah. Pomocí souboru robots.txt zablokujte stránky s fasetovou navigací.
- Duplicitní obsah: Pomozte Googlu identifikovat duplicitní obsah, aby nedocházelo ke zbytečnému procházení.
- Stránky soft 404: Vracejte kód 404, pokud stránka již neexistuje.
- Nabourané stránky: Nezapomeňte zkontrolovat hlášení o bezpečnostních problémech a opravit nebo odstranit všechny nalezené hacknuté stránky.
- Nekonečné mezery a proxy servery: Zablokujte je před procházením pomocí souboru robots.txt.
- Nekvalitní a nevyžádaný obsah: Je dobré se mu vyhnout.
- Stránky s nákupním košíkem, stránky s nekonečným rolováním a stránky, které provádějí nějakou akci (například stránky „zaregistrovat se“ nebo „koupit nyní“).
Proveďte:
- Pokud nechcete, aby Google vůbec procházel zdroj nebo stránku, použijte soubor robots.txt.
- Pokud je společný prostředek opakovaně používán na více stránkách (například sdílený obrázek nebo soubor JavaScriptu), odkazujte na něj na každé stránce ze stejné adresy URL, aby Google mohl stejný prostředek uložit do mezipaměti a opakovaně jej použít, aniž by musel stejný prostředek vyžádat vícekrát.
Vyhněte se:
- Nepřidávejte nebo neodstraňujte stránky nebo adresáře z robots.txt pravidelně, abyste přerozdělili rozpočet na procházení webu. Soubor robots.txt používejte pouze pro stránky nebo zdroje, které nechcete, aby se na Googlu dlouhodobě zobrazovaly.
- Neotáčejte mapy stránek ani nepoužívejte jiné dočasné mechanismy skrývání k přerozdělení rozpočtu.
Řešení procházení vašeho webu (mimořádné události)
Googlebot má algoritmy, které zabraňují zahlcení vašeho webu požadavky na procházení. Pokud však zjistíte, že Googlebot zahlcuje váš web, můžete udělat několik věcí.
Diagnostika:
Sledujte svůj server, zda Googlebot nepřehlcuje váš web nadměrným množstvím požadavků.
Ošetření:
V naléhavém případě doporučujeme následující kroky ke zpomalení zahlcujícího procházení stránek robotem Googlebot:
- Pokud je váš server přetížen, vraťte dočasně stavové kódy odpovědi 503 nebo 429 HTTP pro požadavky Googlebot. Googlebot bude tyto adresy URL zkoušet znovu přibližně 2 dny. Upozorňujeme, že vracení kódů „není k dispozici“ po dobu delší než několik dní způsobí, že Google trvale zpomalí nebo zastaví procházení adres URL na vašem webu, proto postupujte podle dalších následujících kroků.
- Snižte rychlost procházení webu robotem Google. Toto může trvat až 2 dny, než se projeví, a vyžaduje oprávnění vlastníka v Search Console. Udělejte to pouze v případě, že v přehledu Crawl Stats v grafu Dostupnost hostitele > Využití hostitele vidíte dlouhodobé a opakované přejíždění stránek Google.
- Když se míra procházení sníží, přestaňte vracet stavové kódy 503 nebo 429 HTTP pro požadavky na procházení; vracení kódů 503 nebo 429 po dobu delší než 2 dny způsobí, že Google tyto adresy URL z indexu vyřadí.
- Postupně sledujte procházení a kapacitu hostitele a případně opět zvyšte rychlost procházení nebo povolte výchozí rychlost procházení.
- Pokud je problematickým crawlerem jeden z crawlerů AdsBot, problém je pravděpodobně v tom, že jste pro své stránky vytvořili cíle dynamického vyhledávání reklam, které se Google snaží procházet. Toto procházení se bude opakovat každé 2 týdny. Pokud nemáte dostatečnou kapacitu serveru pro zvládnutí těchto procházení, buď omezte cíle reklam, nebo si pořiďte zvýšenou obslužnou kapacitu.
Více pro Crawl Budget, jak ho zlepšit, ale i na co si dát pozor, se dočtete v článku Crawl Budget.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Crawl Budget Management For Large Sites | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Požádejte Google, aby znovu prohledal vaše adresy URL
- Snížení rychlosti procházení Googlebotem
- Ověřování Googlebot a dalších crawlerů Google
- Průvodce majitele velkého webu pro správu rozpočtu na procházení (crawling)
- Jak stavové kódy HTTP a chyby sítě a DNS ovlivňují vyhledávání Google
- Google crawlers
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky