Googlebot je obecný název pro dva typy webových crawlerů společnosti Google:

Googlebot Desktop: desktopový crawler, který simuluje uživatele na počítači.
Googlebot Smartphone: mobilní crawler, který simuluje uživatele na mobilním zařízení.

Podtyp Googlebot lze určit podle řetězce user agent v požadavku. Oba typy crawlerů se však řídí stejným tokenem produktu (tokenem uživatelského agenta) v souboru robots.txt, a proto nelze pomocí souboru robots.txt selektivně cílit ani na Googlebot Smartphone, ani na Googlebot Desktop.

U většiny webů indexuje Google především mobilní verzi obsahu. Většina požadavků na prohledávání robotem Googlebot bude proto provedena pomocí mobilního crawlera a menšina pak pomocí desktopového crawlera.

Je pro vás SEO zatím velká neznámá a chcete se dozvědět, co to obnáší? Vydali jsme knihu, která obsahuje všechny základní informace a postupy, které pro SEO budete potřebovat. V knize najdete vysvětlení základních SEO pojmů, metody pro optimalizaci nebo třeba i to, jak SEO vyhodnocovat. Chci knihu Základy SEO: Jasně a stručně >>

Jak Googlebot přistupuje k vašemu webu

U většiny webů by Googlebot neměl přistupovat na váš web v průměru častěji než jednou za několik sekund. Vzhledem ke zpoždění je však možné, že se tato frekvence bude krátkodobě jevit o něco vyšší.

Googlebot byl navržen tak, aby jej mohly současně spouštět tisíce strojů, což má zlepšit výkon a škálování s růstem webu. Aby Google snížil spotřebu šířky pásma, spouští mnoho crawlerů na strojích umístěných v blízkosti webů, které mohou procházet. Proto mohou protokoly zobrazovat návštěvy z několika IP adres, všechny s uživatelským agentem Googlebot. Cílem je při každé návštěvě procházet co nejvíce stránek z vašeho webu, aniž by Google zahltil váš server. Pokud má váš web potíže udržet krok s požadavky na procházení stránek Google, můžete snížit rychlost procházení.

Googlebot prochází stránky především z IP adres ve Spojených státech. V případě, že Googlebot zjistí, že web blokuje požadavky ze Spojených států, může se pokusit o procházení z IP adres umístěných v jiných zemích. Seznam aktuálně používaných blokování IP adres používaných robotem Googlebot je k dispozici ve formátu JSON.

Googlebot prochází přes protokol HTTP/1.1, a pokud to web podporuje, tak také přes protokol HTTP/2. Na základě toho, jaká verze protokolu je použita k procházení webu, není možné získat žádné výhody pro hodnocení; procházení přes HTTP/2 však může ušetřit výpočetní zdroje (například CPU, RAM) pro váš web a Googlebot.

Chcete-li se odhlásit od procházení přes HTTP/2, dejte pokyn serveru, který hostuje váš web, aby při pokusu o procházení vašeho webu přes HTTP/2 odpověděl stavovým kódem HTTP 421. Pokud to není možné, můžete poslat zprávu týmu Googlebot (toto řešení je však dočasné).

Googlebot může procházet prvních 15 MB souboru HTML nebo podporovaného textového souboru. Každý zdroj odkazovaný v HTML, například CSS a JavaScript, je načítán samostatně a každé načtení je omezeno stejným limitem velikosti souboru. Po prvních 15 MB souboru přestane Googlebot procházení zastavovat a pro indexaci bere v úvahu pouze prvních 15 MB souboru. Omezení velikosti souboru se vztahuje na nekomprimovaná data. Jiné prohlížeče Google, například Googlebot Video a Googlebot Image, mohou mít jiné limity.

Blokování návštěvy vašeho webu robotem Google

Je téměř nemožné udržet webový server v tajnosti tím, že na něj nebudete zveřejňovat odkazy. Jakmile například někdo následuje odkaz z vašeho „tajného“ serveru na jiný webový server, může se vaše „tajná“ adresa URL objevit v tagu odkazu a může být uložena a zveřejněna druhým webovým serverem v jeho protokolu odkazů. Stejně tak je na webu mnoho zastaralých a nefunkčních odkazů. Kdykoli někdo zveřejní nesprávný odkaz na váš web nebo neaktualizuje odkazy tak, aby odrážely změny na vašem serveru, pokusí se robot Google procházet nesprávný odkaz z vašeho webu.

Pokud chcete zabránit tomu, aby Googlebot procházel obsah vašeho webu, máte několik možností. Uvědomte si rozdíl mezi zabráněním procházení stránky robotem Googlebot, zabráněním indexování stránky robotem Googlebot a zabráněním tomu, aby stránka byla vůbec přístupná jak robotům Googlebot, tak uživatelům.

Ověření Googlebot

Než se rozhodnete zablokovat Googlebot, uvědomte si, že řetězec user agent používaný Googlebotem je často podvržen jinými crawlery. Je důležité ověřit, zda problematický požadavek skutečně pochází od společnosti Google. Nejlepším způsobem, jak ověřit, že požadavek skutečně pochází od Googlebot, je použít reverzní vyhledávání DNS na zdrojové IP adrese požadavku nebo porovnat zdrojovou IP adresu s rozsahy IP adres Googlebot.

Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ

Použité zdroje

What Is Googlebot | Google Search Central | Documentation | Google for Developers. Google for Developers – from AI and Cloud, to Mobile and Web [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/googlebot

Související články

Základy vyhledávání

Základy SEO

Procházení a indexování

Ranking a možnosti zobrazení ve výsledku vyhledávání

Monitorování a odstraňování chyb

Průvodce pro konkrétní stránky

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Googlebot

Jak Googlebot přistupuje k vašemu webu

Blokování návštěvy vašeho webu robotem Google

Ověření Googlebot

Použité zdroje

Související články

Další články

Jak sloučit více konektorů v Looker studiu?

Petr Zápotocký, ANT studio

Zdeněk Martínek, První pozice

Tomáš Stýskala, Wepromo

Zdeno Konečný, agentura Krejta

Jak se hýbe český internet? Sledujte denní statistiky!