Googlebot je obecný název pro dva typy webových crawlerů společnosti Google:
- Googlebot Desktop: desktopový crawler, který simuluje uživatele na počítači.
- Googlebot Smartphone: mobilní crawler, který simuluje uživatele na mobilním zařízení.
Podtyp Googlebot lze určit podle řetězce user agent v požadavku. Oba typy crawlerů se však řídí stejným tokenem produktu (tokenem uživatelského agenta) v souboru robots.txt, a proto nelze pomocí souboru robots.txt selektivně cílit ani na Googlebot Smartphone, ani na Googlebot Desktop.
U většiny webů indexuje Google především mobilní verzi obsahu. Většina požadavků na prohledávání robotem Googlebot bude proto provedena pomocí mobilního crawlera a menšina pak pomocí desktopového crawlera.
Jak Googlebot přistupuje k vašemu webu
U většiny webů by Googlebot neměl přistupovat na váš web v průměru častěji než jednou za několik sekund. Vzhledem ke zpoždění je však možné, že se tato frekvence bude krátkodobě jevit o něco vyšší.
Googlebot byl navržen tak, aby jej mohly současně spouštět tisíce strojů, což má zlepšit výkon a škálování s růstem webu. Aby Google snížil spotřebu šířky pásma, spouští mnoho crawlerů na strojích umístěných v blízkosti webů, které mohou procházet. Proto mohou protokoly zobrazovat návštěvy z několika IP adres, všechny s uživatelským agentem Googlebot. Cílem je při každé návštěvě procházet co nejvíce stránek z vašeho webu, aniž by Google zahltil váš server. Pokud má váš web potíže udržet krok s požadavky na procházení stránek Google, můžete snížit rychlost procházení.
Googlebot prochází stránky především z IP adres ve Spojených státech. V případě, že Googlebot zjistí, že web blokuje požadavky ze Spojených států, může se pokusit o procházení z IP adres umístěných v jiných zemích. Seznam aktuálně používaných blokování IP adres používaných robotem Googlebot je k dispozici ve formátu JSON.
Googlebot prochází přes protokol HTTP/1.1, a pokud to web podporuje, tak také přes protokol HTTP/2. Na základě toho, jaká verze protokolu je použita k procházení webu, není možné získat žádné výhody pro hodnocení; procházení přes HTTP/2 však může ušetřit výpočetní zdroje (například CPU, RAM) pro váš web a Googlebot.
Chcete-li se odhlásit od procházení přes HTTP/2, dejte pokyn serveru, který hostuje váš web, aby při pokusu o procházení vašeho webu přes HTTP/2 odpověděl stavovým kódem HTTP 421. Pokud to není možné, můžete poslat zprávu týmu Googlebot (toto řešení je však dočasné).
Googlebot může procházet prvních 15 MB souboru HTML nebo podporovaného textového souboru. Každý zdroj odkazovaný v HTML, například CSS a JavaScript, je načítán samostatně a každé načtení je omezeno stejným limitem velikosti souboru. Po prvních 15 MB souboru přestane Googlebot procházení zastavovat a pro indexaci bere v úvahu pouze prvních 15 MB souboru. Omezení velikosti souboru se vztahuje na nekomprimovaná data. Jiné prohlížeče Google, například Googlebot Video a Googlebot Image, mohou mít jiné limity.
Blokování návštěvy vašeho webu robotem Google
Je téměř nemožné udržet webový server v tajnosti tím, že na něj nebudete zveřejňovat odkazy. Jakmile například někdo následuje odkaz z vašeho „tajného“ serveru na jiný webový server, může se vaše „tajná“ adresa URL objevit v tagu odkazu a může být uložena a zveřejněna druhým webovým serverem v jeho protokolu odkazů. Stejně tak je na webu mnoho zastaralých a nefunkčních odkazů. Kdykoli někdo zveřejní nesprávný odkaz na váš web nebo neaktualizuje odkazy tak, aby odrážely změny na vašem serveru, pokusí se robot Google procházet nesprávný odkaz z vašeho webu.
Pokud chcete zabránit tomu, aby Googlebot procházel obsah vašeho webu, máte několik možností. Uvědomte si rozdíl mezi zabráněním procházení stránky robotem Googlebot, zabráněním indexování stránky robotem Googlebot a zabráněním tomu, aby stránka byla vůbec přístupná jak robotům Googlebot, tak uživatelům.
Ověření Googlebot
Než se rozhodnete zablokovat Googlebot, uvědomte si, že řetězec user agent používaný Googlebotem je často podvržen jinými crawlery. Je důležité ověřit, zda problematický požadavek skutečně pochází od společnosti Google. Nejlepším způsobem, jak ověřit, že požadavek skutečně pochází od Googlebot, je použít reverzní vyhledávání DNS na zdrojové IP adrese požadavku nebo porovnat zdrojovou IP adresu s rozsahy IP adres Googlebot.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- What Is Googlebot | Google Search Central | Documentation | Google for Developers. Google for Developers – from AI and Cloud, to Mobile and Web [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/googlebot
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Požádejte Google, aby znovu prohledal vaše adresy URL
- Snížení rychlosti procházení Googlebotem
- Ověřování Googlebot a dalších crawlerů Google
- Průvodce majitele velkého webu pro správu rozpočtu na procházení (crawling)
- Jak stavové kódy HTTP a chyby sítě a DNS ovlivňují vyhledávání Google
- Google crawlers
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky