Společnost Google používá crawlery a fetchery k provádění akcí pro své produkty, a to buď automaticky, nebo na základě požadavku uživatele.
Crawler (někdy také nazývaný „robot“ nebo „pavouk“) je obecný termín pro jakýkoli program, který se používá k automatickému vyhledávání a skenování webových stránek sledováním odkazů z jedné webové stránky na druhou. Hlavní crawler společnosti Google se nazývá Googlebot.
Fetchery jsou nástroji, které si, podobně jako prohlížeče, na výzvu uživatele vyžádají jednu adresu URL.
Následující tabulky ukazují, jaké crawlery a fetchery Google používají různé produkty a služby, jak je můžete vidět v protokolech odkazů a jak je zadat v souboru robots.txt.
- Token user agent se používá v řádku User-agent: v souboru robots.txt k přiřazení typu crawleru při psaní pravidel pro procházení webu. Některé crawlery mají více než jeden token, jak je uvedeno v tabulce; aby se pravidlo použilo, je třeba přiřadit pouze jeden token crawleru. Tento seznam není úplný, ale pokrývá většinu crawlerů, se kterými se můžete na svých webových stránkách setkat.
- Úplný řetězec user agent je úplným popisem crawleru a objevuje se v požadavku HTTP a ve vašich webových protokolech.
Upozornění: Řetězec user agent může být podvržen. Zjistěte, jak ověřit, zda je návštěvník Google crawler.
Běžné crawlery
Běžné crawlery společnosti Google se používají k vytváření indexů vyhledávání Google, k provádění dalších crawlů specifických pro daný produkt a k analýze. Vždy se řídí pravidly robots.txt a obvykle procházejí z IP adres zveřejněných v objektu googlebot.json.
Běžné crawlery | ||
Googlebot Smartphone | User agent tokeny |
Googlebot |
Celý řetězec user agent |
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) |
|
Googlebot Desktop | User agent tokeny |
Googlebot |
Celý řetězec user agent |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36 Zřídka: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Googlebot/2.1 (+http://www.google.com/bot.html) |
|
Obrázek Googlebot | Slouží k procházení bajtů obrázků pro Google Images a produktů závislých na obrázcích. | |
User agent tokeny |
Googlebot-Image Googlebot |
|
Celý řetězec user agent |
Googlebot-Image/1.0 |
|
Googlebot zprávy | Googlebot News používá pro procházení zpravodajských článků Googlebot, respektuje však svůj historický token uživatelského agenta Googlebot-News. | |
User agent tokeny |
Googlebot-News Googlebot |
|
Celý řetězec user agent |
Uživatelský agent Googlebot-News používá různé řetězce uživatelského agenta Googlebot. |
|
Googlebot video | Slouží k procházení bajtů videa pro službu Google Video a produkty závislé na videích. | |
User agent tokeny |
Googlebot-Video Googlebot |
|
Celý řetězec user agent |
Googlebot-Video/1.0 |
|
Google Favicon | Upozornění: V případě požadavků iniciovaných uživatelem ignoruje Google Favicon pravidla robots.txt a v takovém případě provede požadavek z jiného rozsahu IP adres. | |
User agent tokeny |
Googlebot-Image Googlebot |
|
Celý řetězec user agent |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
|
Google StoreBot | Google Storebot prochází určité typy stránek, mimo jiné stránky s podrobnostmi o produktu, stránky košíku a stránky pokladny. | |
User agent tokeny |
Storebot-Google |
|
Celý řetězec user agent |
Agent pro stolní počítače: Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, jako Gecko) Chrome/79.0.3945.88 Safari/537.36 Mobilní agent: Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, jako Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36 |
|
GoogleOther | Obecný crawler, který mohou používat různé produktové týmy pro získávání veřejně přístupného obsahu z webů. Může být například použit pro jednorázové prohledávání pro interní výzkum a vývoj. | |
User agent tokeny |
GoogleOther |
|
Celý řetězec user agent |
GoogleOther |
Crawlery pro speciální případy
Crawlery pro zvláštní případy jsou používány specifickými produkty, u nichž existuje dohoda mezi procházeným webem a produktem o procesu procházení. Například AdsBot se souhlasem vydavatele reklamy ignoruje globální robots.txt (*). Crawlery pro speciální případy mohou ignorovat pravidla robots.txt, a proto pracují z jiného rozsahu IP než běžné crawlery. Rozsahy IP jsou zveřejněny v objektu special-crawlers.json.
Crawlery pro speciální případy | ||
APIs-Google | Používá se rozhraním Google API k doručování oznámení push. Ignoruje globální uživatelský agent (*) v souboru robots.txt. | |
User agent tokeny |
AdsBot-Google-Mobile |
|
Celý řetězec user agent |
APIs-Google (+https://developers.google.com/ webmasters/APIs-Google.html) |
|
AdsBot Mobile Web Android | Kontroluje kvalitu reklamy na webové stránce systému Android. Ignoruje globální uživatelský agent (*) v souboru robots.txt. | |
User agent tokeny |
AdsBot-Google-Mobile |
|
Celý řetězec user agent |
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
|
AdsBot Mobile Web | Kontroluje kvalitu reklamy na webové stránce iPhone. Ignoruje globální uživatelský agent (*) v souboru robots.txt. | |
User agent tokeny |
AdsBot-Google-Mobile |
|
Celý řetězec user agent |
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
|
AdsBot | Kontroluje kvalitu reklamy na webových stránkách pro stolní počítače. Ignoruje globální uživatelský agent (*) v souboru robots.txt. | |
User agent tokeny |
AdsBot-Google |
|
Celý řetězec user agent |
AdsBot-Google (+http://www.google.com/adsbot.html) |
|
AdSense | Prohlížeč AdSense navštěvuje vaše stránky a zjišťuje jejich obsah, aby mohl poskytovat relevantní reklamy. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
|
|
User agent tokeny |
Mediapartners-Google |
|
Celý řetězec user agent |
Mediapartners-Google |
|
Mobile AdSense | Prohlížeč služby Mobile AdSense navštěvuje vaše stránky a zjišťuje jejich obsah, aby mohl poskytovat relevantní reklamy. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
|
|
User agent tokeny |
Mediapartners-Google |
|
Celý řetězec user agent |
(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html) |
Uživatelem spouštěné fetchery
Tyto fetchery jsou spouštěny uživateli, aby provedly některou specifickou funkci. Například nástroj Google Site Verifier funguje na základě požadavku uživatele. Protože o načtení požádal uživatel, tyto fetchery obvykle ignorují pravidla robots.txt. Rozsahy IP, které fetchery spouštěné uživatelem používají, jsou zveřejněny v objektu user-triggered-fetchers.json.
Uživatelem spouštěné fetchery | ||
Feedfetcher
|
Feedfetcher slouží k procházení kanálů RSS nebo Atom pro služby Google Podcasts, Google News a PubSubHubbub. | |
User agent tokeny |
FeedFetcher-Google |
|
Celý řetězec user agent |
FeedFetcher-Google; (+http://www.google.com/feedfetcher.html) |
|
Google Publisher Center | Sbírá a zpracovává kanály, které vydavatelé výslovně poskytli prostřednictvím Centra pro vydavatele Google a které mají být použity na vstupních stránkách Zpráv Google. | |
Celý řetězec user agent |
GoogleProducer; (+http://goo.gl/7y4SX) |
|
Google Read Aloud | Na žádost uživatele Google Read Aloud načte a přečte webové stránky pomocí převodu textu na řeč (TTS). | |
Celý řetězec user agent |
Současní agenti: Agent pro stolní počítače: (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, jako Gecko) Chrome/41.0.2272.118 Safari/537.36 (kompatibilní; Google-Read-Aloud; +https://developers.google.com/search/docs/ crawling-indexing/overview-google-crawlers) Mobilní agent: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, jako Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (kompatibilní; Google-Read-Aloud; +https://developers.google.com/search/docs/ crawling-indexing/overview-google-crawlers) Dřívější agent (zastaralý): Google-speakr |
|
Google Site Verifier | Nástroj Google Site Verifier načte na žádost uživatele ověřovací tokeny služby Search Console. | |
Celý řetězec user agent |
Mozilla/5.0 (compatible; Google-Site-Verification/1.0) |
Poznámka o Chrome/W.X.Y.Z v uživatelských agentech
Všude tam, kde v tabulce vidíte řetězec Chrome/W.X.Y.Z v řetězcích uživatelských agentů, je W.X.Y.Z ve skutečnosti zástupný symbol, který představuje verzi prohlížeče Chrome používanou daným uživatelským agentem: například 41.0.2272.96. Toto číslo verze se časem zvýší tak, aby odpovídalo nejnovější verzi Chromu používané Googlebotem.
Pokud prohledáváte protokoly nebo filtrujete server pro uživatelského agenta s tímto vzorem, použijte pro číslo verze raději zástupné znaky, než abyste zadávali přesné číslo verze.
Uživatelští agenti v souboru robots.txt
Pokud je v souboru robots.txt rozpoznáno několik uživatelských agentů, bude se Google řídit tím nejkonkrétnějším. Pokud chcete, aby vaše stránky mohl procházet celý Google, soubor robots.txt vůbec nepotřebujete. Pokud chcete zablokovat nebo povolit přístup k některému svému obsahu všem crawlerům Google, můžete to provést tak, že jako uživatelského agenta uvedete Googlebot. Pokud například chcete, aby se všechny vaše stránky zobrazovaly ve vyhledávači Google, a pokud chcete, aby se na vašich stránkách zobrazovaly reklamy AdSense, soubor robots.txt opět nepotřebujete. Podobně pokud chcete některé stránky zcela zablokovat pro Google, zablokováním uživatelského agenta Googlebot zablokujete i všechny ostatní uživatelské agenty Google.
Pokud však chcete mít lepší kontrolu, můžete být konkrétnější. Například můžete chtít, aby se ve vyhledávání Google zobrazovaly všechny vaše stránky, ale nechcete, aby byly procházeny obrázky v osobním adresáři. V takovém případě použijte soubor robots.txt, který zakáže uživatelskému agentu Googlebot-Image procházet soubory v osobním adresáři (a zároveň umožní Googlebotovi procházet všechny soubory), například takto:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
Jako další příklad uveďme, že chcete mít na všech svých stránkách reklamy, ale naopak nechcete, aby se tyto stránky zobrazovaly ve vyhledávání Google. V tomto případě byste zablokovali Googlebot, ale povolili uživatelského agenta Mediapartners-Google, například takto:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Řízení rychlosti procházení
Každý crawler společnosti Google přistupuje k webům za určitým účelem a různou rychlostí. Google používá algoritmy, které určují optimální rychlost procházení pro každý web. Pokud prochází váš web příliš často, můžete rychlost procházení snížit.
Vyřazené vyhledávače Google
Následující vyhledávače Google se již nepoužívají a jsou zde uvedeny pouze z historických důvodů.
Vyřazené vyhledávače Google | ||
Duplex na webu | Podpora funkce Duplex ve webové službě. | |
User agent tokeny |
DuplexWeb-Google |
|
Celý řetězec user agent |
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36 |
|
Upozornění: Duplex na webu může zástupný znak * ignorovat. | ||
Web Light | Zkontrolujte přítomnost záhlaví bez transformace, kdykoliv uživatel kliknul na vaši stránku ve vyhledávání za vhodných podmínek. Uživatelský agent Web Light byl používán pouze pro explicitní požadavky na procházení lidského návštěvníka, a proto ignoroval pravidla robots.txt, která se používají k blokování automatizovaných požadavků na procházení. | |
User agent tokeny |
googleweblight |
|
Celý řetězec user agent |
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
|
Mobilní aplikace pro Android | Kontroluje kvalitu reklamy na stránce aplikace Android. Dodržuje pravidla robotů AdsBot-Google, ale ignoruje globální uživatelský agent (*) v souboru robots.txt. | |
User agent tokeny |
AdsBot-Google-Mobile-Apps |
|
Celý řetězec user agent |
AdsBot-Google-Mobile-Apps |
Více pro Crawl Budget, jak ho zlepšit, ale i na co si dát pozor, se dočtete v článku Crawl Budget.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Google Crawler (User Agent) Overview | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Požádejte Google, aby znovu prohledal vaše adresy URL
- Snížení rychlosti procházení Googlebotem
- Ověřování Googlebot a dalších crawlerů Google
- Průvodce majitele velkého webu pro správu rozpočtu na procházení (crawling)
- Jak stavové kódy HTTP a chyby sítě a DNS ovlivňují vyhledávání Google
- Google crawlers
- Přehled crawlerů a fetcherů (uživatelských agentů) Google
- Googlebot
- Uživatelský agent Google Read Aloud
- Uživatelský agent APIs-Google
- Feedfetcher
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky