Můžete si ověřit, zda webový crawler přistupující k vašemu serveru je skutečně crawler společnosti Google, například Googlebot. To je užitečné, pokud se obáváte, že na váš web přistupují spammeři nebo jiní potížisté, kteří se vydávají za Googlebot.
Crawlery Google se dělí do tří kategorií:
Typ | Popis | Reverzní maska DNS | Rozsah IP adresy |
Googlebot | Hlavní vyhledávač pro vyhledávací produkty společnosti Google. Vždy respektuje pravidla robots.txt. |
crawl-***-***-***-***. googlebot.com or geo-crawl-***- ***-***-***.geo.googlebot.com |
googlebot.json |
Crawlery pro speciální případy | Crawlery, které provádějí specifické funkce (například AdsBot), které mohou, ale nemusí respektovat pravidla robots.txt. |
rate-limited-proxy-***-***- ***-***.google.com |
special-crawlers.json |
Uživatelem spouštěné aportéry | Nástroje a funkce produktu, u kterých koncový uživatel spustí načítání. Například funkce Google Site Verifier funguje na základě požadavku uživatele. Protože o načtení požádal uživatel, tyto nástroje ignorují pravidla robots.txt. |
***-***-***-***.gae.googleusercontent.com |
user-triggered-fetchers.json |
Existují dvě metody ověřování procházení stránek Google:
- Ručně: Pro jednorázové vyhledávání použijte nástroje příkazového řádku. Tato metoda je pro většinu případů použití dostačující.
- Automaticky: Pro rozsáhlá vyhledávání použijte automatické řešení, které porovná IP adresu crawleru se seznamem zveřejněných IP adres Googlebotů.
Použití nástrojů příkazového řádku
- Spusťte reverzní vyhledávání DNS na přístupové IP adrese z protokolů pomocí příkazu host.
- Ověřte, že název domény je googlebot.com, google.com nebo googleusercontent.com.
- Spusťte dopředné vyhledávání DNS na název domény získaný v kroku 1 pomocí příkazu host na získaný název domény.
- Ověřte, zda je stejná jako původní přistupující IP adresa z protokolů.
Příklad 1:
host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Příklad 2:
host 35.247.243.240 240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com host geo-crawl-35-247-243-240.geo.googlebot.com geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Příklad 3:
host 66.249.90.77 77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com host rate-limited-proxy-66-249-90-77.google.com rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Použití automatických řešení
Googlebota můžete identifikovat také podle IP adresy, a to tak, že IP adresu crawleru přiřadíte k seznamům rozsahů IP adres crawlerů a fetcherů Google:
- Googlebot,
- speciální crawlery, jako je AdsBot,
- sběrače spuštěné uživatelem.
V případě jiných IP adres Google, ze kterých může být váš web přístupný (například Apps Scripts), porovnejte IP adresu přistupujícího uživatele s obecným seznamem IP adres Google. Všimněte si, že IP adresy v souborech JSON jsou reprezentovány ve formátu CIDR.
Více pro Crawl Budget, jak ho zlepšit, ale i na co si dát pozor, se dočtete v článku Crawl Budget.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Googlebot and Other Google Crawler Verification | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Požádejte Google, aby znovu prohledal vaše adresy URL
- Snížení rychlosti procházení Googlebotem
- Ověřování Googlebot a dalších crawlerů Google
- Průvodce majitele velkého webu pro správu rozpočtu na procházení (crawling)
- Jak stavové kódy HTTP a chyby sítě a DNS ovlivňují vyhledávání Google
- Google crawlers
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky