Obecné otázky k robotům
Potřebuje můj web soubor robots.txt?
Ne. Když robot Google navštíví webovou stránku, nejprve požádá o povolení k procházení tím, že se pokusí načíst soubor robots.txt. Webové stránky bez souboru robots.txt, metaznačky robots nebo hlavičky X-Robots-Tag HTTP budou obvykle normálně procházeny a indexovány.
Jakou metodu mám použít k zablokování procházení?
Záleží na tom. Stručně řečeno, existují dobré důvody pro použití každé z těchto metod:
- Robots.txt: Použijte ji, pokud procházení obsahu způsobuje na vašem serveru problémy. Například můžete chtít zakázat procházení skriptů nekonečného kalendáře. Nepoužívejte robots.txt k blokování soukromého obsahu (místo toho použijte ověřování na straně serveru) nebo k řešení kanonizace. Chcete-li zajistit, aby adresa URL nebyla indexována, použijte místo toho metaznačku robots (robots meta tag) nebo hlavičku X-Robots-Tag HTTP.
- Metaznačka robots: Použijte jej, pokud potřebujete kontrolovat, jak se jednotlivá stránka HTML zobrazuje ve výsledcích vyhledávání, nebo pokud chcete zajistit, aby se nezobrazovala.
- Hlavička X-Robots-Tag HTTP: Pokud potřebujete řídit, jak se obsah zobrazuje ve výsledcích vyhledávání, nebo pokud chcete zajistit, aby se nezobrazoval, použijte ji.
Mohu pomocí souboru robots.txt, meta tagu robots nebo hlavičky X-Robots-Tag HTTP odstranit cizí web z výsledků vyhledávání?
Ne. Tyto metody jsou použitelné pouze pro weby, u kterých můžete upravovat kód nebo přidávat soubory.
Jak mohu zpomalit procházení svých webových stránek společností Google?
Obecně můžete upravit nastavení rychlosti procházení v účtu Google Search Console.
Otázky k souboru Robots.txt
Stejný soubor robots.txt používám pro více webových stránek. Mohu místo relativní cesty (path) použít celou adresu URL?
Ne. Pravidla v souboru robots.txt (s výjimkou sitemap:) platí pouze pro relativní cesty.
Mohu soubor robots.txt umístit do podadresáře?
Ne. Soubor musí být umístěn v nejvyšším adresáři webu.
Chci zablokovat soukromou složku. Mohu zabránit ostatním lidem ve čtení souboru robots.txt?
Ne, soubor robots.txt mohou číst různí uživatelé. Pokud složky nebo názvy souborů s obsahem nejsou určeny pro veřejnost, neuvádějte je v souboru robots.txt. Nedoporučuje se obsluhovat různé soubory robots.txt na základě agenta uživatele nebo jiných atributů.
Musím zahrnout pravidlo allow, abych povolil procházení?
Ne, pravidlo allow není nutné. Všechny adresy URL jsou implicitně povoleny a pravidlo allow se používá k potlačení pravidel disallow ve stejném souboru robots.txt.
Co se stane, pokud mám v souboru robots.txt chybu nebo použiji nepodporované pravidlo?
Webové prohlížeče jsou obecně velmi flexibilní a obvykle se nenechají ovlivnit drobnými chybami v souboru robots.txt. Obecně platí, že nejhorší, co se může stát, je, že nesprávná nebo nepodporovaná pravidla budou ignorována. Mějte však na paměti, že společnost Google nemůže při interpretaci souboru robots.txt číst myšlenky; musíme interpretovat soubor robots.txt, který jsme načetli. Přesto platí, že pokud jste si vědomi problémů v souboru robots.txt, obvykle je lze snadno odstranit.
Jaký program mám použít k vytvoření souboru robots.txt?
Můžete použít cokoli, co vytvoří platný textový soubor. Mezi běžné programy používané k vytváření souborů robots.txt patří Poznámkový blok, TextEdit, vi nebo emacs. Přečtěte si další informace o vytváření souborů robots.txt. Po vytvoření souboru jej ověřte pomocí testeru robots.txt.
Pokud zablokuji procházení stránky Googlem pomocí pravidla robots.txt disallow, zmizí stránka z výsledků vyhledávání?
Zablokování procházení stránky společností Google pravděpodobně povede k odstranění stránky z indexu Google.
Zakázání robots.txt však nezaručuje, že se stránka nebude zobrazovat ve výsledcích: Google může na základě externích informací, jako jsou příchozí odkazy, stále rozhodnout, že je relevantní, a adresu URL ve výsledcích zobrazit. Pokud chcete výslovně zablokovat indexování stránky, použijte metaznačku noindex robots nebo hlavičku HTTP X-Robots-Tag. V tomto případě nezakázat stránku v souboru robots.txt, protože stránka musí být procházena, aby se tag zobrazil a byl dodržen.
Za jak dlouho se změny v souboru robots.txt projeví na výsledcích vyhledávání?
Nejprve je třeba obnovit mezipaměť souboru robots.txt (obvykle obsah ukládáme do mezipaměti až na jeden den). Tento proces můžete urychlit odesláním aktualizovaného souboru robots.txt společnosti Google. I po zjištění změny je procházení a indexování složitý proces, který může u jednotlivých adres URL někdy trvat poměrně dlouho, takže není možné uvést přesný časový harmonogram. Mějte také na paměti, že i když váš soubor robots.txt zakazuje přístup k adrese URL, může tato adresa URL zůstat viditelná ve výsledcích vyhledávání navzdory tomu, že ji nemůžeme procházet. Pokud chcete urychlit odstranění stránek, které jste zablokovali, ze služby Google, odešlete žádost o odstranění.
Jak mohu dočasně pozastavit veškeré procházení svých webových stránek?
Dočasně můžete pozastavit veškeré prohledávání vrácením stavového kódu 503 (služba není dostupná) HTTP pro všechny adresy URL, včetně souboru robots.txt. Soubor robots.txt se bude pravidelně opakovat, dokud nebude opět přístupný. Nedoporučujeme měnit soubor robots.txt tak, aby zakazoval procházení.
Můj server nerozlišuje velká a malá písmena. Jak mohu procházení některých složek zcela zakázat?
Pravidla v souboru robots.txt rozlišují malá a velká písmena. V tomto případě doporučujeme zajistit, aby byla indexována pouze jedna verze adresy URL pomocí metod kanonizace. Díky tomu budete mít v souboru robots.txt méně řádků, takže se vám bude lépe spravovat. Pokud to není možné, doporučujeme uvést běžné kombinace názvu složky nebo jej co nejvíce zkrátit a místo celého názvu použít pouze prvních několik znaků. Například místo výpisu všech permutací /MyPrivateFolder s velkými a malými písmeny můžete vypsat permutace /MyP (pokud jste si jisti, že neexistují žádné jiné, procházené adresy URL s těmito prvními znaky). Alternativně může mít smysl použít místo toho metaznačku robots nebo hlavičku X-Robots-Tag HTTP, pokud procházení není problém.
Vracím 403 Forbidden pro všechny adresy URL, včetně souboru robots.txt. Proč je web stále procházen?
Stavový kód 403 Forbidden HTTP, stejně jako další stavové kódy 4xx HTTP, je interpretován tak, že soubor robots.txt neexistuje. To znamená, že procházení obecně předpokládá, že může procházet všechny adresy URL webu. Aby bylo možné zablokovat procházení webových stránek, musí být soubor robots.txt vrácen se stavovým kódem 200 OK HTTP a musí obsahovat příslušné pravidlo disallow.
Otázky k metaznačce robots
Nahrazuje meta tag robots soubor robots.txt?
Ne. Soubor robots.txt kontroluje, které stránky jsou přístupné. Metaznačka robots pak kontroluje, zda je stránka indexována, ale aby se tato značka zobrazila, musí být stránka procházena. Pokud je procházení stránky problematické (například pokud stránka způsobuje vysokou zátěž serveru), použijte soubor robots.txt. Pokud jde pouze o to, zda se stránka zobrazí ve výsledcích vyhledávání, můžete použít metaznačku robots.
Lze metaznačku robots použít k zablokování části stránky před indexací?
Ne, metaznačka robots je nastavení na úrovni stránky.
Mohu použít metaznačku robots mimo sekci <head>?
Ne, metaznačka robots musí být v sekci <head> stránky.
Znemožňuje metaznačka robots procházení?
Ne. I když je v tagu robots meta aktuálně napsáno noindex, budeme muset danou adresu URL občas znovu prohledat a zkontrolovat, zda se tag robots meta nezměnil.
Jak se metaznačka robots nofollow srovnává s atributem odkazu rel=”nofollow”?
Metaznačka nofollow robots se vztahuje na všechny odkazy na stránce. Atribut odkazu rel=”nofollow” se vztahuje pouze na konkrétní odkazy na stránce. Další informace o atributu odkazu rel=”nofollow” naleznete v naší dokumentaci k uživatelskému spamu a atributu rel=”nofollow”.
Otázky k hlavičce HTTP X-Robots-Tag
Jak mohu zkontrolovat značku X-Robots-Tag pro adresu URL?
Jednoduchým způsobem, jak zobrazit hlavičky serveru, je použít funkci nástroje pro kontrolu URL v konzole Google Search Console. Chcete-li zkontrolovat hlavičky odpovědi libovolné adresy URL, zkuste vyhledat “server header checker”.
Když chcete najít všechny důležité informace o robots.txt na jednom místě – k čemu slouží soubor robots.txt, jak jej vytvořit, aktualizovat i jak pracovat se sitemapou robots.txt – tohle vše naleznete v přehledném článku Robots.txt: Kompletní průvodce, návod, tipy a rady.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- What is Robots.txt? | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/robots-faq
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky