Seznámení s robots.txt
Soubor robots.txt určuje vyhledávačům, na které adresy URL na vašem webu mohou přistupovat. Používá se hlavně k tomu, aby se zabránilo přetížení webu požadavky; není to mechanismus, který by zabránil tomu, aby se webová stránka dostala do Googlu. Chcete-li webovou stránku udržet mimo Google, zablokujte indexování pomocí noindex nebo stránku zaheslujte.
★ Pokud používáte CMS, například Wix nebo Blogger, nemusíte (nebo nemůžete) soubor robots.txt upravovat přímo. Místo toho může váš CMS zobrazit stránku s nastavením vyhledávání nebo nějaký jiný mechanismus, který vyhledávačům sdělí, zda mají vaši stránku procházet, nebo ne.
Pokud chcete skrýt nebo zrušit skrytí některé ze svých stránek před vyhledávači, vyhledejte ve svém CMS návod na úpravu viditelnosti stránky ve vyhledávačích (například vyhledejte „wix hide page from search engines“ – „wix skrývá stránku z vyhledávačů“).
K čemu slouží soubor robots.txt?
Soubor robots.txt slouží především ke správě návštěvnosti vašeho webu crawlery a obvykle také k tomu, aby se soubor nedostal do vyhledávače Google, v závislosti na typu souboru:
Vliv robots.txt na různé typy souborů | |
Webová stránka
|
Soubor robots.txt můžete použít pro webové stránky (HTML, PDF nebo jiné nemediální formáty, které Google dokáže přečíst), abyste mohli řídit procházení, pokud si myslíte, že váš server bude zahlcen požadavky od vyhledávače Google, nebo abyste zabránili procházení nedůležitých nebo podobných stránek na vašem webu. Varování: Nepoužívejte soubor robots.txt jako prostředek ke skrytí webových stránek před výsledky vyhledávání Google. Pokud na vaši stránku odkazují jiné stránky s popisným textem, Google může adresu URL indexovat i bez návštěvy stránky. Pokud chcete stránku zablokovat před výsledky vyhledávání, použijte jinou metodu, například ochranu heslem nebo noindex. Pokud je vaše webová stránka zablokována pomocí souboru robots.txt, může se její adresa URL stále zobrazovat ve výsledcích vyhledávání, ale výsledek vyhledávání nebude obsahovat popis. Obrázkové soubory, videosoubory, soubory PDF a další soubory jiné než HTML budou vyloučeny. Pokud se u vaší stránky zobrazí tento výsledek vyhledávání a chcete to napravit, odstraňte položku robots.txt, která stránku blokuje. Pokud chcete stránku před vyhledáváním zcela skrýt, použijte jinou metodu. |
Mediální soubor | Soubor robots.txt slouží ke správě procházení a také k zabránění zobrazování obrázků, videí a zvukových souborů ve výsledcích vyhledávání Google. Tím nezabráníte jiným stránkám nebo uživatelům v odkazování na váš obrázek, video nebo zvukový soubor. |
Soubor se zdroji | Soubor robots.txt můžete použít k zablokování souborů se zdroji, jako jsou nedůležité soubory obrázků, skriptů nebo stylů, pokud se domníváte, že stránky načtené bez těchto zdrojů nebudou ztrátou významně ovlivněny. Pokud však nepřítomnost těchto zdrojů ztěžuje procházení stránky vyhledávačem Google, neblokujte je, jinak Google nebude dobře analyzovat stránky, které jsou na těchto zdrojích závislé. |
Porozumějte omezením souboru robots.txt
Před vytvořením nebo úpravou souboru robots.txt byste měli znát omezení této metody blokování adres URL. V závislosti na vašich cílech a situaci možná budete chtít zvážit jiné mechanismy, které zajistí, že vaše adresy URL nebudou na webu k nalezení.
- Pravidla souboru robots.txt nemusí být podporována všemi vyhledávači.
Pokyny v souborech robots.txt nemohou vynutit chování vyhledávače na vašem webu; je na něm, aby je dodržoval. Zatímco Googlebot a další webové crawlery pokyny v souboru robots.txt dodržují, jiné crawlery je dodržovat nemusí. Pokud tedy chcete zajistit bezpečnost informací před webovými crawlery, je lepší použít jiné metody blokování, například ochranu soukromých souborů na serveru heslem.
- Různé crawlery interpretují syntaxi různě.
Přestože webové crawlery Google dodržují pravidla v souboru robots.txt, každý crawler může tato pravidla interpretovat jinak. Měli byste znát správnou syntaxi pro oslovení různých webových crawlerů, protože některé z nich nemusí některým pokynům rozumět.
- Stránka, která je v souboru robots.txt zakázána, může být stále indexována, pokud na ni vedou odkazy z jiných webů.
Zatímco společnost Google nebude procházet ani indexovat obsah zablokovaný souborem robots.txt, zakázanou adresu URL můžeme stále najít a indexovat, pokud na ni vedou odkazy z jiných míst na webu. V důsledku toho se adresa URL a případně další veřejně dostupné informace, jako je anchor text v odkazech na stránku, mohou stále objevovat ve výsledcích vyhledávání Google. Chcete-li správně zabránit zobrazení adresy URL ve výsledcích vyhledávání Google, zaheslujte soubory na serveru, použijte metaznačku noindex nebo hlavičku odpovědi nebo stránku zcela odstraňte.
Upozornění: Kombinace více pravidel pro procházení a indexování může způsobit, že některá pravidla budou působit proti jiným pravidlům. Zjistěte si, jak kombinovat pravidla procházení s pravidly indexování a obsluhy.
Vytvoření nebo aktualizace souboru robots.txt
Pokud jste se rozhodli, že soubor robots.txt potřebujete, zjistěte, jak ho vytvořit. Nebo pokud již soubor máte, naučte se ho aktualizovat.
Jak napsat a odeslat soubor robots.txt
Pomocí souboru robots.txt můžete kontrolovat, ke kterým souborům na vašem webu mají prohlížeče přístup.
Soubor robots.txt se nachází v kořenovém adresáři webu. Pro web www.collabim.cz je tedy soubor robots.txt umístěn na adrese www.collabim.cz/robots.txt. Robots.txt je prostý textový soubor, který se řídí standardem Robots Exclusion Standard. Soubor robots.txt se skládá z jednoho nebo více pravidel. Každé pravidlo blokuje nebo povoluje přístup všem nebo určitému procházení k zadané cestě k souboru na doméně nebo subdoméně, kde je soubor robots.txt umístěn. Pokud není v souboru robots.txt uvedeno jinak, jsou všechny soubory implicitně povoleny k procházení.
Zde je jednoduchý soubor robots.txt se dvěma pravidly:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.collabim.cz/sitemap.xml
Zde je popis toho, co soubor robots.txt znamená:
- Uživatelský agent s názvem Googlebot nesmí procházet žádnou adresu URL začínající na https://collabim.cz/nogooglebot/.
- Všichni ostatní uživatelští agenti mohou procházet celý web. Toto by mohlo být vynecháno a výsledek by byl stejný; výchozí chování je, že user agents (uživatelští agenti) mají povoleno procházet celý web.
- Soubor s mapou webu se nachází na adrese https://www.collabim.cz/sitemap.xml.
Další příklady naleznete v části o syntaxi níže.
Základní pokyny pro vytvoření souboru robots.txt
Vytvoření souboru robots.txt a jeho obecné zpřístupnění a využití zahrnuje čtyři kroky:
- vytvoření souboru robots.txt,
- přidání pravidel do souboru robots.txt,
- nahrání souboru robots.txt do kořenového adresáře webu,
- otestování souboru robots.txt.
Vytvoření souboru robots.txt
K vytvoření souboru robots.txt můžete použít téměř jakýkoli textový editor. Platné soubory robots.txt mohou vytvářet například programy Notepad, TextEdit, vi a emacs. Nepoužívejte textový procesor; textové procesory často ukládají soubory v proprietárním formátu a mohou přidávat neočekávané znaky, například kudrnaté uvozovky, které mohou způsobit problémy procházením. Ujistěte se, že jste soubor uložili v kódování UTF-8, pokud jste k tomu vyzváni v dialogovém okně pro uložení souboru.
Pravidla pro formát a umístění:
- Soubor se musí jmenovat robots.txt.
- Váš web může mít pouze jeden soubor robots.txt.
- Soubor robots.txt musí být umístěn v kořenovém adresáři hostitele webu, kterého se týká. Chcete-li například řídit procházení všech adres URL pod adresou https://www.collabim.cz/, musí být soubor robots.txt umístěn na adrese https://www.collabim.cz/robots.txt. Nemůže být umístěn v podadresáři (například na adrese https://collabim.cz/akademie/robots.txt). Pokud si nejste jisti, jak získat přístup ke kořenovému adresáři webu, nebo k tomu potřebujete oprávnění, obraťte se na poskytovatele webhostingových služeb. Pokud nemáte přístup ke kořenovému adresáři webu, použijte alternativní metodu blokování, například meta tagy.
- Soubor robots.txt může být umístěn na subdoméně (například https://subdomena.collabim.cz/robots.txt) nebo na nestandardních portech (například https://collabim.cz:8181/robots.txt).
- Soubor robots.txt se vztahuje pouze na cesty v rámci protokolu, hostitele a portu, kde je umístěn. To znamená, že pravidla v https://collabim.cz/robots.txt se vztahují pouze na soubory v https://collabim.cz/, nikoli na subdomény, například https://m.collabim.cz/, nebo jiné protokoly, například http://collabim.cz/.
- Soubor robots.txt musí být textový soubor v kódování UTF-8 (což zahrnuje ASCII). Společnost Google může ignorovat znaky, které nejsou součástí rozsahu UTF-8, což může způsobit neplatnost pravidel robots.txt.
Jak psát pravidla robots.txt
Pravidla jsou pokyny pro roboty, které části webu mohou procházet. Při přidávání pravidel do souboru robots.txt se řiďte těmito pokyny:
- Soubor robots.txt se skládá z jedné nebo více skupin (sad pravidel).
- Každá skupina se skládá z několika pravidel (známých také jako směrnice), přičemž na každém řádku je jedno pravidlo. Každá skupina začíná řádkem User-agent, který určuje cíl skupin.
- Skupina uvádí následující informace:
- na koho se skupina vztahuje (agent uživatele),
- ke kterým adresářům nebo souborům může tento agent přistupovat,
- ke kterým adresářům nebo souborům nemá agent přístup.
- Prohlížeče zpracovávají skupiny shora dolů. Uživatelský agent může odpovídat pouze jedné sadě pravidel, což je první, nejkonkrétnější skupina, která odpovídá danému uživatelskému agentovi. Pokud existuje více skupin pro stejného uživatelského agenta, budou tyto skupiny před zpracováním sloučeny do jedné skupiny.
- Výchozí předpoklad je, že uživatelský agent může procházet jakoukoli stránku nebo adresář, které nejsou blokovány pravidlem zákazu – disallow.
- Pravidla rozlišují malá a velká písmena. Například disallow: /soubor.asp platí pro https://www.collabim.cz/soubor.asp, ale ne pro https://www.collabim.cz/SOUBOR.asp.
- Znak # označuje začátek komentáře. Komentáře jsou při zpracování ignorovány.
Prohlížeče Google podporují následující pravidla v souborech robots.txt:
- user-agent: [Povinné, jeden nebo více na skupinu] Pravidlo určuje název automatického klienta známého jako vyhledávač, na kterého se pravidlo vztahuje. Jedná se o první řádek pro každou skupinu pravidel. Názvy uživatelských agentů Google jsou uvedeny v seznamu uživatelských agentů Google. Použití hvězdičky (*) odpovídá všem crawlerům kromě různých crawlerů AdsBot, které musí být výslovně jmenovány. Například:
# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
- disallow – zakázat: [Alespoň jeden nebo více záznamů „disallow“ nebo „allow“ v každém pravidle] Adresář nebo stránka, která se vztahuje ke kořenové doméně a kterou nechcete, aby uživatelský agent procházel. Pokud pravidlo odkazuje na stránku, musí to být celý název stránky, jak se zobrazuje v prohlížeči. Musí začínat znakem /, a pokud odkazuje na adresář, musí končit znakem /.
- allow – povolit: [Alespoň jeden nebo více záznamů „disallow“ nebo „allow“ na pravidlo] Adresář nebo stránka vzhledem ke kořenové doméně, kterou může procházet právě zmíněný uživatelský agent. Používá se k potlačení pravidla disallow, které povoluje procházení podadresáře nebo stránky v zakázaném adresáři. Pro jednu stránku zadejte celý název stránky, jak se zobrazuje v prohlížeči. Musí začínat znakem /, a pokud odkazuje na adresář, musí končit znakem /.
- sitemap – mapa stránek: [Nepovinné, nula nebo více na soubor] Umístění mapy stránek pro tuto webovou stránku. Adresa URL mapy stránek musí být plně kvalifikovaná adresa URL; Google nepředpokládá ani nekontroluje alternativy http / https / s www / bez www. Mapy stránek jsou dobrým způsobem, jak uvést, který obsah by měl Google procházet, na rozdíl od toho, který obsah může nebo nemůže procházet. Příklad:
Sitemap: https://collabim.cz/sitemap.xml Sitemap: https://www.collabim.cz/sitemap.xml
Všechna pravidla kromě mapy stránek podporují zástupný znak * pro prefix path (cesty), příponu nebo celý řetězec.
Řádky, které neodpovídají žádnému z těchto pravidel, jsou ignorovány.
Přečtěte si stránku o interpretaci specifikace robots.txt společností Google, kde najdete úplný popis jednotlivých pravidel.
Nahrání souboru robots.txt
Jakmile jste soubor robots.txt uložili do počítače, můžete jej zpřístupnit vyhledávačům. Neexistuje žádný nástroj, který by vám s tím pomohl, protože způsob nahrání souboru robots.txt na váš web závisí na architektuře vašeho webu a serveru. Obraťte se na svou hostingovou společnost nebo vyhledejte dokumentaci své hostingové společnosti; například vyhledejte „upload files infomaniak“.
Po nahrání souboru robots.txt otestujte, zda je veřejně přístupný a zda jej Google dokáže analyzovat.
Testování souboru robots.txt
Chcete-li otestovat, zda je nově nahraný soubor robots.txt veřejně přístupný, otevřete v prohlížeči okno soukromého prohlížení (nebo jeho ekvivalent) a přejděte na umístění souboru robots.txt. Například na adrese https://collabim.cz/robots.txt. Pokud se zobrazí obsah souboru robots.txt, můžete značku otestovat.
Google nabízí dvě možnosti testování značek robots.txt:
- Tester robots.txt v Google Search Console. Tento nástroj můžete použít pouze pro soubory robots.txt, které jsou již na vašem webu přístupné.
- Pokud jste vývojář, podívejte se na open source knihovnu robots.txt společnosti Google, která se používá i ve vyhledávání Google, a vytvořte si ji. Tento nástroj můžete použít k testování souborů robots.txt lokálně na svém počítači.
Odeslání souboru robots.txt společnosti Google
Jakmile soubor robots.txt nahrajete a otestujete, vyhledávače Google automaticky najdou a začnou používat váš soubor robots.txt. Nemusíte nic dělat. Pokud jste soubor robots.txt aktualizovali a potřebujete co nejdříve obnovit kopii v mezipaměti Google, naučte se, jak odeslat aktualizovaný soubor robots.txt.
Užitečná pravidla robots.txt
Zde je několik běžných užitečných pravidel robots.txt:
Užitečná pravidla | |
Zakázat procházení celého webu | Mějte na paměti, že v některých situacích mohou být adresy URL z webu indexovány, i když nebyly procházeny.
★Poznámka: To neodpovídá různým crawlerům AdsBot, které musí být explicitně pojmenovány. User-agent: * Disallow: / |
Zakázat procházení adresáře a jeho obsahu | Připojením lomítka dopředu k názvu adresáře zakážete procházení celého adresáře.
Upozornění: Nezapomeňte, že k blokování přístupu k soukromému obsahu nepoužívejte soubor robots.txt, ale řádné ověřování. Adresy URL zakázané souborem robots.txt mohou být stále indexovány, aniž by byly procházeny, a soubor robots.txt si může kdokoli prohlédnout, což může vést k odhalení umístění vašeho soukromého obsahu.. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Povolení přístupu k jednomu prohlížeči | Celý web může procházet pouze Googlebot-news.
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Povolit přístup všem kromě jediného prohlížeče | Unnecessarybot nesmí stránky procházet, ostatní roboti ano.
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Zakázat procházení jedné webové stránky | Zakažte například stránku useless_file.html umístěnou na adrese https://example.com/useless_file.html a other_useless_file.html v adresáři junk.
User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Zakázat procházení celého webu kromě podadresáře | Prohlížeče mohou přistupovat pouze do veřejného podadresáře.
User-agent: * Disallow: / Allow: /public/ |
Blokování konkrétního obrázku z Obrázků Google | Zakážete například obrázek dogs.jpg.
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Blokování všech obrázků na webu z Obrázků Google | Google nemůže indexovat obrázky a videa, aniž by je prohledal.
User-agent: Googlebot-Image Disallow: / |
Zakázat procházení souborů určitého typu | Například zakažte procházení všech souborů .gif.
User-agent: Googlebot Disallow: /*.gif$ |
Zakázat procházení celého webu, ale povolit Mediapartners-Google | Tato implementace skryje vaše stránky z výsledků vyhledávání, ale webový crawler Mediapartners-Google je přesto může analyzovat a rozhodnout, jaké reklamy zobrazit návštěvníkům vašeho webu.
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Pomocí zástupných znaků * a $ můžete porovnávat adresy URL, které končí určitým řetězcem | Například zakažte všechny soubory .xls.
User-agent: Googlebot Disallow: /*.xls$ |
Aktualizujte soubor robots.txt
Chcete-li aktualizovat pravidla ve stávajícím souboru robots.txt, stáhněte si kopii souboru robots.txt ze svého webu a proveďte potřebné úpravy.
Stáhněte si soubor robots.txt
Soubor robots.txt můžete stáhnout různými způsoby, například:
- Přejděte na svůj soubor robots.txt, například https://collabim.cz/robots.txt, a zkopírujte jeho obsah do nového textového souboru v počítači. Při vytváření nového místního souboru se ujistěte, že dodržujete pokyny týkající se formátu souboru.
- Stáhněte si aktuální kopii souboru robots.txt pomocí nástroje, jako je cURL. Například:
curl https://collabim.cz/robots.txt -o robots.txt
- Pomocí testeru robots.txt v Google Search Console si stáhněte kopii souboru robots.txt.
-
- Klikněte na tlačítko Odeslat (Submit) v pravém dolním rohu editoru robots.txt. Tato akce otevře dialogové okno Odeslat (Submit dialog).
- Kód robots.txt stáhnete ze stránky Tester robots.txt kliknutím na tlačítko Stáhnout (Download) v dialogovém okně Odeslat (Submit dialog).
Upravte soubor robots.txt
Otevřete soubor robots.txt stažený z webu v textovém editoru a proveďte potřebné úpravy pravidel. Ujistěte se, že používáte správnou syntaxi a že jste soubor uložili v kódování UTF-8.
Nahrání souboru robots.txt
Nový soubor robots.txt nahrajte do kořenového adresáře své domény jako textový soubor s názvem robots.txt. Způsob nahrání souboru na web je velmi závislý na platformě a serveru. Podívejte se na naše tipy, kde najdete pomoc s nahráním souboru robots.txt na váš web.
★ Pokud nemáte oprávnění nahrávat soubory do kořenového adresáře domény, obraťte se na správce domény a proveďte změny.
Pokud se například domovská stránka vašeho webu nachází pod subdoménou.example.com/site/example/, pravděpodobně nemůžete aktualizovat soubor robots.txt na subdoméně.example.com/robots.txt. V takovém případě se obraťte na vlastníka domény example.com/, aby provedl potřebné změny souboru robots.txt.
Obnovení mezipaměti robots.txt společnosti Google
Během procesu automatického procházení si prohlížeče Google všímají změn, které jste provedli v souboru robots.txt, a každých 24 hodin aktualizují jeho verzi v mezipaměti. Pokud potřebujete aktualizovat mezipaměť rychleji, použijte funkci Odeslat (Submit) v testeru robots.txt.
- Klepnutím na tlačítko Zobrazit nahranou verzi (View uploaded version) se přesvědčte, že váš soubor robots.txt v reálném čase odpovídá verzi, kterou má Google procházet.
- Kliknutím na tlačítko Odeslat (Submit) oznámíte společnosti Google, že byly provedeny změny v souboru robots.txt, a požádáte ji o jeho procházení.
- Zkontrolujte, zda byla vaše nejnovější verze úspěšně procházena společností Google, obnovením stránky v prohlížeči, aby se aktualizoval editor nástroje a zobrazil se váš živý kód robots.txt. Po obnovení stránky můžete také kliknutím na rozevírací seznam zobrazit časové razítko, kdy Google poprvé viděl nejnovější verzi vašeho souboru robots.txt
Jak Google interpretuje specifikaci robots.txt
Automatické vyhledávače společnosti Google podporují protokol REP (Robots Exclusion Protocol). To znamená, že před procházením webu si roboty Google stáhnou a rozeberou soubor robots.txt webu a získají informace o tom, které části webu mohou být procházeny. Protokol REP se nevztahuje na prohledávače společnosti Google, které jsou řízeny uživateli (například odběry kanálů), ani na prohledávače, které se používají ke zvýšení bezpečnosti uživatelů (například k analýze malwaru).
Na této stránce je popsán výklad zákona REP společností Google. Původní standard naleznete v dokumentu RFC 9309.
Co je soubor robots.txt
Pokud nechcete, aby procházející roboty přistupovaly k částem vašeho webu, můžete vytvořit soubor robots.txt s příslušnými pravidly. Soubor robots.txt je jednoduchý textový soubor obsahující pravidla o tom, které prohlížeče mohou přistupovat do kterých částí webu. Například soubor robots.txt pro stránku collabim.cz může vypadat takto:
# Tento soubor robots.txt řídí procházení adres URL pod https://collabim.cz. # Všechny prohledávače mají zakázáno procházet soubory v adresáři „includes“, jako # jsou soubory .css, .js, ale Google je potřebuje k vykreslování, takže je Googlebot smí # procházet. User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://collabim.cz/sitemap.xml
Pokud s robots.txt teprve začínáte, začněte s naším úvodem do robots.txt. Najdete zde také tipy pro vytvoření souboru robots.txt a rozsáhlý seznam často kladených otázek a odpovědí na ně.
Umístění souboru a rozsah platnosti
Soubor robots.txt musíte umístit do adresáře nejvyšší úrovně webu na podporovaném protokolu. Adresa URL souboru robots.txt rozlišuje (stejně jako ostatní adresy URL) malá a velká písmena. V případě vyhledávače Google jsou podporovány protokoly HTTP, HTTPS a FTP. V případě protokolů HTTP a HTTPS získávají prohlížeče soubor robots.txt pomocí nepodmíněného požadavku GET protokolu HTTP; v případě protokolu FTP používají prohlížeče standardní příkaz RETR (RETRIEVE) s použitím anonymního přihlášení.
Pravidla uvedená v souboru robots.txt se vztahují pouze na hostitele, protokol a číslo portu, kde je soubor robots.txt umístěn.
Příklady platných adres URL robots.txt
Následující tabulka obsahuje příklady adres URL robots.txt a cest URL, pro které jsou platné. První sloupec obsahuje adresu URL souboru robots.txt a druhý sloupec obsahuje domény, pro které by tento soubor robots.txt platil a pro které ne.
Příklady adres URL souboru Robots.txt | |
https://example.com/robots.txt | To je obecný případ. Neplatí pro jiné subdomény, protokoly nebo čísla portů. Platí pro všechny soubory ve všech podadresářích na stejném hostiteli, protokolu a čísle portu.
Platí pro: https://example.com/ https://example.com/folder/file Neplatí pro: https://other.example.com/ http://example.com/ https://example.com:8181/ |
https://www.example.com/robots.txt | Soubor robots.txt na subdoméně je platný pouze pro tuto subdoménu.
Platí pro: https://www.example.com/ Neplatí pro: https://example.com/ |
https://example.com/folder/robots.txt | Není platný soubor robots.txt. Prohledávače nekontrolují soubory robots.txt v podadresářích. |
https://www.exämple.com/robots.txt | IDN jsou ekvivalentní svým verzím s punycode. Viz také RFC 3492.
Platí pro: https://www.exämple.com/ https://xn--exmple-cua.com/ Neplatí pro: https://www.example.com/ |
ftp://example.com/robots.txt | Platí pro:
ftp://example.com/ Neplatí pro: https://example.com/ |
https://212.96.82.21/robots.txt | Soubor robots.txt s IP adresou jako názvem hostitele je platný pouze pro procházení této IP adresy jako názvu hostitele. Není automaticky platný pro všechny webové stránky hostované na této IP adrese (i když je možné, že soubor robots.txt je sdílený, v takovém případě by byl k dispozici i pod sdíleným názvem hostitele).
Platí pro: https://212.96.82.21/ Neplatí pro: https://example.com/ (i když je umístěn na 212.96.82.21) |
https://example.com:443/robots.txt | Standardní čísla portů (80 pro HTTP, 443 pro HTTPS, 21 pro FTP) odpovídají jejich výchozím názvům hostitelů.
Platí pro: https://example.com:443/ https://example.com/ Neplatí pro: https://example.com:444/ |
https://example.com:8181/robots.txt | Soubory Robots.txt na nestandardních číslech portů jsou platné pouze pro obsah zpřístupněný prostřednictvím těchto čísel portů.
Platí pro: https://example.com:8181/ Neplatí pro: https://example.com/ |
Zpracování chyb a stavových kódů HTTP
Při požadavku na soubor robots.txt ovlivňuje stavový kód HTTP v odpovědi serveru to, jak bude soubor robots.txt použit procházením společnosti Google. Následující tabulka shrnuje, jak robot Googlebot zachází se soubory robots.txt pro různé stavové kódy HTTP.
Zpracování chyb a stavových kódů HTTP | |
2xx (úspěch) | Stavové kódy HTTP, které signalizují úspěch, přimějí vyhledávače Google zpracovat soubor robots.txt, jak jej poskytl server. |
3xx (přesměrování) | Google sleduje nejméně pět přesměrování podle definice RFC 1945 a poté se zastaví a považuje je za 404 pro robots.txt. To platí i pro všechny zakázané adresy URL v řetězci přesměrování, protože kvůli přesměrování nemohl procházet pravidla.
Google nesleduje logická přesměrování v souborech robots.txt (frames, JavaScript nebo přesměrování typu meta refresh). |
4xx (chyby klienta) | Prohlížeče Google považují všechny chyby 4xx kromě 429 za neexistenci platného souboru robots.txt. To znamená, že Google předpokládá, že neexistují žádná omezení procházení.
Nepoužívejte stavové kódy 401 a 403 pro omezení rychlosti procházení. Stavové kódy 4xx, kromě 429, nemají na rychlost procházení žádný vliv. Přečtěte si, jak omezit rychlost procházení.. |
5xx (chyby serveru) | Protože server nemohl poskytnout jednoznačnou odpověď na požadavek robots.txt společnosti Google, společnost Google dočasně interpretuje chyby serveru 5xx a 429, jako by byl web zcela zakázán. Google se pokusí procházet soubor robots.txt, dokud nezíská stavový kód HTTP bez chyby serveru. Chyba 503 (služba není dostupná) vede k poměrně častému opakování pokusu. Pokud je soubor robots.txt nedostupný déle než 30 dní, použije Google poslední kopii souboru robots.txt uloženou v mezipaměti. Pokud je nedostupný, společnost Google předpokládá, že neexistují žádná omezení procházení.
Pokud potřebujete dočasně pozastavit procházení, doporučujeme pro každou adresu URL na webu zobrazit stavový kód 503 HTTP. Pokud se Googlu podaří zjistit, že je web nesprávně nakonfigurován tak, aby v případě chybějících stránek vracel stavový kód 5xx místo 404, bude chybu 5xx z tohoto webu považovat za 404. Pokud například chybové hlášení na stránce, která vrací stavový kód 5xx, zní “Stránka nenalezena”, Google bude interpretovat stavový kód jako 404 (nenalezeno). |
Další chyby | Soubor robots.txt, který nelze načíst z důvodu problémů s DNS nebo sítí, jako jsou časové limity, neplatné odpovědi, resetovaná nebo přerušená připojení a chyby v sekvencování HTTP, je považován za chybu serveru. |
Ukládání do mezipaměti
Společnost Google obvykle ukládá obsah souboru robots.txt do mezipaměti po dobu až 24 hodin, ale může jej ukládat do mezipaměti i déle v situacích, kdy není možné obnovit verzi v mezipaměti (například kvůli časovým limitům nebo chybám 5xx). Odpověď uložená v mezipaměti může být sdílena různými procházeními. Společnost Google může prodloužit nebo zkrátit dobu uložení do mezipaměti na základě hlaviček HTTP max-age Cache-Control.
Formát souboru
Soubor robots.txt musí být prostý textový soubor v kódování UTF-8 a řádky musí být odděleny znaky CR, CR/LF nebo LF.
Google ignoruje neplatné řádky v souborech robots.txt, včetně značky Unicode Byte Order Mark (BOM) na začátku souboru robots.txt, a používá pouze platné řádky. Pokud je například stahovaný obsah HTML místo pravidel robots.txt, Google se pokusí analyzovat obsah a extrahovat pravidla a vše ostatní bude ignorovat.
Podobně pokud kódování znaků souboru robots.txt není UTF-8, může Google ignorovat znaky, které nejsou součástí rozsahu UTF-8, což může způsobit neplatnost pravidel robots.txt.
Společnost Google v současné době prosazuje omezení velikosti souboru robots.txt na 500 kibibytů (KiB). Obsah, který přesahuje maximální velikost souboru, je ignorován. Velikost souboru robots.txt můžete snížit sloučením pravidel, která by vedla k nadměrné velikosti souboru robots.txt. Například umístěte vyloučený materiál do samostatného adresáře.
Syntaxe
Platné řádky robots.txt se skládají z pole, dvojtečky a hodnoty. Mezery jsou nepovinné, ale doporučují se pro lepší čitelnost. Mezera na začátku a na konci řádku se ignoruje. Chcete-li zahrnout komentáře, předložte komentář znakem #. Mějte na paměti, že vše za znakem # bude ignorováno. Obecný formát je <pole>:<hodnota><#nepovinný-komentář> (<field>:<value><#optional-comment>).
Google podporuje následující pole:
- user-agent: určuje, pro který crawler pravidla platí,
- allow: cesta k adrese URL, která může být prohledávána,
- disallow: cesta URL, která nesmí být procházena,
- sitemap: úplná adresa URL mapy stránek.
Pole allow a disallow se také nazývají pravidla (známá také jako rules). Tato pravidla jsou vždy zadána ve tvaru rule: [path], kde [path] je nepovinné. Ve výchozím nastavení nejsou pro určené prohlížeče stanovena žádná omezení pro procházení. Prolézací stroje ignorují pravidla bez příkazu [path].
Hodnota [path], pokud je zadána, je relativní vůči kořenovému adresáři webové stránky, odkud byl soubor robots.txt načten (s použitím stejného protokolu, čísla portu, názvu hostitele a domény). Hodnota cesty musí začínat znakem /, aby označovala kořenový adresář, a rozlišují se v ní malá a velká písmena. Další informace o porovnávání adres URL na základě hodnot cest.
user-agent
Řádek user-agent určuje, na který crawler se pravidla vztahují. Úplný seznam řetězců user-agent, které můžete použít v souboru robots.txt, najdete v části Crawlery a řetězce user-agent společnosti Google.
U hodnoty řádku user-agent se nerozlišují velká a malá písmena.
disallow
Pravidlo disallow určuje cesty, které nesmí být přístupné procházením identifikovaným řádkem user-agent, s nímž je pravidlo disallow seskupeno. Crawlery pravidlo bez cesty ignorují.
Google nemůže indexovat obsah stránek, které jsou zakázány pro procházení, ale může přesto indexovat adresu URL a zobrazit ji ve výsledcích vyhledávání bez úryvku.
Hodnota pravidla disallow rozlišuje velká a malá písmena.
Použití:
disallow: [path]
allow
Pravidlo allow určuje cesty, k nimž mohou určené prohlížeče přistupovat. Pokud není zadána žádná cesta, pravidlo se ignoruje.
U hodnoty pravidla allow se rozlišují velká a malá písmena.
Použití:
allow: [path]
sitemap – mapa stránek
Google, Bing a další hlavní vyhledávače podporují pole mapy stránek v souboru robots.txt, jak je definováno na webu sitemaps.org.
Hodnota pole sitemap rozlišuje velká a malá písmena.
Použití:
sitemap: [absoluteURL]
Řádek [absoluteURL] ukazuje na umístění souboru mapy webu nebo indexu mapy webu. Musí to být plně kvalifikovaná adresa URL včetně protokolu a hostitele a nemusí být zakódována jako adresa URL. Adresa URL nemusí být na stejném hostiteli jako soubor robots.txt. Můžete zadat více polí mapy webu. Pole mapy stránek není vázáno na žádného konkrétního uživatelského agenta a mohou jej sledovat všechny procházení, pokud není procházení zakázáno.
Například:
user-agent: otherbot disallow: /kale
sitemap: https://example.com/sitemap.xml sitemap: https://cdn.example.org/other-sitemap.xml sitemap: https://ja.example.org/テスト-サイトマップ.xml
Seskupení řádků a pravidel
Pravidla, která se vztahují na více uživatelských agentů, můžete seskupit tak, že pro každý crawler zopakujete řádky s user-agent.
Například:
user-agent: a disallow: /c user-agent: b disallow: /d user-agent: e user-agent: f disallow: /g user-agent: h
V tomto příkladu existují čtyři různé skupiny pravidel:
- jedna skupina je určena pro uživatelského agenta „a“,
- jedna skupina pro uživatelského agenta „b“,
- jedna skupina pro uživatelské agenty „e“ a „f“,
- jedna skupina pro uživatelského agenta „h“.
Technický popis skupiny naleznete v části 2.1 dokumentu REP.
Pořadí priority pro uživatelské agenty
Pro určitý crawler platí pouze jedna skupina. Prohlížeče Google určují správnou skupinu pravidel tak, že v souboru robots.txt najdou skupinu s nejkonkrétnějším uživatelským agentem, který odpovídá uživatelskému agentu prohledávače. Ostatní skupiny jsou ignorovány. Veškerý neshodný text je ignorován (například googlebot/1.2 i googlebot* jsou ekvivalentní googlebot). Na pořadí skupin v souboru robots.txt nezáleží.
Pokud je pro daného agenta uživatele deklarováno více než jedna specifická skupina, všechna pravidla ze skupin platných pro daného agenta uživatele jsou interně sloučena do jedné skupiny. Skupiny specifické pro uživatelského agenta a globální skupiny (*) se nekombinují.
Příklady
Shoda polí agent-user
user-agent: googlebot-news (group 1) user-agent: * (group 2) user-agent: googlebot (group 3)
Tímto způsobem by procházení vybralo příslušnou skupinu:
Sledovaná skupina pro každého crawlera | |
Googlebot News | Googlebot-news sleduje skupinu 1, protože skupina 1 je nejkonkrétnější skupinou. |
Googlebot (web) | Googlebot sleduje skupinu 3. |
Googlebot Storebot | Storebot-Google následuje skupinu 2, protože neexistuje žádná specifická skupina Storebot-Google. |
Googlebot News (při procházení obrázků) | Při procházení obrázků sleduje googlebot-news skupinu 1. Googlebot-news neprochází obrázky pro Google Images, takže sleduje pouze skupinu 1. |
Otherbot (web) | Ostatní prohlížeče Google sledují skupinu 2. |
Otherbot (news) | Ostatní crawlery Google, které prohledávají zpravodajský obsah, ale neidentifikují se jako googlebot-news, následují skupinu 2. I když existuje záznam pro související crawler, je platný pouze v případě, že se konkrétně shoduje. |
Seskupení pravidel
Pokud je v souboru robots.txt více skupin, které se vztahují k určitému uživatelskému agentovi, vyhledávače Google tyto skupiny interně sloučí. Například:
user-agent: googlebot-news disallow: /fish user-agent: * disallow: /carrots user-agent: googlebot-news disallow: /shrimp
Prohlížeče interně seskupují pravidla například podle agenta uživatele:
user-agent: googlebot-news disallow: /fish disallow: /shrimp user-agent: * disallow: /carrots
Pravidla jiná než allow, disallow a user-agent jsou analyzátorem robots.txt ignorována. To znamená, že následující úryvek souboru robots.txt je považován za jednu skupinu, a proto jsou user-agent a i b ovlivněny příkazem disallow: / pravidlo:
user-agent: a sitemap: https://example.com/sitemap.xml user-agent: b disallow: /
Při zpracování pravidel souboru robots.txt prohlížeče ignorují řádek mapy stránek. Například takto budou procházení chápat předchozí úryvek robots.txt:
user-agent: a user-agent: b disallow: /
Porovnávání adres URL na základě hodnot cest
Společnost Google používá hodnotu cesty v pravidlech pro allow a disallow jako základ pro určení, zda se pravidlo vztahuje na konkrétní adresu URL na webu. Funguje to tak, že pravidlo porovná s komponentou cesty adresy URL, kterou se crawler snaží načíst. Znaky ASCII, které nejsou 7bitové, mohou být v cestě zahrnuty jako znaky UTF-8 nebo jako znaky UTF-8 kódované procentuálně podle RFC 3986.
Google, Bing a další hlavní vyhledávače podporují omezenou formu zástupných znaků pro hodnoty cest. Tyto zástupné znaky jsou:
- * označuje 0 nebo více výskytů libovolného platného znaku.
- $ označuje konec adresy URL.
Následující tabulka ukazuje, jak různé zástupné znaky ovlivňují zpracování:
Příklad shody path | |
/ | Shoduje se s kořenovou adresou URL a všemi adresami URL nižší úrovně. |
/* | Ekvivalent k /. Koncový zástupný znak se ignoruje. |
/$ | Shoduje se pouze s kořenem. Procházení je povoleno u libovolné adresy URL nižší úrovně. |
/fish | Shoduje se s jakoukoli cestou začínající na /fish. Všimněte si, že při porovnávání se rozlišují velká a malá písmena.
Shoduje se: /fish /fish.html /fish/salmon.html /fishheads /fishheads/yummy.html /fish.php?id=anything Neshoduje se: /Fish.asp /catfish /?id=ryby /desert/fish |
/fish* | Ekvivalent k /fish. Koncový zástupný znak se ignoruje.
Shoduje se: /fish /fish.html /fish/salmon.html /fishheads /fishheads/yummy.html /fish.php?id=anything Neshoduje se: /Fish.asp /catfish /?id=fish /desert/fish |
/fish/ | Shoduje se s čímkoli ve složce /fish/.
Shoduje se: /fish/ /fish/?id=anything /fish/salmon.htm Neshoduje se: /fish /fish.html /animals/fish/ /Fish/Salmon.asp |
/*.php | Shoduje se s jakoukoli cestou, která obsahuje .php.
Shoduje se: /index.php /filename.php /folder/filename.php /folder/filename.php?parameters /folder/any.php.file.html /filename.php/ Neshoduje se: / (i když se mapuje na /index.php) /windows.PHP |
/*.php$ | Shoduje se s jakoukoli cestou path, která končí příponou .php.
Shoduje se: /filename.php /folder/filename.php Neshoduje se: /filename.php?parameters /filename.php/ /filename.php5 /windows.PHP |
/fish*.php | Shoduje se s jakoukoli cestou, která obsahuje /fish a .php v tomto pořadí.
Shoduje se: /fish.php /fishheads/catfish.php?parameters Neshoduje se: /Fish.PHP |
Pořadí přednosti pravidel
Při porovnávání pravidel robots.txt s adresami URL používají vyhledávače nejkonkrétnější pravidlo podle délky cesty k pravidlu. V případě konfliktních pravidel, včetně pravidel se zástupnými znaky, použije Google nejméně omezující pravidlo.
Následující příklady ukazují, které pravidlo budou prohledávače Google používat na danou adresu URL.
Příklady situací | |
https://example.com/page |
allow: /p disallow: / Platné pravidlo: allow: /p, protože je specifičtější. |
https://example.com/folder/page |
allow: /folder disallow: /folder Platné pravidlo: allow: /folder, protože v případě konfliktních pravidel Google použije nejméně omezující pravidlo. |
https://example.com/page.htm |
allow: /page disallow: /*.htm Použitelné pravidlo: disallow: /*.htm, protože cesta k pravidlu je delší a odpovídá více znakům v URL, takže je konkrétnější. |
https://example.com/page.php5 |
allow: /page disallow: /*.ph Platné pravidlo: allow: /page, protože v případě protichůdných pravidel použije Google nejméně omezující pravidlo. |
https://example.com/ |
allow: /$ disallow: / Použitelné pravidlo: allow: /$, protože je specifičtější. |
https://example.com/page.htm |
allow: /$ disallow: / Použitelné pravidlo: disallow: /, protože pravidlo allow se vztahuje pouze na kořenovou adresu URL. |
Nejčastější dotazy k Robots.txt
Obecné otázky k robotům
- Potřebuje můj web soubor robots.txt?
Ne. Když robot Google navštíví webovou stránku, nejprve požádá o povolení k procházení tím, že se pokusí načíst soubor robots.txt. Webové stránky bez souboru robots.txt, metaznačky robots nebo hlavičky X-Robots-Tag HTTP budou obvykle normálně procházeny a indexovány.
- Jakou metodu mám použít k zablokování procházení?
Záleží na tom. Stručně řečeno, existují dobré důvody pro použití každé z těchto metod:
-
- Robots.txt: Použijte ji, pokud procházení obsahu způsobuje na vašem serveru problémy. Například můžete chtít zakázat procházení skriptů nekonečného kalendáře. Nepoužívejte robots.txt k blokování soukromého obsahu (místo toho použijte ověřování na straně serveru) nebo k řešení kanonizace. Chcete-li zajistit, aby adresa URL nebyla indexována, použijte místo toho metaznačku robots (robots meta tag) nebo hlavičku X-Robots-Tag HTTP.
- Metaznačka robots: Použijte jej, pokud potřebujete kontrolovat, jak se jednotlivá stránka HTML zobrazuje ve výsledcích vyhledávání, nebo pokud chcete zajistit, aby se nezobrazovala.
- Hlavička X-Robots-Tag HTTP: Pokud potřebujete řídit, jak se obsah zobrazuje ve výsledcích vyhledávání, nebo pokud chcete zajistit, aby se nezobrazoval, použijte ji.
- Mohu pomocí souboru robots.txt, meta tagu robots nebo hlavičky X-Robots-Tag HTTP odstranit cizí web z výsledků vyhledávání?
Ne. Tyto metody jsou použitelné pouze pro weby, u kterých můžete upravovat kód nebo přidávat soubory.
- Jak mohu zpomalit procházení svých webových stránek společností Google?
Obecně můžete upravit nastavení rychlosti procházení v účtu Google Search Console.
Otázky k souboru Robots.txt
- Stejný soubor robots.txt používám pro více webových stránek. Mohu místo relativní cesty (path) použít celou adresu URL?
Ne. Pravidla v souboru robots.txt (s výjimkou sitemap:) platí pouze pro relativní cesty.
- Mohu soubor robots.txt umístit do podadresáře?
Ne. Soubor musí být umístěn v nejvyšším adresáři webu.
- Chci zablokovat soukromou složku. Mohu zabránit ostatním lidem ve čtení souboru robots.txt?
Ne, soubor robots.txt mohou číst různí uživatelé. Pokud složky nebo názvy souborů s obsahem nejsou určeny pro veřejnost, neuvádějte je v souboru robots.txt. Nedoporučuje se obsluhovat různé soubory robots.txt na základě agenta uživatele nebo jiných atributů.
- Musím zahrnout pravidlo allow, abych povolil procházení?
Ne, pravidlo allow není nutné. Všechny adresy URL jsou implicitně povoleny a pravidlo allow se používá k potlačení pravidel disallow ve stejném souboru robots.txt.
- Co se stane, pokud mám v souboru robots.txt chybu nebo použiji nepodporované pravidlo?
Webové prohlížeče jsou obecně velmi flexibilní a obvykle se nenechají ovlivnit drobnými chybami v souboru robots.txt. Obecně platí, že nejhorší, co se může stát, je, že nesprávná nebo nepodporovaná pravidla budou ignorována. Mějte však na paměti, že společnost Google nemůže při interpretaci souboru robots.txt číst myšlenky; musíme interpretovat soubor robots.txt, který jsme načetli. Přesto platí, že pokud jste si vědomi problémů v souboru robots.txt, obvykle je lze snadno odstranit.
- Jaký program mám použít k vytvoření souboru robots.txt?
Můžete použít cokoli, co vytvoří platný textový soubor. Mezi běžné programy používané k vytváření souborů robots.txt patří Poznámkový blok, TextEdit, vi nebo emacs. Přečtěte si další informace o vytváření souborů robots.txt. Po vytvoření souboru jej ověřte pomocí testeru robots.txt.
- Pokud zablokuji procházení stránky Googlem pomocí pravidla robots.txt disallow, zmizí stránka z výsledků vyhledávání?
Zablokování procházení stránky společností Google pravděpodobně povede k odstranění stránky z indexu Google.
Zakázání robots.txt však nezaručuje, že se stránka nebude zobrazovat ve výsledcích: Google může na základě externích informací, jako jsou příchozí odkazy, stále rozhodnout, že je relevantní, a adresu URL ve výsledcích zobrazit. Pokud chcete výslovně zablokovat indexování stránky, použijte metaznačku noindex robots nebo hlavičku HTTP X-Robots-Tag. V tomto případě nezakázat stránku v souboru robots.txt, protože stránka musí být procházena, aby se tag zobrazil a byl dodržen.
- Za jak dlouho se změny v souboru robots.txt projeví na výsledcích vyhledávání?
Nejprve je třeba obnovit mezipaměť souboru robots.txt (obvykle obsah ukládáme do mezipaměti až na jeden den). Tento proces můžete urychlit odesláním aktualizovaného souboru robots.txt společnosti Google. I po zjištění změny je procházení a indexování složitý proces, který může u jednotlivých adres URL někdy trvat poměrně dlouho, takže není možné uvést přesný časový harmonogram. Mějte také na paměti, že i když váš soubor robots.txt zakazuje přístup k adrese URL, může tato adresa URL zůstat viditelná ve výsledcích vyhledávání navzdory tomu, že ji nemůžeme procházet. Pokud chcete urychlit odstranění stránek, které jste zablokovali, ze služby Google, odešlete žádost o odstranění.
- Jak mohu dočasně pozastavit veškeré procházení svých webových stránek?
Dočasně můžete pozastavit veškeré prohledávání vrácením stavového kódu 503 (služba není dostupná) HTTP pro všechny adresy URL, včetně souboru robots.txt. Soubor robots.txt se bude pravidelně opakovat, dokud nebude opět přístupný. Nedoporučujeme měnit soubor robots.txt tak, aby zakazoval procházení.
- Můj server nerozlišuje velká a malá písmena. Jak mohu procházení některých složek zcela zakázat?
Pravidla v souboru robots.txt rozlišují malá a velká písmena. V tomto případě doporučujeme zajistit, aby byla indexována pouze jedna verze adresy URL pomocí metod kanonizace. Díky tomu budete mít v souboru robots.txt méně řádků, takže se vám bude lépe spravovat. Pokud to není možné, doporučujeme uvést běžné kombinace názvu složky nebo jej co nejvíce zkrátit a místo celého názvu použít pouze prvních několik znaků. Například místo výpisu všech permutací /MyPrivateFolder s velkými a malými písmeny můžete vypsat permutace /MyP (pokud jste si jisti, že neexistují žádné jiné, procházené adresy URL s těmito prvními znaky). Alternativně může mít smysl použít místo toho metaznačku robots nebo hlavičku X-Robots-Tag HTTP, pokud procházení není problém.
- Vracím 403 Forbidden pro všechny adresy URL, včetně souboru robots.txt. Proč je web stále procházen?
Stavový kód 403 Forbidden HTTP, stejně jako další stavové kódy 4xx HTTP, je interpretován tak, že soubor robots.txt neexistuje. To znamená, že procházení obecně předpokládá, že může procházet všechny adresy URL webu. Aby bylo možné zablokovat procházení webových stránek, musí být soubor robots.txt vrácen se stavovým kódem 200 OK HTTP a musí obsahovat příslušné pravidlo disallow.
Otázky k metaznačce robots
- Nahrazuje meta tag robots soubor robots.txt?
Ne. Soubor robots.txt kontroluje, které stránky jsou přístupné. Metaznačka robots pak kontroluje, zda je stránka indexována, ale aby se tato značka zobrazila, musí být stránka procházena. Pokud je procházení stránky problematické (například pokud stránka způsobuje vysokou zátěž serveru), použijte soubor robots.txt. Pokud jde pouze o to, zda se stránka zobrazí ve výsledcích vyhledávání, můžete použít metaznačku robots.
- Lze metaznačku robots použít k zablokování části stránky před indexací?
Ne, metaznačka robots je nastavení na úrovni stránky.
- Mohu použít metaznačku robots mimo sekci <head>?
Ne, metaznačka robots musí být v sekci <head> stránky.
- Znemožňuje metaznačka robots procházení?
Ne. I když je v tagu robots meta aktuálně napsáno noindex, budeme muset danou adresu URL občas znovu prohledat a zkontrolovat, zda se tag robots meta nezměnil.
- Jak se metaznačka robots nofollow srovnává s atributem odkazu rel=”nofollow”?
Metaznačka nofollow robots se vztahuje na všechny odkazy na stránce. Atribut odkazu rel=”nofollow” se vztahuje pouze na konkrétní odkazy na stránce. Další informace o atributu odkazu rel=”nofollow” naleznete v naší dokumentaci k uživatelskému spamu a atributu rel=”nofollow”.
Otázky k hlavičce HTTP X-Robots-Tag
- Jak mohu zkontrolovat značku X-Robots-Tag pro adresu URL?
Jednoduchým způsobem, jak zobrazit hlavičky serveru, je použít funkci nástroje pro kontrolu URL v konzole Google Search Console. Chcete-li zkontrolovat hlavičky odpovědi libovolné adresy URL, zkuste vyhledat “server header checker”.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Robots.txt Introduction and Guide | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/intro
- Create and Submit a robots.txt File | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt
- Submit Updated Robots.txt to Google | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/submit-updated-robots-txt
- How Google Interprets the robots.txt Specification | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt
- What is Robots.txt? | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/robots-faq