Co jsou web crawleři
Web crawler je specializovaný bot pracující s webem za účelem jeho indexace. Prochází jednotlivé stránky a zaznamenává slova, která na daném webu našel. Na základě těchto slov pak vyhledavač odpovídá na uživatelské dotazy stránkami, na kterých daná slova našel. Crawleři procházejí weby opakovaně, a to kvůli zaznamenání změn, které na stránkách proběhly.
Které stránky projdou
Návštěva crawlera na webu je pro každý web jiná. Nejčastěji má na to bot sotva několik vteřin, které mu v případech mini webů stačí. U objemnějších stránek už tomu ale být nemusí. Právě proto nikdy nemáte jistotu, co vlastně crawler zaindexuje a co ne. Reakcí na tuto skutečnost je vyjmutí stránek z měření. Tedy některé stránky se crawlerům jednoduše nezpřístupní. Zjistit, které stránky jsou a nejsou crawlerům přístupné, můžeme v dokumentu robot.txt, který patří k našemu webu.
Je dobré také vědět, že weby s vyšší organickou dopravou na webu, stejně jako technickou optimalizací stránek, mohou získat více než pouhé jednotky vteřin.
Které vyjmout z měření
Jak jsme si výše řekli, vyjmutí některých stránek z měření, je efektivním řešením pro optimalizaci práce crawlera na našem webu. Jaké stránky mu tedy zpřístupnit a které ne? Nejednoduší metodou je rozdělit stránky na ty, které jsou klíčové a které nejsou. Tedy stránka, která kupříkladu prezentuje Váš produkt nebo službu, je pro Vás klíčová, proto ten web přeci máte. Na druhou stranu stránka o obchodních podmínkách nebo GDPR už pro Vás klíčová není. Obě jsou důležité, ale rozhodně to nebude něco, podle čeho by uživatelé Váš produkt/službu hledali.
Crawleři pro různé vyhledavače mají různá jména, nejčastěji se pravděpodobně setkáte s Googlebotem, Seznambotem či Bingbotem.
Další metody
Rozšířením tohoto tématu je téma kanonických odkazů. Na toto téma pro Vás máme také článek: Co je kanonizace.