Při publikování dokumentů a obrázků na webu můžete neúmyslně zveřejnit i jiné informace, než které jsou bezprostředně viditelné lidským okem. Zejména informace, které nemusíte vidět nebo které měly být redigovány (tj. upraveny za účelem zveřejnění), mohou být v některých formátech dokumentů obsaženy a viditelné pro vyhledávače.
Protože vyhledávače indexují veřejný materiál na webu včetně obrázků, mohou obsah, který není kompletně redigován, potenciálně nalézt. Asistenční technologie, jako jsou čtečky obrazovky, mohou tento zdánlivě „skrytý“ obsah učinit snadněji přístupným a běžné techniky porozumění obrázkům, jako je optické rozpoznávání znaků (OCR), podobně umožňují vyhledávání tohoto obsahu.
Přestože vložení textu s malou velikostí písma, použití barvy písma, která je stejná jako barva pozadí, na němž se text nachází, nebo zakrytí textu obrázkem může způsobit, že něco bude pro lidské oko neviditelné, tyto metody ve skutečnosti nevedou ke zveřejnění materiálu takovým způsobem, který by bránil vyhledávačům v jeho indexování.
Podobně některé typy dokumentů obsahují informace různými způsoby, které nejsou okamžitě viditelné. Mohou zahrnovat historii změn dokumentu, což uživatelům umožňuje vidět text, který byl redigován nebo pozměněn. Mohou uchovávat plné verze obrázků, které obsahují ořezané nebo redigované informace. Součástí souboru mohou být také metadata, která nejsou okamžitě viditelná a která mohou uvádět jména osob, které k souboru přistupovaly nebo jej upravovaly.
Všechny tyto informace mohou zůstat zachovány, i když je dokument exportován nebo převeden z jednoho formátu do jiného. Pokud potřebujete informace ze souboru odstranit, je velmi důležité, aby byly ze souboru zcela odstraněny před jeho zveřejněním.
Zde je několik osvědčených postupů, jak vhodně odstranit informace z dokumentů, které nechcete indexovat a učinit zjistitelnými prostřednictvím vyhledávače Google.
Úprava a export obrázků před jejich vložením
Vyhledávač Google zobrazuje seznam obrázků nalezených na webu, a to jak těch, které jsou na webových stránkách, tak těch, které jsou vloženy do různých formátů dokumentů. Vložené obrázky se někdy upravují pouze pomocí nástrojů pro úpravy dokumentu, který je obsahuje. To může způsobit selhání zveřejnění, když je obrázek indexován mimo dokument. Proto je nejlepší upravovat obrázky před jejich vložením do dokumentu, nikoli až po něm. Konkrétně se jedná o následující případy:
- Před vložením obrázků do dokumentů z nich ořízněte nežádoucí informace. Některé nástroje pro úpravu dokumentů (například textové procesory nebo nástroje pro tvorbu prezentací) zachovají všechny neoříznuté obrázky, které použijete ve veřejné verzi dokumentu, proto si důkladně prostudujte dokumentaci k danému nástroji.
- Úplně odstraňte nebo zakryjte jakýkoli text nebo jiné neveřejné části obrázku, protože systémy OCR mohou jakýkoli viditelný text obrázku změnit na text, který lze vyhledávat.
- Odstraňte veškerá nežádoucí metadata.
Po provedení pokynů uvedených v tomto dokumentu exportujte nebo uložte aktualizované obrázky jako nevektorové nebo zploštělé obrazové formáty, například PNG nebo WEBP. Tím zabráníte tomu, aby tyto části obrázků byly neúmyslně zahrnuty do veřejného dokumentu.
Úprava nebo odstranění nežádoucího textu před přesunem do veřejného formátu souboru
Před vygenerováním veřejného dokumentu odstraňte veškerý text, který nechcete zobrazit v konečné verzi souboru. Přejděte na veřejný formát, který nezachovává historii předchozích změn. Zde jsou další konkrétní tipy:
- Pokud je třeba soubor opatřit redigovanými informacemi, použijte vhodné nástroje pro redigování dokumentů. Vyvarujte se například umisťování černých obdélníků přes text, protože to může vést k tomu, že text bude přesto zahrnut do veřejného dokumentu.
- Překontrolujte metadata dokumentu ve veřejném souboru.
- Dodržujte osvědčené postupy pro redigování dokumentů ve formátu, který používáte (PDF, obrázek atd.).
- Zvažte informace v adrese URL nebo v samotném názvu souboru. I když je část webových stránek blokována pomocí robots.txt, adresy URL mohou být indexovány ve vyhledávání (bez svého obsahu). Místo e-mailových adres nebo jmen používejte v parametrech URL hashe.
- Zvažte použití ověřování, abyste omezili přístup k redigovanému obsahu. Nahrajte výslednou přihlašovací stránku s metaznačkou noindex robots, která zablokuje indexování.
- Při publikování se ujistěte, že je web ověřen v Google Search Console. To v případě potřeby umožní rychlé odstranění.
Co dělat, když jsou ve vyhledávání indexovány neredigované nebo nesprávně redigované dokumenty?
- Odeberte živý dokument z webu nebo místa, kde jste jej publikovali.
- Pomocí nástroje Odstranění pro ověřený web odstraňte příslušné dokumenty z vyhledávání. Pokud potřebujete odstranit mnoho dokumentů, použijte předponu URL. U ověřených webů trvá odstranění adresy URL obvykle méně než jeden den. Tím zabráníte tomu, aby se dotyčný dokument zobrazoval při jakémkoli vyhledávání redigovaného obsahu.
- Umístěte správně redigovaný dokument pod jinou adresou URL. Tím zajistíte, že každá nově indexovaná verze bude patřit novému dokumentu, a nikoli starší verzi dokumentu (protože opětovné procházení adres URL a jejich aktualizace v indexu vyhledávání může chvíli trvat). Aktualizujte všechny odkazy na tyto dokumenty.
- Kontaktujte všechny další stránky, které mohou být také hostiteli nesprávně redigovaných dokumentů, a požádejte je, aby je také odstranily. Požádejte je, aby použili nástroj Odstranění ve svém účtu Search Console, nebo můžete použít nástroj Zastaralý obsah a požádat systémy Google o aktualizaci výsledků vyhledávání.
- Nechte žádosti o odstranění adres URL vypršet (k tomu dochází poté, co byly adresy URL buď aktualizovány v indexu vyhledávání Google, nebo přibližně po 6 měsících).
Pokud vás zajímá Google vyhledávání přečtěte si také článek Podrobný průvodce fungováním vyhledávání Google, kde se dozvíte podrobnosti o procházení, indexování i výsledcích vyhledávání.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Keep Redacted Information out of Google | Google Search Central | Documentation | Google for Developers. Google for Developers – from AI and Cloud, to Mobile and Web [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/keep-redacted-information-out
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Kontrola toho, co sdílíte se společností Google
- Odstranění stránky hostované na vašem webu ze služby Google
- Odstranění obrázků hostovaných na vašem webu z výsledků vyhledávání
- Udržujte redigované informace mimo vyhledávání Google
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky