Co je robots.txt

Robots.txt je soubor v textovém formátu, který udává vyhledávačům informace o indexaci na Vašich webových stránkách. Určuje botům / crawlerům vyhledávačů omezení či určení přístupů na Vašich stránkách.

Co je bot / crawler: Jedná se o roboty, které využívají vyhledávače k procházení webových prezentací a jejich obsahu. Na základě tohoto procházení poté upravují indexy vyhledávání a doplňují informace do vyhledávání.

Soubor se vytváří v běžném textovém formátu .TXT a lze jej tedy vytvořit v jakémkoli textovém editoru. Jedná se o první soubor, který na Vašem webu bot navštíví. Pokud tento soubor neexistuje, pokračuje bot k procházení veškerých podstránek Vaší webové prezentace.
Robots.txt se nejčastěji využívá k omezení přístupu na jednotlivé stránky, ať už z důvodu nevyžádaného zaindexování nebo například, že se jedná o citlivou stránku jako je administrace systémů.


Struktura robots.txt

User-agent: Tento údaj je uváděn na prvním řádku. Můžete v něm definovat pro koho jsou omezení určena. Seznam používaných User-agents.
Disallow: Jedná se o relativní cestu ke stránce, kam nechcete aby měl User-agent přístup.
Allow: Tímto příkazem můžete povolit přístup User-agenta například na podstránku, i když její nadřazená stránka má přístup omezen.
Sitemap: Zde můžete uvést cestu k Vaší Sitemapě, aby ji robot našel co nejrychleji.


Příklady robots.txt

User-agent: * 
Disallow:
Na příkladu výše vidíte jeden z nejčastějších zápisů v robots.txt. Znamená to že všichni boti / agenti (značeno *) mají přístup do všech stránek.

User-agent: * 
Disallow: /
Zde se jedná o pravý opak předešlého případu. Tímto zápisem dochází k zakázání přístupu botů na všechny stránky.

User-agent: Googlebot 
Disallow: /administration/
Tento zápis určuje omezení pouze pro bota vyhledávače Google. V tomto případě nesmí do stránek s URL adresou /administration/.


Jak ověřit funkčnost robots.txt

Pokud potřebujete otestovat funkčnost Vašeho zápisu v souboru robots.txt, je možné využít testovací nástroj od společnosti Google.
Pro funkčnost tohoto nástroje je potřeba mít doménu přidánu do Google Search Console. Doménu do nástroje můžete přidat takto - Přidání Google Search Console pomocí DNS záznamu u domény.