robots.txt | WebČesky.cz

Soubor robots.txt je velice důležitou komponentou ve vztahu k robotům vyhledávačů. Každý crawler při indexaci nejdříve hledá v kořenovém adresáři web site právě tento soubor, pokud ho nalezne, zjistí z něj svá práva týkající se indexace obsahu. Soubor robots.txt je obyčejný textový, veřejně přes HTTP dostupný, soubor, který musí mít název napsaný malými písmeny. V jeho obsahu jsou roboti nazýváni User-Agent a omezující práva se přidělují pomocí Disallow. Soubor robots.txt by měl být na webu i v případě, že nechce provozovatel webu nic crawlerům zakazovat, mohla by totiž nastat chyba s indexací, pokud není definována chybová stránka 404.

Obsah robots.txt, který povoluje procházet celý web je následující:

User-agent: *
Disallow:

Hvězdička nahrazuje libovolný řetězec (resp. vyhledávač) a nedědí se, proto následující cílené příkazy ovlivní konkrétního robota. Pro konec adresy lze použít znak dolaru ($).

Názvy robotů významných vyhledávačů

Google – Googlebot
Seznam – SeznamBot
Bing – MSNBot
Jyxo – Jyxobot
Yahoo! – Slurp
Fulltext.czin.eu – Speedy

Soubor robots.txt by mohl vypadat například takto:

User-agent: *
Disallow: /sem-nesmi/
Disallow: /toto-ne

User-agent: WebStripper
Disallow: /

V tomto případě všichni crawleři nesmí indexovat obsah adresáře „/sem-nesmi/“ a soubory či adresáře, které začínají na „toto-ne“, kromě toho robot WebStripper nesmí indexovat a procházet web vůbec.

Názvy robotů významných vyhledávačů

Autorem je Tomáš Martínek