robots.txt

Soubor robots.txt je velice důležitou komponentou ve vztahu k robotům vyhledávačů. Každý crawler při indexaci nejdříve hledá v kořenovém adresáři web site právě tento soubor, pokud ho nalezne, zjistí z něj svá práva týkající se indexace obsahu. Soubor robots.txt je obyčejný textový, veřejně přes HTTP dostupný, soubor, který musí mít název napsaný malými písmeny. V jeho obsahu jsou roboti nazýváni User-Agent a omezující práva se přidělují pomocí Disallow. Soubor robots.txt by měl být na webu i v případě, že nechce provozovatel webu nic crawlerům zakazovat, mohla by totiž nastat chyba s indexací, pokud není definována chybová stránka 404.

Obsah robots.txt, který povoluje procházet celý web je následující:

User-agent: *
Disallow:

Hvězdička nahrazuje libovolný řetězec (resp. vyhledávač) a nedědí se, proto následující cílené příkazy ovlivní konkrétního robota. Pro konec adresy lze použít znak dolaru ($).

Názvy robotů významných vyhledávačů

Soubor robots.txt by mohl vypadat například takto:

User-agent: *
Disallow: /sem-nesmi/
Disallow: /toto-ne

User-agent: WebStripper
Disallow: /

V tomto případě všichni crawleři nesmí indexovat obsah adresáře „/sem-nesmi/“ a soubory či adresáře, které začínají na „toto-ne“, kromě toho robot WebStripper nesmí indexovat a procházet web vůbec.

Autorem je

Autor je hlavním administrátorem a zároveň provozovatelem internetové společnosti WebČesky.cz a celého jejího portfolia. V současné době je také lektorem na Katedře informačního inženýrství, PEF, ČZU v Praze.