Soubor robots.txt je velice důležitou komponentou ve vztahu k robotům vyhledávačů. Každý crawler při indexaci nejdříve hledá v kořenovém adresáři web site právě tento soubor, pokud ho nalezne, zjistí z něj svá práva týkající se indexace obsahu. Soubor robots.txt je obyčejný textový, veřejně přes HTTP dostupný, soubor, který musí mít název napsaný malými písmeny. V jeho obsahu jsou roboti nazýváni User-Agent a omezující práva se přidělují pomocí Disallow. Soubor robots.txt by měl být na webu i v případě, že nechce provozovatel webu nic crawlerům zakazovat, mohla by totiž nastat chyba s indexací, pokud není definována chybová stránka 404.
Obsah robots.txt, který povoluje procházet celý web je následující:
User-agent: * Disallow:
Hvězdička nahrazuje libovolný řetězec (resp. vyhledávač) a nedědí se, proto následující cílené příkazy ovlivní konkrétního robota. Pro konec adresy lze použít znak dolaru ($).
Názvy robotů významných vyhledávačů
- Google – Googlebot
- Seznam – SeznamBot
- Bing – MSNBot
- Jyxo – Jyxobot
- Yahoo! – Slurp
- Fulltext.czin.eu – Speedy
Soubor robots.txt by mohl vypadat například takto:
User-agent: * Disallow: /sem-nesmi/ Disallow: /toto-ne User-agent: WebStripper Disallow: /
V tomto případě všichni crawleři nesmí indexovat obsah adresáře „/sem-nesmi/“ a soubory či adresáře, které začínají na „toto-ne“, kromě toho robot WebStripper nesmí indexovat a procházet web vůbec.