Rob's web

robots.txt

Het Robots Exclusion Protocol, robots exclusion standard of robots.txt protocol, is een conventie om (delen) van een normaal toegankelijke website af te schermen voor bepaalde webspiders en zoekrobots. Dit wordt met name gebruikt om te voorkomen dat (delen van) een website ongevraagd automatisch wordt geïdexeerd en daarmee wordt opgenomen in zoekresultaten van zoekmachines.

Het protocol maakt gebruik van het robots.txt-bestand, dat in de rootdirectory van een website wordt gezet. Als alternatief voor dit speciale bestand kan in bestaande HTML-bestanden middels HTML-tag Meta het attribuut "robots" worden opgenomen.

Die inhoud van het bestand kan er als volgt uit zien:

# /robots.txt

User-Agent: W3C-checklink
Disallow:

User-agent: 008
Disallow: /

User-agent: *
Disallow: /cgi-bin
Disallow: /include
Disallow: /pictures
Disallow: /scripts
Disallow: /usage

Het sterretje achter user-agent betekent alle spiders/crawlers.

User-agent 008 is van 80legs.com en veroorzaakt dubieus verkeer. Dus deze blokkeren we.