Après la conception d'un site on essaye par tous les moyens que ses pages soit bien référencées. Cependant il y a certaines pages que l'on aimerait pas retrouver sur un moteur de recherche. Cela peut-être des pages confidentielles, des pages sensibles (pages d'administrations, de statistiques ...).
Pour empêcher que les moteurs n'aspirent ces pages il faut utiliser un fichier appelé robots.txt.
Ce fichier va indiquer au spider du moteur de recherche ce qu'il est ou n'est pas autorisé à faire.
Il ne doit y avoir qu'un seul fichier robots.txt et il doit se trouver sous à la racine du site. Son nom doit toujours être écrit en minuscules.
La structure d'un fichier robots.txt est la suivante :
User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html
Dans cet exemple :
User-agent: * signifie que l'accès est accordé à tous les spiders.
Disallow: /statistiques/ cette directive interdit aux spiders d'explorer le répertoire statistiques
Disallow: /cgi-bin/ cette directive interdit aux spiders d'explorer le répertoire statistiques cgi-bin
Disallow: /administration.html cette directive interdit aux spiders d'indexer le fichier administration.html
On doit créer une ligne pour chaque répertoire où fichier à interdire.
Disallow permet donc d'indiquer que tout ce qui débute par l'expression indiquée ne doit pas être indexé par les spiders.
Donc dans l'exemple suivant : Disallow: /paye
Cela interdira l'indexation de http::/www.destrucsaweb.com/paye/index.htm, mais il faut faire attention car http://www.destrucsaweb.com/paye.html ne sera pas non plus indexé, car les deux commencent par paye.
Par contre avec : Disallow: /paye/
http::/www.destrucsaweb.com/paye/index.htm ne sera pas indexé, mais http://www.destrucsaweb.com/paye.html oui
- Les lignes commençant par # sont des commentaires.
- Le fichiers robots.txt ne doit pas contenir de lignes blanches.
- Il est possible d'interdire ou d'autoriser l'accès de certaines pages à un moteur (spider) spécifique.
Pour cela dans User-agent: Ă la place de * mettre le nom du spider.
User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html
# on n'interdit pas au spider de google l'accès au répertoire statistiques
User-agent: googlebot
Disallow: /cgi-bin/
Disallow: /administration.html
Il faut bien faire attention Ă la syntaxe du fichier robots.txt, sinon il ne sera pas pris en compte.
Voici un vérificateur de fichier robots.txt http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
Note : Il est faut préciser que tous les spiders ne reconnaissent pas bien les fichiers robots.txt et donc ils les ignorent. Il est donc préférable de mettre une protection par mot de passe (.htpasswd).

