Diriger les spiders grâce au fichier robots.txt

Diriger les spiders grâce au fichier robots.txt

Messagede Devorg le Sam 12 Avr 2008 13:30

Après la conception d'un site on essaye par tous les moyens que ses pages soit bien référencées. Cependant il y a certaines pages que l'on aimerait pas retrouver sur un moteur de recherche. Cela peut-être des pages confidentielles, des pages sensibles (pages d'administrations, de statistiques ...).

Pour empêcher que les moteurs n'aspirent ces pages il faut utiliser un fichier appelé robots.txt.
Ce fichier va indiquer au spider du moteur de recherche ce qu'il est ou n'est pas autorisé à faire.

Il ne doit y avoir qu'un seul fichier robots.txt et il doit se trouver sous à la racine du site. Son nom doit toujours être écrit en minuscules.


La structure d'un fichier robots.txt est la suivante :

User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html


Dans cet exemple :

User-agent: * signifie que l'accès est accordé à tous les spiders.
Disallow: /statistiques/ cette directive interdit aux spiders d'explorer le répertoire statistiques
Disallow: /cgi-bin/ cette directive interdit aux spiders d'explorer le répertoire statistiques cgi-bin
Disallow: /administration.html cette directive interdit aux spiders d'indexer le fichier administration.html







On doit créer une ligne pour chaque répertoire où fichier à interdire.
Disallow permet donc d'indiquer que tout ce qui débute par l'expression indiquée ne doit pas être indexé par les spiders.


Donc dans l'exemple suivant : Disallow: /paye

Cela interdira l'indexation de http::/www.destrucsaweb.com/paye/index.htm, mais il faut faire attention car http://www.destrucsaweb.com/paye.html ne sera pas non plus indexé, car les deux commencent par paye.


Par contre avec : Disallow: /paye/

http::/www.destrucsaweb.com/paye/index.htm ne sera pas indexé, mais http://www.destrucsaweb.com/paye.html oui

- Les lignes commençant par # sont des commentaires.
- Le fichiers robots.txt ne doit pas contenir de lignes blanches.
- Il est possible d'interdire ou d'autoriser l'accès de certaines pages à un moteur (spider) spécifique.
Pour cela dans User-agent: Ă  la place de * mettre le nom du spider.


User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html

# on n'interdit pas au spider de google l'accès au répertoire statistiques

User-agent: googlebot
Disallow: /cgi-bin/
Disallow: /administration.html


Il faut bien faire attention Ă  la syntaxe du fichier robots.txt, sinon il ne sera pas pris en compte.

Voici un vérificateur de fichier robots.txt http://www.searchengineworld.com/cgi-bin/robotcheck.cgi


Note : Il est faut préciser que tous les spiders ne reconnaissent pas bien les fichiers robots.txt et donc ils les ignorent. Il est donc préférable de mettre une protection par mot de passe (.htpasswd).
Avatar de l’utilisateur
Devorg
Administrateur
Administrateur
 
Messages: 297
Inscription: Lun 7 Avr 2008 14:07

Retourner vers Techniques et optimisation

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

cron