Cet article est aussi disponible en :

Comment utiliser le fichier robots.txt ?

Comment fonctionne un fichier Robots.txt ?

Les fichiers robots.txt indiquent aux robots des moteurs de recherche quelles URL ils peuvent parcourir et, plus important encore, lesquelles ils ne peuvent pas.

Les moteurs de recherche ont deux emplois principaux:

Explorer le Web pour découvrir du contenu
Indexer le contenu pour qu’il puisse être présenté aux internautes à la recherche d’information

Alors qu’ils rampent, les robots des moteurs de recherche découvrent et suivent les liens. Ce processus les mène du site A, au site B, puis au site C, via des milliards de liens et de sites Web.

En arrivant sur n’importe quel site, la première chose qu’un bot fera est de chercher un potentiel fichier robots.txt. S’il en trouve un, il consultera le fichier avant de faire quoi que ce soit d'autre.

Vous pouvez ainsi dicter des règles à suivre pour les bots. La syntaxe du fichier est très simple et directe. Celles-ci indiquent le user-agent (moteur de recherche) auquel elles s'adressent, suivi des directives à suivre.

Vous pouvez également utiliser l’astérisque (*) pour attribuer des directives à tous les moteurs de recherche à la fois. Cela veut dire que la règle s’applique à tous les bots, plutôt qu’à un bot spécifique.

Note : Un fichier robots.txt fournit des instructions, mais il ne peut pas les imposer. Il s'agit simplement d'un code de conduite recommandé. Les bots bien intentionnés (comme les bots d'exploration des moteurs de recherche) suivront les règles dictés. Toutefois, les bots malveillants (comme ceux générant du spam) les ignoreront complètement.

La syntaxe du fichier robots.txt

Un fichier robots.txt est composé de :

Un ou plusieurs blocs de directives;
Chaque bloc désigne un agent-utilisateur (robot de recherche);
Chacun inclut aussi une directive autoriser (allow) ou refuser (disallow) en lien avec le robot en question.

Un bloc ressemble généralement à ceci :

User-agent: Googlebot
Disallow: /not-for-google
User-agent: BingBot
Disallow: /not-for-Bing
Sitemap: https://www.votresiteweb.com/sitemap.xml

La directive utilisateur-agent (User-Agent)

La première ligne de chaque bloc de directives est le segment user-agent, qui identifie le robot d'exploration (crawler) auquel il s’adresse.

Par exemple, si vous voulez indiquer à Googlebot de ne pas parcourir votre page d’administration WordPress, votre directive doit commencer par:

User-agent: Googlebot
Disallow: /wp-admin/

Gardez à l’esprit que la plupart des moteurs de recherche ont plusieurs bots. Ils utilisent différentes robots pour leur index de base, les images, les vidéos, etc.

Les moteurs de recherche obéissent toujours au bloc de directives le plus spécifique qu’ils peuvent trouver.

Prenons un exemple dans lequel vous avez trois ensembles de directives : un pour *, un pour Googlebot, et un pour Googlebot-Image.

Quand l’agent utilisateur Googlebot-News explore votre site, il suivra les directives Googlebot.

D’un autre coté, l’agent utilisateur Googlebot-Image suivra pour sa part les directives plus spécifiques qui lui sont attribuées.

La directive d'interdiction (Disallow)

La deuxième ligne de tout bloc de directives est la ligne indiquant d'autoriser ou interdire l'exploration.

Vous pouvez avoir plusieurs directives d'interdiction à la fois. Chacune spécifie quelles parties de votre site le bot ne peut pas accéder.

Une ligne Disallow vide signifie que vous n’interdisez rien, de sorte qu’un robot peut accéder à toutes les sections de votre site.

Par exemple, si vous vouliez permettre à tous les moteurs de recherche de naviguer tout votre site, votre bloc ressemblerait à ceci :

User-agent: *
Allow: /

D’un autre côté, si vous vouliez empêcher tous les moteurs de recherche d'explorer votre site, votre bloc ressemblerait plutôt à ceci:

User-agent: *
Disallow: /

Les directives comme Allow et Disallow ne prennent pas en compte les majuscules. Par exemple, le répertoire /photo/ est exactement le même que /Photo/ pour les bots.

Toutefois, vous trouverez souvent les directives en majuscules, car cela facilite la lecture du fichier pour les utilisateurs humains.

La directive Autoriser (Allow)

La directive Allow permet aux moteurs de recherche de parcourir un répertoire ou une page spécifique. Et ce, même dans un répertoire autrement interdit.

Par exemple, si vous vouliez empêcher Googlebot d’accéder à chaque post sur votre blog sauf un, votre directive pourrait ressembler à ceci:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/exemple-article

Remarque : Tous les moteurs de recherche ne reconnaissent pas cette commande, mais Google et Bing suivent cette directive.

La Directive Plan du Site (Sitemap)

La directive Sitemap indique aux moteurs de recherche où trouver votre plan de site XML. Les plans incluent généralement les pages que les moteurs de recherche doivent parcourir et indexer.

Vous pouvez trouver cette directive en haut ou en bas d’un fichier robots.txt. Vous pouvez (et devriez) malgré tout soumettre votre plan de site à chaque moteur de recherche en utilisant leurs outils de webmaster. La directive se résume à une simple ligne, ressemblant à ceci:

Sitemap: https://www.votresiteweb.com/sitemap.xml

Les moteurs de recherche vont parcourir votre site par eux-mêmes, mais soumettre un plan du site accélère le processus de recherche.

Si vous voulez pas soumettre votre plan à tous les moteurs, l’ajout d’une directive Sitemap à votre fichier robots.txt est un bon choix d'alternative.

Directive de délai d'exploration (Crawl-Delay)

La directive crawl-delay spécifie un délai d'exploration en secondes. Il est destiné à empêcher les bots de surcharger un serveur et ralentir un site Web.

Malheureusement, Google ne suit plus cette directive à partir du fichier robots.txt. Si vous voulez définir votre délai d'exploration pour Googlebot, vous devrez le faire à partir de la Google Search Console. Bing et Yandex, pour leurs parts, obéissent à la directive crawl-delay.

Voici comment la commande fonctionne. Si vous voulez que tous les bots attendent 15 secondes après chaque action, vous devez régler le délai sur 15, comme ceci :

User-agent: *
Crawl-delay: 15

Directive Noindex

Le fichier robots.txt indique aux bots ce qu’il peuvent explorer ou pas. Il ne peut toutefois pas dire à un moteur de recherche quelles URL ne pas indexer et afficher dans les résultats de recherche.

La page apparaîtra toujours dans les résultats de recherche, mais aucune information à propos de son contenu ne sera associé à l'URL.

Google n’a jamais officiellement soutenu cette directive, mais les professionnels du référencement ont longtemps cru que c'était le cas.

Cependant, en septembre 2019, Google mis fin au doute et clairement indiqué que cette directive n’est pas suivi.

Si vous voulez vraiment exclure une page ou un fichier des résultats de recherche, utilisez plutôt une balise meta noindex.

Mis à jour le : 27/04/2023

Cet article a-t-il répondu à vos questions ?

Merci !