Quelles règles doit-on inclure dans le fichier robots.txt d'un site WordPress ?

Les règles à inclure dans un fichier robots.txt

Le fichier robots.txt sert à définir des règles à respecter pour les robots qui explorent votre site web. Ces directives respectent une syntaxe particulière, permettant d'indiquer quels bots ont le droit d'explorer quels contenus.

Afin d'expliquer comment utiliser les règles, nous regarderons deux fichiers robots.txt différents. Nous expliquerons ensuite ce que chacun indique et ce qu’ils font différemment.

Voici notre premier exemple de fichier robots.txt pour un site WordPress générique incluant un forum:

User-agent: *
Allow: /
# Disallowed sous répertoirs
Disallow: /checkout/
Disallow: /images/
Disallow: /forum/

Comme nous l'avons mentionné, il s’agit d’un fichier robots.txt générique, conçu pour un site web avec un forum. Les moteurs de recherche indexent généralement chaque fil de discussion d'un forum, mais ce n'est pas toujours souhaitable. C'est pourquoi cet exemple exclu la section forum du site, en plus des fichiers images et de la caisse pour les achats.

Ces règles permettront ainsi d'éviter que les moteurs de recherche indexent une foule de petits messages et commentaires. Vous pourriez aussi mettre en place des règles plus spécifiques. Par exemple, vous pouvez indiquer certains sous-forums spécifiques à éviter, et laisser les robots d'exploration parcourir le reste comme ils veulent.

Vous remarquerez également une ligne qui indique allow: / en haut du fichier. Elle indique aux robots qu’ils peuvent parcourir toutes les pages de votre site web, à part les exceptions définies ci-dessous. Vous noterez que la règle est définie comme étant universelles, à cause de l'astérisque défini à la première ligne. Il est possible d'adresser des règles spécifiques pour chaque bot, en définissant leur nom dans le champ User-Agent.

Regardons maintenant un autre exemple de fichier robots.txt, pour un autre site WordPress générique:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: Bingbot
Disallow: /

Ce fichier inclut les mêmes règles que le robots.txt par défaut généré par WordPress. Un nouvel ensemble de règles a toutefois été ajouté pour empêcher le robot de recherche de Bing de se déplacer sur le site. C'est pourquoi une directive distincte est adressée exclusivement à Bingbot, le nom de ce robot.

Les bots ne respectent pas tous les règles du fichier robots.txt

Malheureusement, les bots actifs sur le web ne suivent pas tous les instructions de votre fichier robots.txt. La majorité des robots vont suivre les instructions, mais vous ne les contraignez pas à le faire. Vous ne faites que leur demander gentiment. Certains bots malveillants ou les "scrapers" des développeurs d'IA risquent donc de les ignorer. Pour bloquer ces bots, il vaut mieux utiliser des outils comme le Labyrinthe IA de Cloudflare.

Notez que différentes approches peuvent offrir de très bons résultats, quand vous concevez un fichier robots.txt. Il n'y a donc pas de solution unique, pouvant être utilisée pour tous les sites web.

Par exemple, WordPress bloque par défaut l’accès aux répertoires wp-admin et wp-includes. Ce n’est plus vraiment recommandé. De plus, si vous ajoutez des métadonnées à vos images à des fins de SEO, il n’est pas logique d’interdire aux robots d'accéder cette information.

Ce que vous devez inclure dans votre fichier robots.txt dépend des besoins spécifiques de votre site. On vous invite donc à consulter nos autres tutoriels sur le sujet pour vous aider à déterminer les règles qui vous conviennent.

Mis à jour le : 02/04/2025

Cet article a-t-il répondu à vos questions ?

Merci !