TeckBlaze
← Accueil
Blog

Meta Description

Contenu Duplique

Core Web Vitals

Schema JSON-LD

GEO & IA

Headings H1-H6

robots.txt

Maillage Interne

E-E-A-T

Accessibilite

SEO Technique
Crawl
robots.txt

robots.txt : guide complet pour le SEO

26 fevrier 2026 · 9 min de lecture

Le fichier robots.txt est le premier fichier que les moteurs de recherche consultent lorsqu'ils visitent votre site. Il controle quelles parties de votre site peuvent etre explorees et par quels robots. Un robots.txt mal configure peut bloquer l'indexation de vos pages importantes ou, a l'inverse, exposer des sections sensibles. Ce guide couvre la syntaxe complete, les directives essentielles, la gestion des bots IA et les erreurs les plus frequentes.

Qu'est-ce que le robots.txt ?

Le robots.txt est un fichier texte place a la racine de votre site web (example.com/robots.txt) qui donne des directives aux robots d'exploration (crawlers) des moteurs de recherche. Il utilise le protocole Robots Exclusion Standard, un standard du web depuis 1994. Chaque moteur de recherche respecte ce fichier avant de commencer a explorer votre site.

Le robots.txt n'est pas un mecanisme de securite : il ne bloque pas l'acces aux fichiers, il demande poliment aux robots de ne pas les explorer. Un robot malveillant peut ignorer ces directives. Pour reellement bloquer l'acces, utilisez l'authentification HTTP, un mot de passe ou des regles serveur (htaccess).

L'absence de robots.txt est un probleme detecte par TeckBlaze lors de l'audit site-wide. Sans ce fichier, les moteurs de recherche explorent l'integralite de votre site sans restriction, ce qui peut gaspiller votre budget de crawl sur des pages non importantes (panneau d'administration, pages de test, parametres d'URL).

TeckBlaze analyse le contenu de votre robots.txt et extrait les user-agents, les regles Allow/Disallow, les references Sitemap et les directives specifiques aux bots IA. Le rapport presente ces informations de maniere claire et identifie les problemes potentiels.

Syntaxe du robots.txt

Le robots.txt utilise une syntaxe simple basee sur des paires User-agent / Directive. Chaque bloc commence par un User-agent qui identifie le robot cible, suivi d'une ou plusieurs directives Allow ou Disallow qui specifient les chemins autorises ou interdits. Le caractere * (wildcard) represente tous les robots.

Voici un exemple de robots.txt basique : User-agent: * permet de cibler tous les robots. Disallow: /admin/ interdit l'exploration du dossier admin. Disallow: /api/ interdit les endpoints API. Allow: / autorise le reste du site. Sitemap: https://example.com/sitemap.xml reference le sitemap.

Les regles sont evaluees de la plus specifique a la plus generale. Une regle Allow plus specifique peut surcharger une regle Disallow plus generale. Par exemple, Disallow: /blog/ bloque tout le dossier blog, mais Allow: /blog/important/ autorise l'exploration de ce sous-dossier specifique.

Les commentaires sont precedes du caractere #. Utilisez-les pour documenter vos regles et expliquer pourquoi certaines sections sont bloquees. Cela facilite la maintenance a long terme, surtout dans les equipes ou plusieurs personnes modifient le fichier.

Directives Allow et Disallow

La directive Disallow est la plus utilisee. Elle indique au robot de ne pas explorer les URLs commencant par le chemin specifie. Disallow: /private/ bloque toutes les URLs commencant par /private/. Un Disallow vide (Disallow: ) signifie que tout est autorise — c'est equivalent a ne pas avoir de robots.txt.

La directive Allow est utilisee pour creer des exceptions a des regles Disallow. Elle est particulierement utile quand vous voulez bloquer un repertoire entier sauf certains fichiers specifiques. Par exemple : Disallow: /assets/ suivi de Allow: /assets/images/ bloque tout le dossier assets sauf les images.

Attention aux chemins sensibles a ne pas indexer : les pages d'administration (/admin/, /wp-admin/), les pages de connexion (/login/, /signin/), les resultats de recherche interne (/search?, /recherche?), les pages de tri et filtres (/products?sort=, /produits?filtre=), et les pages de remerciement ou confirmation (/merci, /thank-you).

Ne bloquez jamais vos fichiers CSS et JavaScript avec robots.txt. Google doit pouvoir les charger pour effectuer le rendu de vos pages (rendering). Bloquer ces ressources empeche Google de voir votre page comme les utilisateurs la voient, ce qui peut affecter negativement votre classement.

La directive Sitemap

La directive Sitemap dans le robots.txt indique aux moteurs de recherche l'emplacement de votre fichier sitemap XML. Cette directive est independante des regles User-agent et peut apparaitre n'importe ou dans le fichier. Elle aide les robots a decouvrir toutes vos pages importantes de maniere structuree.

La syntaxe est simple : Sitemap: https://example.com/sitemap.xml. Vous pouvez declarer plusieurs sitemaps si votre site utilise un index de sitemaps ou des sitemaps separes pour differentes sections. Chaque URL de sitemap doit etre absolue (commencer par https://).

TeckBlaze verifie la presence de la directive Sitemap dans votre robots.txt comme partie du score GEO site-level. L'absence de cette directive reduit votre score car les bots IA utilisent le sitemap pour decouvrir votre contenu de maniere exhaustive. C'est un signal simple a ajouter mais souvent oublie.

Gestion des bots IA

Avec l'emergence des moteurs de recherche generatifs, la gestion des bots IA dans votre robots.txt est devenue un enjeu strategique. Les principaux bots IA sont : GPTBot (OpenAI/ChatGPT), ChatGPT-User (OpenAI), ClaudeBot (Anthropic/Claude), anthropic-ai (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google Gemini), Bingbot (Microsoft Copilot), et CCBot (Common Crawl).

Pour autoriser tous les bots IA, assurez-vous que votre robots.txt ne contient pas de Disallow specifique pour ces user-agents. La regle User-agent: * avec Allow: / suffit generalement. Pour bloquer un bot specifique, ajoutez un bloc dedie : User-agent: GPTBot suivi de Disallow: /.

TeckBlaze analyse votre robots.txt et identifie le statut de chaque bot IA individuellement : autorise, bloque ou non mentionne. Le rapport GEO site-level attribue +25 points si aucun bot IA n'est bloque, ce qui represente 25% du score site-level.

La decision de bloquer ou autoriser les bots IA depend de votre strategie business. La plupart des sites beneficient de la visibilite IA. Les sites dont le modele economique repose sur le contenu premium (journaux, recherche payante) peuvent choisir de bloquer certains bots pour proteger leur propriete intellectuelle.

Erreurs frequentes

Bloquer accidentellement le site entier avec Disallow: / sous User-agent: * est l'erreur la plus dangereuse. Elle empeche tous les moteurs de recherche d'explorer votre site, causant une desindexation complete. Verifiez toujours votre robots.txt apres chaque modification.

Utiliser robots.txt pour cacher des pages au lieu de meta noindex est une erreur conceptuelle. Disallow empeche le crawl mais pas l'indexation : si d'autres pages linkent vers une URL bloquee, Google peut quand meme l'indexer (sans contenu). Pour reellement empecher l'indexation, utilisez la balise <meta name="robots" content="noindex">.

Oublier le slash final dans les chemins de dossier peut causer des problemes. Disallow: /admin bloque /admin, /administrator, /admin-tools, etc. Disallow: /admin/ bloque uniquement le dossier /admin/ et son contenu. Soyez precis dans vos chemins.

Ne pas tester le robots.txt apres modification est risque. Utilisez l'outil de test robots.txt de Google Search Console pour verifier que vos regles fonctionnent comme prevu. Testez avec des URLs specifiques pour vous assurer que les pages importantes ne sont pas accidentellement bloquees.

Avoir un robots.txt trop restrictif gaspille le potentiel de crawl de votre site. Bloquez uniquement ce qui est necessaire (admin, API, fichiers prives) et laissez le reste accessible. Plus votre site est ouvert aux crawlers, mieux il sera indexe.

FAQ

Le fichier robots.txt doit etre place exactement a la racine de votre domaine, accessible a l'URL https://votredomaine.com/robots.txt. Il ne peut pas etre dans un sous-dossier ou un sous-domaine different. Chaque sous-domaine (blog.votredomaine.com) doit avoir son propre robots.txt. Le fichier doit etre en texte brut (text/plain) et encode en UTF-8. Pour les sites Next.js, vous pouvez placer le fichier dans le dossier /public/ ou le generer dynamiquement via un route handler.

Pour bloquer un bot specifique, ajoutez un bloc dedie dans votre robots.txt avec le User-agent du bot. Par exemple, pour bloquer GPTBot (le crawler de ChatGPT) : User-agent: GPTBot, Disallow: /. Cela bloque uniquement GPTBot sans affecter les autres robots. Vous pouvez aussi bloquer partiellement : User-agent: GPTBot, Disallow: /private/ bloque uniquement le dossier /private/ pour GPTBot. Les noms de user-agents courants des bots IA sont : GPTBot, ChatGPT-User, ClaudeBot, anthropic-ai, PerplexityBot, Google-Extended, CCBot.

Non, le robots.txt empeche le crawl (l'exploration) mais pas l'indexation. Si d'autres pages contiennent des liens vers une URL bloquee par robots.txt, Google peut quand meme indexer cette URL dans ses resultats, mais sans contenu (car il n'a pas pu la crawler). Pour empecher l'indexation, utilisez la balise meta noindex (<meta name="robots" content="noindex">) ou l'en-tete HTTP X-Robots-Tag: noindex. TeckBlaze detecte les balises noindex et les signale comme un probleme critique car elles empechent completement l'indexation.

Articles lies:

SEO TechniqueGEO / IAGEO & IA
Analysez votre robots.txt avec TeckBlaze