SEO1 juin 2026 · 11 min de lecture

Robots.txt et bots IA : la liste complète à jour 2026

Q: Faut-il bloquer GPTBot et ClaudeBot sur son site ?

Cela dépend de votre objectif. GPTBot et ClaudeBot sont des crawlers d'entraînement : les bloquer empêche votre contenu d'alimenter les futurs modèles, sans rien retirer à votre visibilité dans les réponses IA. Pour rester cité dans ChatGPT et Claude, ce sont OAI-SearchBot et Claude-SearchBot qu'il faut autoriser. La plupart des entreprises gagnent à refuser l'entraînement et autoriser la recherche.

Q: Bloquer Google-Extended fait-il perdre des positions sur Google ?

Non. Google-Extended est un signal robots.txt qui contrôle uniquement l'usage de votre contenu pour entraîner Gemini. Le crawler d'indexation reste Googlebot, qui n'est pas affecté. Google confirme officiellement que bloquer Google-Extended n'a aucun impact sur le classement, l'indexation ou l'éligibilité aux AI Overviews. C'est le réglage le plus sûr pour reprendre le contrôle sans risque SEO.

Q: Quelle différence entre GPTBot et OAI-SearchBot ?

GPTBot aspire du contenu pour entraîner les modèles d'OpenAI. OAI-SearchBot construit l'index qui alimente les réponses de ChatGPT Search, avec un lien cliquable vers votre site. Bloquer GPTBot protège votre contenu de l'entraînement ; autoriser OAI-SearchBot vous garde visible dans les réponses. Un troisième agent, ChatGPT-User, se déclenche quand un utilisateur colle votre URL dans ChatGPT.

Q: Comment autoriser ChatGPT et Perplexity à citer mon site ?

Autorisez explicitement les crawlers de recherche : OAI-SearchBot pour ChatGPT, PerplexityBot pour Perplexity, Claude-SearchBot pour Claude. Vérifiez ensuite que votre site est rapide, bien structuré et balisé en données structurées, car ces crawlers indexent en priorité les pages qu'ils peuvent extraire proprement. Le robots.txt ouvre la porte ; le contenu et le schema décident si vous êtes cité.

Q: Robots.txt classique ou Content-Signal : que mettre en 2026 ?

Les deux sont compatibles. Le robots.txt classique (blocs User-agent + Disallow) reste compris par tous les bots. Le Content-Signal (standard contentsignals.org, 2025) ajoute une politique d'usage lisible (search, ai-input, ai-train) dans le même fichier. En pratique, déclarez vos préférences par user-agent pour la compatibilité maximale, et ajoutez les Content-Signals pour les acteurs qui les lisent, comme le fait le robots.txt d'Odyssée.

GPTBot, ClaudeBot, PerplexityBot : la liste à jour des bots IA en 2026, leur rôle réel et le robots.txt prêt à coller pour piloter votre visibilité IA.

Jérémy Wagner

Fondateur · Odyssée

Suivre sur LinkedIn

Robots.txt et bots IA : la liste complète à jour 2026

Pourquoi votre robots.txt décide-t-il de votre présence dans les réponses IA ?

Votre robots.txt est le premier endroit qu'un bot IA consulte avant de décider s'il lit, indexe ou cite votre site. Depuis la plainte du New York Times contre OpenAI déposée le 27 décembre 2023 (couverture CNBC), les grands éditeurs de modèles déclarent respecter ce fichier et publient leurs user-agents pour que vous puissiez les autoriser ou les refuser nommément.

Le volume de ce trafic n'a plus rien d'anecdotique. Selon les données de Cloudflare, le crawl par les bots IA pèse désormais lourd dans la bande passante de n'importe quel site indexé.

80 %

du crawl IA sert à l'entraînement des modèles, 18 % à la recherche, 2 % aux actions utilisateur

Cloudflare, août 2025

20 %

du trafic des bots vérifiés provient désormais des crawlers IA

Cloudflare Radar 2025

×15

croissance du crawl déclenché par une action utilisateur en 2025 (porté par ChatGPT)

Cloudflare Radar 2025

L'enjeu est devenu binaire. Si vos pages ne sont jamais crawlées par les bons agents, vous n'apparaissez pas dans les réponses de ChatGPT Search, de Perplexity ou des AI Overviews. C'est le pendant technique du GEO, la nouvelle discipline d'optimisation pour les moteurs génératifs. Un robots.txt mal réglé peut soit vous exclure des réponses IA, soit livrer tout votre contenu comme dataset d'entraînement gratuit. Les deux extrêmes se règlent dans le même fichier.

Les trois familles de bots IA à ne jamais confondre

Avant de copier une liste de user-agents, comprenez qu'un bot IA n'est pas l'autre. Bloquer le mauvais agent vous coûte de la visibilité sans rien protéger. Trois familles cohabitent, avec des objectifs opposés.

01Pilier 1

Crawlers d'entraînement

Ils aspirent votre contenu pour entraîner les futurs modèles de fondation. C'est ici que se joue la question du dataset gratuit. Exemples : GPTBot, ClaudeBot, CCBot, Bytespider. Les bloquer ne vous fait perdre aucune visibilité immédiate.

02Pilier 2

Crawlers de recherche

Ils construisent l'index qui alimente les réponses citées, avec un lien vers votre site. Exemples : OAI-SearchBot, Claude-SearchBot, PerplexityBot. Ce sont eux qu'il faut autoriser pour exister dans ChatGPT Search et Perplexity.

03Pilier 3

Récupération à la demande

Déclenchés quand un utilisateur colle votre URL ou pose une question précise. Exemples : ChatGPT-User, Claude-User, Perplexity-User. Par conception, ils ignorent souvent le robots.txt car ils sont considérés comme une action humaine, pas un crawl automatique.

La logique stratégique tient en une phrase : vous voulez refuser la famille 1, autoriser la famille 2, et accepter que la famille 3 vous échappe en partie. C'est exactement la nuance que la plupart des robots.txt génériques ratent, en bloquant tout GPTBot d'un côté tout en se demandant pourquoi ils n'apparaissent jamais dans ChatGPT de l'autre. Pour le détail des leviers qui font citer un site, voir notre guide pour apparaître dans ChatGPT Search.

Quels sont les user-agents des bots IA en 2026 ?

Voici les tokens officiels à jour, vérifiés dans la documentation de chaque éditeur en 2026. Chaque ligne précise le rôle réel du bot, pour décider en connaissance de cause.

User-agent	Éditeur	Rôle	Décision type
`GPTBot`	OpenAI	Entraînement des modèles	Refuser
`OAI-SearchBot`	OpenAI	Index de recherche ChatGPT	Autoriser
`ChatGPT-User`	OpenAI	Navigation déclenchée par l'utilisateur	Autoriser
`OAI-AdsBot`	OpenAI	Vérification des landing pages publicitaires	Selon usage
`ClaudeBot`	Anthropic	Collecte web (peut servir à l'entraînement)	Refuser
`Claude-SearchBot`	Anthropic	Index de recherche Claude	Autoriser
`Claude-User`	Anthropic	Accès déclenché par une question utilisateur	Autoriser
`PerplexityBot`	Perplexity	Index pour citations Perplexity	Autoriser
`Perplexity-User`	Perplexity	Visite déclenchée par l'utilisateur	Ignore robots.txt
`Google-Extended`	Google	Opt-out entraînement Gemini / Vertex	Refuser sans risque SEO
`Applebot-Extended`	Apple	Opt-out entraînement Apple Intelligence	Refuser sans risque SEO
`Bytespider`	ByteDance	Entraînement (aucune doc officielle)	Refuser
`Meta-ExternalAgent`	Meta	Collecte / entraînement	Refuser
`CCBot`	Common Crawl	Dataset public réutilisé par les IA	Refuser
`Amazonbot`	Amazon	Index / assistant	Selon usage

Trois précisions évitent les erreurs. D'abord, OpenAI, Anthropic et Perplexity publient leurs plages d'IP officielles (par exemple openai.com/gptbot.json), ce qui permet de vérifier un bot par son IP et pas seulement par un user-agent facile à usurper. Ensuite, l'ancien token anthropic-ai n'apparaît plus dans la documentation officielle Anthropic : il reste utile en blocage par précaution, mais ce n'est plus le token courant. Enfin, du côté de Microsoft, il n'existe pas de crawler Copilot distinct : c'est Bingbot qui sert à la fois l'index Bing et le grounding de Copilot. Vous ne pouvez donc pas bloquer l'IA de Microsoft sans sortir aussi de Bing. Les tokens officiels OpenAI sont détaillés dans la documentation bots d'OpenAI et ceux de Perplexity dans son guide bots.

Comment bloquer Google-Extended et Applebot-Extended sans casser votre SEO ?

Google-Extended n'est pas un crawler qui visite votre site : c'est un signal robots.txt qui dit à Google de ne pas utiliser votre contenu pour entraîner Gemini. Le crawler reste Googlebot, et le bloquer n'a aucun effet sur votre indexation ni votre classement. Google le confirme noir sur blanc dans son annonce sur les contrôles éditeurs : refuser Google-Extended n'affecte ni le ranking, ni l'éligibilité aux AI Overviews.

C'est une distinction qui rassure les dirigeants frileux à l'idée de toucher au robots.txt. Applebot-Extended fonctionne exactement pareil pour Apple Intelligence : le crawler Applebot continue d'indexer pour Siri et Spotlight, seul l'usage d'entraînement est coupé.

Cette mécanique du "search oui, entraînement non" est aussi ce qui rend les données structurées si rentables : un site bien balisé est cité plus souvent par les moteurs IA, comme on le détaille dans notre article sur le schema markup pour les AI Overviews. Le robots.txt ouvre la porte, le schema fait entrer.

Le robots.txt prêt à coller pour 2026

Voici une politique défendable par défaut : rester indexé partout, apparaître dans les réponses IA, refuser l'entraînement. Adaptez les Disallow à votre arborescence et remplacez le domaine du sitemap.

# robots.txt : politique IA 2026
# Objectif : rester indexé (Google, Bing), apparaître dans les
# réponses IA (ChatGPT Search, Perplexity), refuser l'entraînement.

User-agent: *
Allow: /

# --- Recherche IA : on autorise (visibilité GEO) ---
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

# --- Entraînement : on refuse ---
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# --- Opt-out entraînement Google / Apple (sans impact SEO) ---
User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Sitemap: https://votre-domaine.com/sitemap.xml

votre-site.com/robots.txt

robots.txt

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Sitemap: https://votre-site.com/sitemap.xml

Illustration : à quoi ressemble un robots.txt servi en production, avec les directives par famille de bots IA.

Sur le site Odyssée, on va un cran plus loin avec le standard Content-Signal (initiative contentsignals.org, 2025), qui exprime la politique d'usage directement dans le fichier au lieu de la jouer bot par bot. Notre politique est lisible publiquement sur odyssee-agency.com/robots.txt : search=yes, ai-train=no, ai-input=yes. Autrement dit, on accepte d'être indexé et cité comme source, on refuse d'être un jeu de données d'entraînement. Si vous voulez ce réglage sans manipuler de fichier serveur, notre service SEO et GEO cadre la politique bots IA en même temps que le reste de l'audit.

Pourquoi robots.txt ne suffit pas : le cas Perplexity

Le robots.txt est déclaratif, pas un mur technique : il exprime une préférence que rien n'oblige un bot à respecter. L'affaire la plus documentée est celle de Perplexity. En août 2025, Cloudflare a publié des preuves que le moteur basculait sur des crawlers furtifs non déclarés pour contourner les directives no-crawl, en imitant un navigateur Chrome sur macOS et en faisant tourner ses IP. Conséquence : Cloudflare a retiré Perplexity de sa liste de bots vérifiés. Perplexity conteste, mais le signal est clair.

Cette zone grise est aggravée par les bots "action utilisateur" (ChatGPT-User, Perplexity-User), qui ignorent souvent le robots.txt par principe, et par un déséquilibre brutal entre ce que les IA prennent et ce qu'elles renvoient.

38 065:1

pages crawlées par Anthropic pour 1 visiteur humain renvoyé vers le site

Cloudflare, juillet 2025

1 091:1

même ratio crawl / visiteur renvoyé pour OpenAI

Cloudflare, juillet 2025

5,4:1

ratio de Google, à titre de comparaison

Cloudflare, juillet 2025

La réponse 2026 ne se limite donc plus au fichier texte. Cloudflare a déployé son Content Signals Policy sur plus de 3,8 millions de domaines, avec trois signaux standardisés : search, ai-input et ai-train. Pour les acteurs qui ignorent les préférences, la couche suivante est technique : blocage par IP vérifiée, challenge au niveau du CDN, voire pay-per-crawl.

⚠️

Ne traitez jamais votre robots.txt comme une sécurité. Pour protéger réellement du contenu sensible, il faut une authentification ou un blocage réseau. Le robots.txt sert à exprimer une politique claire aux acteurs qui jouent le jeu, et ils sont majoritaires, mais il ne vous protège pas de ceux qui ne la respectent pas.

Questions fréquentes

Faut-il bloquer GPTBot et ClaudeBot sur son site ?

Cela dépend de votre objectif. GPTBot et ClaudeBot sont des crawlers d'entraînement : les bloquer empêche votre contenu d'alimenter les futurs modèles, sans rien retirer à votre visibilité dans les réponses IA. Pour rester cité dans ChatGPT et Claude, ce sont OAI-SearchBot et Claude-SearchBot qu'il faut autoriser. La plupart des entreprises gagnent à refuser l'entraînement et autoriser la recherche.

Bloquer Google-Extended fait-il perdre des positions sur Google ?

Non. Google-Extended est un signal robots.txt qui contrôle uniquement l'usage de votre contenu pour entraîner Gemini. Le crawler d'indexation reste Googlebot, qui n'est pas affecté. Google confirme officiellement que bloquer Google-Extended n'a aucun impact sur le classement, l'indexation ou l'éligibilité aux AI Overviews. C'est le réglage le plus sûr pour reprendre le contrôle sans risque SEO.

Quelle différence entre GPTBot et OAI-SearchBot ?

GPTBot aspire du contenu pour entraîner les modèles d'OpenAI. OAI-SearchBot construit l'index qui alimente les réponses de ChatGPT Search, avec un lien cliquable vers votre site. Bloquer GPTBot protège votre contenu de l'entraînement ; autoriser OAI-SearchBot vous garde visible dans les réponses. Un troisième agent, ChatGPT-User, se déclenche quand un utilisateur colle votre URL dans ChatGPT.

Les bots IA respectent-ils vraiment le robots.txt ?

La majorité oui, surtout les crawlers d'entraînement et de recherche des grands éditeurs, qui publient leurs user-agents et leurs IP. Mais le robots.txt reste déclaratif. En août 2025, Cloudflare a montré que Perplexity utilisait des crawlers furtifs pour contourner les blocages. Et les bots "action utilisateur" ignorent souvent le fichier par conception. Pour un blocage réel, il faut une couche réseau ou une authentification.

Comment autoriser ChatGPT et Perplexity à citer mon site ?

Autorisez explicitement les crawlers de recherche : OAI-SearchBot pour ChatGPT, PerplexityBot pour Perplexity, Claude-SearchBot pour Claude. Vérifiez ensuite que votre site est rapide, bien structuré et balisé en données structurées, car ces crawlers indexent en priorité les pages qu'ils peuvent extraire proprement. Le robots.txt ouvre la porte ; le contenu et le schema décident si vous êtes cité.

Robots.txt classique ou Content-Signal : que mettre en 2026 ?

Les deux sont compatibles. Le robots.txt classique (blocs User-agent + Disallow) reste compris par tous les bots. Le Content-Signal (standard contentsignals.org, 2025) ajoute une politique d'usage lisible (search, ai-input, ai-train) dans le même fichier. En pratique, déclarez vos préférences par user-agent pour la compatibilité maximale, et ajoutez les Content-Signals pour les acteurs qui les lisent, comme le fait le robots.txt d'Odyssée.

PartagerLinkedIn X

#Robots.txt#GEO#Bots IA#ChatGPT#Crawlers

Publié le 1 juin 2026 · Mis à jour le 18 juin 2026

Articles dans la même catégorie

SEO

Apparaître dans ChatGPT Search : le guide pratique 2026

ChatGPT Search dépasse 400M d'utilisateurs hebdo et utilise l'index Bing. 6 leviers concrets pour être cité dans les réponses. À activer en 7 jours.

21 avril 2026·11 min

SEO

GEO en 2026 : pourquoi le SEO change tout (et que faire)

ChatGPT, Perplexity et AI Overviews captent 40% des recherches. Le GEO prend le relais du SEO classique. Voici quoi faire concrètement pour rester visible.

15 avril 2026·13 min

SEO

Schema markup pour les AI Overviews : guide 2026

Sur 730 citations IA analysées, le schema attribute-rich obtient 61,7% vs 41,6% pour le générique. Stack JSON-LD complet, copy-paste, validé.

27 avril 2026·12 min

On échange sur votre projet ?

30 minutes pour cadrer votre besoin et vous dire concrètement ce qu'on ferait à votre place.

Démarrer un projet