SEO · 11 min de lecture

Robots.txt et bots IA : la liste complète à jour 2026

GPTBot, ClaudeBot, PerplexityBot : la liste à jour des bots IA en 2026, leur rôle réel et le robots.txt prêt à coller pour piloter votre visibilité IA.

Robots.txt et bots IA : la liste complète à jour 2026

Pourquoi votre robots.txt décide de votre présence dans les réponses IA

Votre robots.txt est le premier endroit qu'un bot IA consulte avant de décider s'il lit, indexe ou cite votre site. Depuis la plainte du New York Times contre OpenAI déposée le 27 décembre 2023 (couverture CNBC), les grands éditeurs de modèles déclarent respecter ce fichier et publient leurs user-agents pour que vous puissiez les autoriser ou les refuser nommément.

Le volume de ce trafic n'a plus rien d'anecdotique. Selon les données de Cloudflare, le crawl par les bots IA pèse désormais lourd dans la bande passante de n'importe quel site indexé.

80 %

du crawl IA sert à l'entraînement des modèles, 18 % à la recherche, 2 % aux actions utilisateur

Cloudflare, août 2025

20 %

du trafic des bots vérifiés provient désormais des crawlers IA

Cloudflare Radar 2025

×15

croissance du crawl déclenché par une action utilisateur en 2025 (porté par ChatGPT)

Cloudflare Radar 2025

L'enjeu est devenu binaire. Si vos pages ne sont jamais crawlées par les bons agents, vous n'apparaissez pas dans les réponses de ChatGPT Search, de Perplexity ou des AI Overviews. C'est le pendant technique du GEO, la nouvelle discipline d'optimisation pour les moteurs génératifs. Un robots.txt mal réglé peut soit vous exclure des réponses IA, soit livrer tout votre contenu comme dataset d'entraînement gratuit. Les deux extrêmes se règlent dans le même fichier.

Les trois familles de bots IA à ne jamais confondre

Avant de copier une liste de user-agents, comprenez qu'un bot IA n'est pas l'autre. Bloquer le mauvais agent vous coûte de la visibilité sans rien protéger. Trois familles cohabitent, avec des objectifs opposés.

01Pilier 1

Crawlers d'entraînement

Ils aspirent votre contenu pour entraîner les futurs modèles de fondation. C'est ici que se joue la question du dataset gratuit. Exemples : GPTBot, ClaudeBot, CCBot, Bytespider. Les bloquer ne vous fait perdre aucune visibilité immédiate.
02Pilier 2

Crawlers de recherche

Ils construisent l'index qui alimente les réponses citées, avec un lien vers votre site. Exemples : OAI-SearchBot, Claude-SearchBot, PerplexityBot. Ce sont eux qu'il faut autoriser pour exister dans ChatGPT Search et Perplexity.
03Pilier 3

Récupération à la demande

Déclenchés quand un utilisateur colle votre URL ou pose une question précise. Exemples : ChatGPT-User, Claude-User, Perplexity-User. Par conception, ils ignorent souvent le robots.txt car ils sont considérés comme une action humaine, pas un crawl automatique.

La logique stratégique tient en une phrase : vous voulez refuser la famille 1, autoriser la famille 2, et accepter que la famille 3 vous échappe en partie. C'est exactement la nuance que la plupart des robots.txt génériques ratent, en bloquant tout GPTBot d'un côté tout en se demandant pourquoi ils n'apparaissent jamais dans ChatGPT de l'autre. Pour le détail des leviers qui font citer un site, voir notre guide pour apparaître dans ChatGPT Search.

La liste complète des user-agents IA en 2026

Voici les tokens officiels à jour, vérifiés dans la documentation de chaque éditeur en 2026. Chaque ligne précise le rôle réel du bot, pour décider en connaissance de cause.

User-agentÉditeurRôleDécision type
GPTBotOpenAIEntraînement des modèlesRefuser
OAI-SearchBotOpenAIIndex de recherche ChatGPTAutoriser
ChatGPT-UserOpenAINavigation déclenchée par l'utilisateurAutoriser
OAI-AdsBotOpenAIVérification des landing pages publicitairesSelon usage
ClaudeBotAnthropicCollecte web (peut servir à l'entraînement)Refuser
Claude-SearchBotAnthropicIndex de recherche ClaudeAutoriser
Claude-UserAnthropicAccès déclenché par une question utilisateurAutoriser
PerplexityBotPerplexityIndex pour citations PerplexityAutoriser
Perplexity-UserPerplexityVisite déclenchée par l'utilisateurIgnore robots.txt
Google-ExtendedGoogleOpt-out entraînement Gemini / VertexRefuser sans risque SEO
Applebot-ExtendedAppleOpt-out entraînement Apple IntelligenceRefuser sans risque SEO
BytespiderByteDanceEntraînement (aucune doc officielle)Refuser
Meta-ExternalAgentMetaCollecte / entraînementRefuser
CCBotCommon CrawlDataset public réutilisé par les IARefuser
AmazonbotAmazonIndex / assistantSelon usage

Trois précisions évitent les erreurs. D'abord, OpenAI, Anthropic et Perplexity publient leurs plages d'IP officielles (par exemple openai.com/gptbot.json), ce qui permet de vérifier un bot par son IP et pas seulement par un user-agent facile à usurper. Ensuite, l'ancien token anthropic-ai n'apparaît plus dans la documentation officielle Anthropic : il reste utile en blocage par précaution, mais ce n'est plus le token courant. Enfin, du côté de Microsoft, il n'existe pas de crawler Copilot distinct : c'est Bingbot qui sert à la fois l'index Bing et le grounding de Copilot. Vous ne pouvez donc pas bloquer l'IA de Microsoft sans sortir aussi de Bing. Les tokens officiels OpenAI sont détaillés dans la documentation bots d'OpenAI et ceux de Perplexity dans son guide bots.

Google-Extended et Applebot-Extended : bloquer l'entraînement sans casser votre SEO

Google-Extended n'est pas un crawler qui visite votre site : c'est un signal robots.txt qui dit à Google de ne pas utiliser votre contenu pour entraîner Gemini. Le crawler reste Googlebot, et le bloquer n'a aucun effet sur votre indexation ni votre classement. Google le confirme noir sur blanc dans son annonce sur les contrôles éditeurs : refuser Google-Extended n'affecte ni le ranking, ni l'éligibilité aux AI Overviews.

C'est une distinction qui rassure les dirigeants frileux à l'idée de toucher au robots.txt. Applebot-Extended fonctionne exactement pareil pour Apple Intelligence : le crawler Applebot continue d'indexer pour Siri et Spotlight, seul l'usage d'entraînement est coupé.

Cette mécanique du "search oui, entraînement non" est aussi ce qui rend les données structurées si rentables : un site bien balisé est cité plus souvent par les moteurs IA, comme on le détaille dans notre article sur le schema markup pour les AI Overviews. Le robots.txt ouvre la porte, le schema fait entrer.

Le robots.txt prêt à coller pour 2026

Voici une politique défendable par défaut : rester indexé partout, apparaître dans les réponses IA, refuser l'entraînement. Adaptez les Disallow à votre arborescence et remplacez le domaine du sitemap.

# robots.txt : politique IA 2026
# Objectif : rester indexé (Google, Bing), apparaître dans les
# réponses IA (ChatGPT Search, Perplexity), refuser l'entraînement.

User-agent: *
Allow: /

# --- Recherche IA : on autorise (visibilité GEO) ---
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-SearchBot
Allow: /

# --- Entraînement : on refuse ---
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# --- Opt-out entraînement Google / Apple (sans impact SEO) ---
User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Sur le site Odyssée, on va un cran plus loin avec le standard Content-Signal (initiative contentsignals.org, 2025), qui exprime la politique d'usage directement dans le fichier au lieu de la jouer bot par bot. Notre politique est lisible publiquement sur odyssee-agency.com/robots.txt : search=yes, ai-train=no, ai-input=yes. Autrement dit, on accepte d'être indexé et cité comme source, on refuse d'être un jeu de données d'entraînement. Si vous voulez ce réglage sans manipuler de fichier serveur, notre service SEO et GEO cadre la politique bots IA en même temps que le reste de l'audit.

Pourquoi robots.txt ne suffit pas : le cas Perplexity

Le robots.txt est déclaratif, pas un mur technique : il exprime une préférence que rien n'oblige un bot à respecter. L'affaire la plus documentée est celle de Perplexity. En août 2025, Cloudflare a publié des preuves que le moteur basculait sur des crawlers furtifs non déclarés pour contourner les directives no-crawl, en imitant un navigateur Chrome sur macOS et en faisant tourner ses IP. Conséquence : Cloudflare a retiré Perplexity de sa liste de bots vérifiés. Perplexity conteste, mais le signal est clair.

Cette zone grise est aggravée par les bots "action utilisateur" (ChatGPT-User, Perplexity-User), qui ignorent souvent le robots.txt par principe, et par un déséquilibre brutal entre ce que les IA prennent et ce qu'elles renvoient.

38 065:1

pages crawlées par Anthropic pour 1 visiteur humain renvoyé vers le site

Cloudflare, juillet 2025

1 091:1

même ratio crawl / visiteur renvoyé pour OpenAI

Cloudflare, juillet 2025

5,4:1

ratio de Google, à titre de comparaison

Cloudflare, juillet 2025

La réponse 2026 ne se limite donc plus au fichier texte. Cloudflare a déployé son Content Signals Policy sur plus de 3,8 millions de domaines, avec trois signaux standardisés : search, ai-input et ai-train. Pour les acteurs qui ignorent les préférences, la couche suivante est technique : blocage par IP vérifiée, challenge au niveau du CDN, voire pay-per-crawl.

⚠️

Ne traitez jamais votre robots.txt comme une sécurité. Pour protéger réellement du contenu sensible, il faut une authentification ou un blocage réseau. Le robots.txt sert à exprimer une politique claire aux acteurs qui jouent le jeu, et ils sont majoritaires, mais il ne vous protège pas de ceux qui ne la respectent pas.

Questions fréquentes

Faut-il bloquer GPTBot et ClaudeBot sur son site ?

Cela dépend de votre objectif. GPTBot et ClaudeBot sont des crawlers d'entraînement : les bloquer empêche votre contenu d'alimenter les futurs modèles, sans rien retirer à votre visibilité dans les réponses IA. Pour rester cité dans ChatGPT et Claude, ce sont OAI-SearchBot et Claude-SearchBot qu'il faut autoriser. La plupart des entreprises gagnent à refuser l'entraînement et autoriser la recherche.

Bloquer Google-Extended fait-il perdre des positions sur Google ?

Non. Google-Extended est un signal robots.txt qui contrôle uniquement l'usage de votre contenu pour entraîner Gemini. Le crawler d'indexation reste Googlebot, qui n'est pas affecté. Google confirme officiellement que bloquer Google-Extended n'a aucun impact sur le classement, l'indexation ou l'éligibilité aux AI Overviews. C'est le réglage le plus sûr pour reprendre le contrôle sans risque SEO.

Quelle différence entre GPTBot et OAI-SearchBot ?

GPTBot aspire du contenu pour entraîner les modèles d'OpenAI. OAI-SearchBot construit l'index qui alimente les réponses de ChatGPT Search, avec un lien cliquable vers votre site. Bloquer GPTBot protège votre contenu de l'entraînement ; autoriser OAI-SearchBot vous garde visible dans les réponses. Un troisième agent, ChatGPT-User, se déclenche quand un utilisateur colle votre URL dans ChatGPT.

Les bots IA respectent-ils vraiment le robots.txt ?

La majorité oui, surtout les crawlers d'entraînement et de recherche des grands éditeurs, qui publient leurs user-agents et leurs IP. Mais le robots.txt reste déclaratif. En août 2025, Cloudflare a montré que Perplexity utilisait des crawlers furtifs pour contourner les blocages. Et les bots "action utilisateur" ignorent souvent le fichier par conception. Pour un blocage réel, il faut une couche réseau ou une authentification.

Comment autoriser ChatGPT et Perplexity à citer mon site ?

Autorisez explicitement les crawlers de recherche : OAI-SearchBot pour ChatGPT, PerplexityBot pour Perplexity, Claude-SearchBot pour Claude. Vérifiez ensuite que votre site est rapide, bien structuré et balisé en données structurées, car ces crawlers indexent en priorité les pages qu'ils peuvent extraire proprement. Le robots.txt ouvre la porte ; le contenu et le schema décident si vous êtes cité.

Robots.txt classique ou Content-Signal : que mettre en 2026 ?

Les deux sont compatibles. Le robots.txt classique (blocs User-agent + Disallow) reste compris par tous les bots. Le Content-Signal (standard contentsignals.org, 2025) ajoute une politique d'usage lisible (search, ai-input, ai-train) dans le même fichier. En pratique, déclarez vos préférences par user-agent pour la compatibilité maximale, et ajoutez les Content-Signals pour les acteurs qui les lisent, comme le fait le robots.txt d'Odyssée.

PartagerLinkedInX
#Robots.txt#GEO#Bots IA#ChatGPT#Crawlers

Publié le

On échange sur votre projet ?

30 minutes pour cadrer votre besoin et vous dire concrètement ce qu'on ferait à votre place.

Démarrer un projet
Discuter