robots.txt ki crawler — Drei Bot-Kategorien Training, Search und User-Action mit Entscheidungs-Matrix für Schweizer Websites

robots.txt für KI-Crawler: 14 Bots, 4 Vorlagen, 1 Entscheidungs-Matrix

robots.txt KI-Crawler steuern bedeutet 2026 deutlich mehr als «GPTBot blockieren» und fertig. Hinter diesem Satz versteckt sich eine Drei-Klassen-Entscheidung: Welche Bots crawlen für KI-Trainings? Welche indexieren für KI-Suche? Und welche handeln direkt im Auftrag von Nutzern? Wer diese drei Kategorien verwechselt, blockiert im schlimmsten Fall die Bots, die für Zitierungen in ChatGPT, Claude und Perplexity sorgen — und lässt genau die durch, die Inhalte als Trainingsdaten verwerten. Dieser Beitrag liefert die Tabelle aller 14 relevanten Bots mit User-Agent-Strings, eine Entscheidungs-Matrix nach Schweizer Geschäftstypen und 4 einsatzbereite robots.txt-Vorlagen.

14
relevante KI-Bots aktiv dokumentiert (Juni 2026)
4,4×
bessere Conversion von KI-Search-Traffic vs. klassisch organisch
2
Bots, die robots.txt dokumentiert ignorieren (Bytespider, Perplexity-User)
3
Bot-Kategorien, die völlig verschiedene Regeln verlangen

Training, Search oder User-Action — die drei Klassen, die alles entscheiden

Die meisten robots.txt-Ratgeber behandeln KI-Crawler als homogene Gruppe. Das ist das Grundproblem. Tatsächlich gibt es drei funktional verschiedene Typen, die mit denselben Zugangsentscheidungen grundlegend unterschiedliche Konsequenzen haben.

Training-Crawler sammeln systematisch Webinhalte, um damit Sprachmodelle zu trainieren. Sie laufen in Wellen, oft als Batch mit mehreren hundert Seiten pro Tag. Wer diese Bots blockiert, sagt: «Meine Inhalte dürfen nicht als Trainingsgrundlage verwendet werden.» Das ist ein legitimes Opt-out — und für Unternehmen mit proprietärem Content, Beratungswissen oder vertraulichen Fachinhalten durchaus sinnvoll. Zu dieser Gruppe gehören GPTBot, ClaudeBot, CCBot, Google-Extended, Applebot-Extended, Meta-ExternalAgent und Amazonbot.

Such-Crawler indexieren Inhalte, um sie für Antworten in KI-gestützten Suchsystemen nutzbar zu machen — also für ChatGPT Search, Perplexity, Claude und ähnliche Angebote. Wer diese Bots blockiert, sagt: «Ich möchte in KI-Antworten nicht zitiert werden.» Für die grosse Mehrheit der Schweizer KMU ist das kontraproduktiv. Hierzu gehören OAI-SearchBot, PerplexityBot und DuckAssistBot.

User-Action-Bots greifen auf eine Seite zu, wenn ein Nutzer in einer KI-Anwendung aktiv eine Frage stellt, die eine aktuelle Quelle erfordert. Sie sind kein regelmässiger Crawler, sondern ein Proxy für echte Nutzeranfragen. Diese Kategorie wuchs 2025 um das 15-Fache — von praktisch null auf rund elf Prozent aller KI-Bot-Requests. Zu dieser Gruppe gehören ChatGPT-User, Claude-User und Perplexity-User.

Die praktische Konsequenz: Wer GPTBot blockiert, verhindert Training — behält aber die Sichtbarkeit in ChatGPT Search, solange OAI-SearchBot erlaubt ist. Das ist kein Widerspruch, sondern eine bewusste Trennung, die OpenAI dokumentiert anbietet. Generative Engine Optimization funktioniert nur dann, wenn die Such-Crawler auch tatsächlich crawlen dürfen.

Infografik zeigt drei KI-Bot-Kategorien: Training für Sprachmodelle, Search für KI-Suche und User-Action für Nutzeranfragen
Drei Kategorien, drei Entscheidungen — Training, Search und User-Action verlangen unterschiedliche robots.txt-Direktiven.

Die 14 relevanten KI-Bots: User-Agent-Strings, Typ und Compliance

Die folgende Tabelle listet alle 14 Bots auf, die in Schweizer Logfiles regelmässig auftauchen oder für die GEO-Sichtbarkeit relevant sind. Der User-Agent-String ist exakt so zu verwenden, wie er in der dritten Spalte steht — inklusive Gross- und Kleinschreibung. Bots ohne eigenen Block erben die Regeln von User-agent: *.

#BotBetreiberUser-Agent (robots.txt)Typrobots.txtGEO
1OAI-SearchBotOpenAIOAI-SearchBotSearch✓ JaSehr hoch
2ChatGPT-UserOpenAIChatGPT-UserUser-Action⚠ TeilweiseSehr hoch
3GPTBotOpenAIGPTBotTraining✓ JaHoch*
4PerplexityBotPerplexityPerplexityBotSearch✓ JaSehr hoch
5Perplexity-UserPerplexityPerplexity-UserUser-Action✗ Nein¹Hoch
6Claude-UserAnthropicClaude-UserUser-Action✓ JaHoch
7ClaudeBotAnthropicClaudeBotTraining✓ JaMittel
8DuckAssistBotDuckDuckGoDuckAssistBotSearch✓ JaMittel
9Google-ExtendedGoogleGoogle-ExtendedTraining✓ JaMittel²
10Applebot-ExtendedAppleApplebot-ExtendedTraining✓ JaMittel³
11CCBotCommon CrawlCCBotTraining✓ JaNiedrig
12BytespiderByteDanceBytespiderTraining✗ Nein⁴Niedrig
13Meta-ExternalAgentMetameta-externalagentTraining✓ JaNiedrig
14AmazonbotAmazonAmazonbotTraining✓ JaNiedrig

¹ Perplexity-User gilt laut Perplexity als «Agent, kein Bot» — robots.txt ist nicht zwingend zu respektieren.
² Google-Extended steuert nur Gemini-Training, nicht Google Search oder AI Overviews.
³ Applebot-Extended steuert Apple Intelligence; mit Apple-Silicon-Verbreitung steigt die GEO-Relevanz.
⁴ Bytespider (ByteDance) wurde von Cloudflare und unabhängigen Analysen mit Non-Compliance dokumentiert.
* GPTBot steuert Training; OAI-SearchBot ist der separate Such-Indexer — beide unabhängig konfigurierbar.

Crawl-Aktivität in der Praxis: Was Logfiles bei Schweizer Websites zeigen

Aus Logfile-Auswertungen bei Schweizer Kundensites (Q1 2026, 50–500 Seiten, gemischte Branchen) zeigt sich ein klares Muster: GPTBot und ClaudeBot dominieren nach Seitenanzahl. Bytespider erscheint jedoch auch bei Domains, die einen Disallow: /-Eintrag für diesen User-Agent tragen — ein direktes Indiz für Non-Compliance. ClaudeBot hat zwischen Q3 2025 und Q1 2026 seine Crawl-Rate bei den beobachteten Sites etwa verdoppelt, was Branchenberichten über eine deutliche Skalierung von Anthropics Retrieval-Infrastruktur entspricht.

Ø Crawl-Intensität (Seiten/Tag) nach Bot — Schweizer Websites Q1 2026

Rot = Bytespider, erschien auf Domains trotz explizitem Disallow: /. Grün = Such-Crawler. Blau = Training-Crawler.

CCBot (Common Crawl) taucht in einem anderen Muster auf: nicht täglich, sondern in Bursts von 200 bis 400 Seiten über wenige Tage, dann Wochen Pause. Wer CCBot blockiert, reduziert die Präsenz in Trainingsdaten-Pools, aus denen viele KI-Anbieter ihre Modelle aufbauen — ein Aspekt, der für Content-intensive Schweizer KMU relevant sein kann.

Entscheidungs-Matrix: Welcher Ansatz passt zu welchem Schweizer Geschäftstyp?

Es gibt keine universell richtige Antwort. Die richtige Frage ist: Was hat das Unternehmen zu verlieren — und was zu gewinnen? Die folgende Matrix ordnet die drei Bot-Kategorien den häufigsten Schweizer Geschäftstypen zu. Grün = erlauben, Rot = blockieren, Orange = Einzelfallentscheidung.

GeschäftstypTraining-BotsSuch-BotsUser-ActionVorlage
Lokales KMURestaurant, Coiffeur, Handwerk
✓ ErlaubenZitierbarkeit = Geschäft
✓ Erlauben
✓ Erlauben
Vorlage 1
IT / Agentur / BeratungOhne proprietären Kerninhalt
✓ Erlauben
✓ Erlauben
✓ Erlauben
Vorlage 1
Treuhand / SteuerberatungFach-Know-how, Beratungsexpertise
⚠ AbwägenExpertise schützen vs. Zitierbarkeit
✓ Erlauben
✓ Erlauben
Vorlage 2
Arztpraxis / ZahnarztGesundheitliche Inhalte, DSG-Kontext
⚠ AbwägenSensible Inhalte
✓ Erlauben
✓ Erlauben
Vorlage 2
Anwaltskanzlei / NotariatFachinhalt schützen
✗ Blockieren
✓ Erlauben
✓ Erlauben
Vorlage 3
E-Commerce / OnlineshopPreise, Sortiment, Kundendaten
✗ Blockieren
✓ Erlauben
⚠ SelektivCheckout/Account sperren
Vorlage 3
SaaS / Paid ContentProprietäres IP, geschützte Bereiche
✗ Blockieren
⚠ SelektivNur Marketing-Seiten
✗ BlockierenApp/API/Members
Vorlage 4

Das Schweizerische Datenschutzgesetz (DSG, rev. 1.9.2023) stellt keine direkten Anforderungen daran, welche Bots eine öffentliche Website crawlen dürfen. Wohl aber können robots.txt-Disallow-Direktiven für Training-Bots als technisches Opt-out dokumentiert werden — analog zum EU-Modell nach DSM Art. 4 (EU 2019/790). Für Schweizer Anwaltskanzleien oder Unternehmen, die auch EU-Kunden bedienen, kann diese Dokumentation rechtlich relevant sein.

Wenn robots.txt nicht reicht: Bytespider, Perplexity und die Server-Ebene

robots.txt ist eine höfliche Bitte, kein technischer Mechanismus. Für konforme Bots — OpenAI, Anthropic, Google, Apple, Amazon, DuckDuckGo — funktioniert sie zuverlässig. Für Bytespider und die Stealth-Crawler von Perplexity nicht. Cloudflare hat am 4. August 2025 eine Analyse veröffentlicht, die zeigt, wie Perplexity-Crawler User-Agents, IPs und ASNs rotieren, um Crawl-Beschränkungen zu umgehen. Das Fazit: robots.txt ist bei Perplexity keine verlässliche Verteidigungslinie.

 robots.txt ki crawler blockieren — Server-seitige Verteidigung gegen nicht-konforme KI-Bots wie Bytespider
Für Bytespider und Perplexity-Stealth-Crawler reicht robots.txt allein nicht — WAF-Regeln auf Server-Ebene sind die einzig verlässliche Kontrolle.

Für Schweizer KMU-Websites mit WordPress-Hosting gibt es drei praxisnahe Optionen. Cloudflare Free bietet seit August 2025 die «AI Crawl Control»-Funktion, mit der je Bot Allow, Block oder Charge eingestellt werden kann — auch auf Free-Accounts. .htaccess-Regeln blockieren bekannte User-Agent-Strings auf Apache-Servern zuverlässig, auch wenn der Bot die robots.txt ignoriert. nginx rate limiting schützt gegen aggressive Crawl-Bursts pro User-Agent. OAI-SearchBot, PerplexityBot und ClaudeBot sollten dabei niemals pauschal geblockt werden — das wäre das Äquivalent zu «Googlebot sperren» und eliminiert die KI-Sichtbarkeit vollständig. Mehr dazu, wie Googlebot und KI-Such-Crawler Seiten verarbeiten, erklärt der Beitrag zur Google-Indexierung.

Vier fertige robots.txt-Vorlagen für Schweizer Websites

Alle vier Vorlagen blockieren Bytespider — als einzigen Bot, für den die robots.txt-Direktive nicht zuverlässig greift, dokumentiert sie zumindest den Willen zum Opt-out. Jede Vorlage ist als vollständige robots.txt-Datei gedacht und muss im Website-Root unter /robots.txt erreichbar sein. Hinweis zur Reihenfolge: User-agent: * gilt als Catch-all für alle Bots ohne eigenen Block. Wer einen spezifischen Bot öffnen will, muss ihn in einem eigenen Block mit Allow explizit freischalten.

Vorlage 1 — OffenLokales KMU, Agentur, IT-Dienstleister
# robots.txt Vorlage 1: Offen — seo-partner.ch
# Alle KI-Bots erlaubt; nur nicht-konforme und interne Bereiche blockiert

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /private/
Allow: /

# Bytespider (ByteDance) — non-compliant, explizit sperren
User-agent: Bytespider
Disallow: /

Sitemap: https://www.ihrewebsite.ch/sitemap.xml
Vorlage 2 — Training blockieren, Search erlaubenTreuhand, Arztpraxis, Zahnarzt
# robots.txt Vorlage 2: Selektiv — seo-partner.ch
# Training-Bots gesperrt; Such-Crawler offen für GEO-Sichtbarkeit

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /account/
Disallow: /private/
Allow: /

# Alle Training-Crawler blockieren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

# Such-Crawler explizit erlauben (GEO-Sichtbarkeit erhalten)
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: DuckAssistBot
Allow: /

Sitemap: https://www.ihrewebsite.ch/sitemap.xml
Vorlage 3 — GEO-FokusAnwalt, E-Commerce, Onlineshop
# robots.txt Vorlage 3: GEO-Fokus — seo-partner.ch
# Training blockiert; Such-Bots nur auf öffentliche Bereiche

User-agent: *
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Disallow: /members/
Disallow: /api/
Allow: /

# Alle Training-Crawler blockieren
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: Google-Extended
User-agent: CCBot
User-agent: Applebot-Extended
User-agent: Meta-ExternalAgent
User-agent: Amazonbot
User-agent: Bytespider
Disallow: /

# OAI-SearchBot: öffentliche Seiten ja, transaktionale nein
User-agent: OAI-SearchBot
Disallow: /checkout/
Disallow: /cart/
Disallow: /account/
Allow: /

User-agent: PerplexityBot
Disallow: /checkout/
Disallow: /account/
Allow: /

Sitemap: https://www.ihrewebsite.ch/sitemap.xml
Vorlage 4 — Maximaler SchutzSaaS, Fachmedien, Paid Content
# robots.txt Vorlage 4: Maximaler Schutz — seo-partner.ch
# Alles gesperrt; nur SEO- und KI-Such-Bots explizit auf Marketing-Seiten geöffnet

# Standard: alles sperren
User-agent: *
Disallow: /

# Googlebot und Bingbot: voller Zugriff (SEO-Grundlage)
User-agent: Googlebot
Allow: /
Disallow: /app/
Disallow: /admin/
Disallow: /api/
Disallow: /members/

User-agent: bingbot
Allow: /
Disallow: /app/
Disallow: /admin/
Disallow: /api/
Disallow: /members/

# KI-Such-Bots: nur Marketing-Seiten und Blog
User-agent: OAI-SearchBot
Allow: /blog/
Allow: /ueber-uns/
Allow: /leistungen/
Disallow: /

User-agent: PerplexityBot
Allow: /blog/
Allow: /leistungen/
Disallow: /

Sitemap: https://www.ihrewebsite.ch/sitemap.xml

Wer seinen aktuellen KI-Crawler-Status analysieren lassen möchte — welche Bots aktuell crawlen, ob Bytespider trotz Disallow in den Logs auftaucht — kann eine kostenlose SEO-Analyse anfragen. Weiterführende technische Grundlagen zu Crawling und Indexierung finden sich im Technisches-SEO-Bereich.

KI-Bot-Traffic nach Kategorie: User-Action-Bots wachsen am schnellsten (Q1 2025–Q1 2026)

Training-Bots: 88% → 72% · Such-Bots: 11% → 17% · User-Action-Bots: 1% → 11% (11-faches Wachstum)

Häufige Fragen zu robots.txt und KI-Crawlern

Nicht zwingend — das hängt davon ab, ob OAI-SearchBot erlaubt ist. OpenAI betreibt zwei unabhängige Crawler: GPTBot crawlt für das Training von Sprachmodellen, OAI-SearchBot indexiert für die Suchfunktion in ChatGPT. Wer GPTBot blockiert und OAI-SearchBot erlaubt, verhindert die Nutzung seiner Inhalte als Trainingsdaten — bleibt aber in ChatGPT-Suchantworten auffindbar. Wer irrtümlicherweise auch OAI-SearchBot blockiert, verschwindet aus ChatGPT Search vollständig. Diese Unterscheidung fehlt in den meisten verbreiteten robots.txt-Ratgebern.
Nein. Google-Extended ist ausschliesslich für das Training von Gemini und Vertex AI zuständig. Es hat keinen Einfluss auf Googlebot, Google Search, Google AI Overviews oder andere Suchfunktionen. Googlebot ist der Crawler für die Suchmaschine — ihn zu blockieren wäre der einzige Weg, das Google-Ranking zu gefährden. Google-Extended ist ein separates Token, das Google eingeführt hat, um Websitebetreibern ein Opt-out für Training zu geben, ohne ihre Suchsichtbarkeit zu riskieren.
Für konforme Bots — OpenAI, Anthropic, Google, Apple, Amazon, DuckDuckGo — funktioniert robots.txt zuverlässig. Problematisch sind Bytespider und die Stealth-Crawler von Perplexity. Cloudflare hat im August 2025 dokumentiert, wie Perplexity-Crawler User-Agents, IPs und ASNs rotieren, um Crawl-Beschränkungen zu umgehen. Für diese Bots ist eine serverseitige Regel — via Cloudflare WAF oder .htaccess — die einzig verlässliche Kontrolle. robots.txt bleibt trotzdem sinnvoll: Als Dokumentation des Willen zum Opt-out hat sie auch rechtliche Relevanz.
User-agent: * ist der Catch-all-Block und gilt für jeden Bot ohne eigenen Block. Wenn User-agent: * mit Disallow: / gesetzt ist, sind alle Bots ohne eigenen Block gesperrt — auch OAI-SearchBot, wenn dieser keinen eigenen Allow-Block hat. Das ist der häufigste Konfigurationsfehler. Wer Vorlage 4 (maximaler Schutz) nutzt, muss alle gewünschten Bots danach explizit mit eigenem Block und Allow: / freischalten. Ohne diesen expliziten Block würde der *-Block greifen.
Direkt über Server-Logfiles mit dem Suchstring: GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|PerplexityBot|Google-Extended|CCBot|Bytespider|Meta-ExternalAgent|Applebot|Amazonbot|DuckAssistBot. Tools wie Screaming Frog Log Analyser, Botify oder OnCrawl verarbeiten diese Logs und visualisieren Bot-Verteilungen. Wer keinen Logfile-Zugang hat, kann über Cloudflare Analytics einen ersten Eindruck gewinnen — die Bot-Kategorie «AI Crawlers» wird dort seit 2025 separat ausgewiesen. Die Google Search Console zeigt KI-Bots nicht getrennt von anderen Crawlern.

Zuletzt aktualisiert: Juni 2026. Die KI-Crawler-Landschaft verändert sich schnell — neue Bots kommen hinzu, User-Agent-Strings können sich ändern.

Scroll to Top