Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis einer Website, mit der Betreiber Suchmaschinen-Crawlern und anderen automatisierten Programmen mitteilen, welche Bereiche der Website besucht werden dürfen und welche nicht. Sie folgt dem sogenannten Robots Exclusion Protocol, das 1994 als freiwilliger Standard eingeführt wurde und sich seitdem als zentrales Steuerungsinstrument für das Crawling etabliert hat. Wichtig zu verstehen: Die robots.txt ist eine Bitte, kein Befehl. Seriöse Crawler wie Googlebot oder Bingbot halten sich daran, böswillige Bots ignorieren die Datei in der Regel vollständig.
Die robots.txt gehört ausschließlich in das Root-Verzeichnis einer Domain. Für die Beispiel-Domain www.beispiel.de ist sie unter https://www.beispiel.de/robots.txt erreichbar. Andere Speicherorte – etwa in Unterverzeichnissen – werden von Crawlern ignoriert. Jede Domain und jede Subdomain hat ihre eigene robots.txt: shop.beispiel.de braucht eine separate Datei, unabhängig von der Hauptdomain. Crawler rufen die Datei in der Regel ganz am Anfang ihres Besuchs ab, oft mehrmals täglich, da sie als Steuerungsgrundlage für alle weiteren Anfragen dient.
Eine robots.txt besteht aus mehreren Direktiven, die in Blöcken organisiert sind. Jeder Block beginnt mit einer User-agent-Zeile, die festlegt, für welchen Crawler die folgenden Regeln gelten. Darunter folgen Allow- und Disallow-Anweisungen, die einzelne Pfade oder Bereiche freigeben oder sperren. Ein einfaches Beispiel sieht so aus:
User-agent: *
Disallow: /admin/
Disallow: /intern/
Allow: /intern/oeffentlich/
User-agent: Googlebot
Disallow: /test/
Sitemap: https://www.beispiel.de/sitemap.xml
Der erste Block gilt durch das Wildcard-Sternchen für alle Crawler und sperrt zwei Verzeichnisse, gibt aber ein Unterverzeichnis explizit frei. Der zweite Block richtet sich speziell an Googlebot und sperrt ein weiteres Verzeichnis nur für ihn. Die abschließende Sitemap-Zeile teilt Crawlern den Speicherort der XML-Sitemap mit – sehr empfehlenswert, da das den Crawlern hilft, alle relevanten URLs zu finden, auch wenn die robots.txt selbst von verschiedenen Bots unterschiedlich gehandhabt wird.
Ein verbreitetes Missverständnis: Eine über robots.txt gesperrte Seite wird nicht aus dem Google-Index entfernt. Disallow verhindert lediglich, dass der Crawler die Seite besucht – die URL kann trotzdem in den Suchergebnissen erscheinen, etwa wenn andere Seiten darauf verlinken. Google indexiert sie dann ohne den eigentlichen Seiteninhalt, oft mit dem Hinweis „Für diese Seite sind keine Informationen verfügbar".
Wer eine Seite zuverlässig aus dem Index entfernen will, muss den Meta-Tag <meta name="robots" content="noindex"> im HTML-Header der Seite setzen – oder den HTTP-Header X-Robots-Tag: noindex verwenden. Ironischerweise gilt: Damit Google diesen Noindex-Tag überhaupt lesen kann, darf die Seite nicht via robots.txt gesperrt sein. Wer beides kombiniert, blockiert Google daran, den Noindex-Hinweis zu erkennen, mit der Folge, dass die URL trotzdem indexiert bleiben kann.
Diese Unterscheidung zwischen Crawling-Steuerung (robots.txt) und Indexierungs-Steuerung (Meta-Robots-Tag) ist eine der häufigsten Fehlerquellen in der technischen SEO und sollte bei jeder Konfiguration mitgedacht werden.
Mit dem Aufstieg generativer KI-Systeme hat die robots.txt eine neue Bedeutung gewonnen. Anbieter wie OpenAI, Anthropic, Google oder Common Crawl betreiben spezialisierte Crawler, die das Web nicht für klassische Suchmaschinen, sondern für das Training von Large Language Models oder für KI-gestützte Suchfunktionen durchsuchen. Diese Crawler identifizieren sich über eigene User-Agent-Strings und lassen sich über die robots.txt steuern – sofern sie sich an die Konvention halten.
Die wichtigsten KI-Crawler und ihre User-Agents:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Wer nicht möchte, dass eigene Inhalte für KI-Training verwendet werden, kann diese Bots gezielt sperren. Google-Extended ist dabei ein Sonderfall: Das Sperren beeinflusst ausschließlich, ob Google die Inhalte für Bard, Gemini und andere KI-Funktionen verwenden darf – auf das normale Google-Ranking hat es keine Auswirkung. Wer also in Google sichtbar bleiben, aber Trainingsdaten zurückhalten will, kann genau das mit dieser Konfiguration erreichen.
Die robots.txt ist ein kleines, aber mächtiges Instrument – und kleine Tippfehler können große Auswirkungen haben. Der Klassiker ist eine versehentlich live geschaltete Test-robots.txt mit dem Inhalt User-agent: *. Diese Zeile sperrt sämtliche Crawler von der gesamten Website aus – oft Wochen lang unbemerkt, bis der organische Traffic einbricht und jemand nachschaut.
Disallow: /
Weitere typische Fehler sind die Sperrung von CSS- und JavaScript-Verzeichnissen (Google kann die Seite dann nicht mehr korrekt rendern), das Sperren der Sitemap selbst (Google findet die URLs nicht mehr) oder Tippfehler in den Pfadangaben (groß-/kleinschreibung wird in URLs in der Regel berücksichtigt). Auch das nachträgliche Hinzufügen von Disallow-Regeln zu bereits indexierten Bereichen wirkt nicht rückwirkend – die alten URLs bleiben zunächst im Index, werden aber nicht mehr aktualisiert.
Vor jedem Live-Gang sollte die robots.txt getestet werden. Google bietet in der Search Console einen robots.txt-Report, der die Datei automatisch abruft, syntaktisch prüft und bei Fehlern warnt. Zusätzlich lässt sich mit dem URL-Inspektions-Tool prüfen, ob eine konkrete URL gecrawlt werden darf oder durch die robots.txt blockiert wird.
Für eine breitere Prüfung – inklusive Bingbot, Yandex und anderen Crawlern – gibt es externe Tools wie Screaming Frog, Ahrefs, Semrush oder Sitebulb. Diese können nicht nur die aktuelle robots.txt prüfen, sondern auch simulieren, wie verschiedene User-Agents die Website wahrnehmen. Vor größeren Änderungen empfiehlt sich zudem ein Versionsverlauf, etwa über das Web Archive (web.archive.org), das frühere Stände der robots.txt häufig dokumentiert hat.
Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis einer Domain abgelegt wird und Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche der Website besucht werden dürfen und welche nicht. Sie ist der erste Anlaufpunkt für jeden Crawler beim Besuch einer Website und dient als zentrales Steuerungsinstrument für das Crawling. Eingesetzt wird sie vor allem, um sensible oder irrelevante Bereiche (Login-Seiten, interne Suchergebnisse, Test-Verzeichnisse) vom Crawling auszuschließen, das Crawl-Budget auf relevante Inhalte zu konzentrieren oder spezifische Crawler – wie KI-Trainingsbots – gezielt zuzulassen oder zu sperren.
Nein – das ist eines der häufigsten Missverständnisse. Eine Disallow-Regel verhindert das Crawling, nicht aber zwingend die Indexierung. Wenn andere Webseiten auf eine gesperrte URL verlinken, kann Google diese URL trotzdem in den Suchergebnissen anzeigen – allerdings ohne Snippet und mit dem Hinweis, dass keine Inhalte verfügbar sind. Wer eine Seite zuverlässig aus dem Index entfernen will, muss den Meta-Tag <meta name="robots" content="noindex"> oder den HTTP-Header X-Robots-Tag: noindex verwenden. Wichtig dabei: Die Seite darf gleichzeitig nicht via robots.txt gesperrt sein, sonst kann Google den Noindex-Hinweis nicht auslesen.
Die wichtigsten KI-Crawler identifizieren sich über eigene User-Agent-Strings und lassen sich darüber gezielt in der robots.txt steuern. Zu den relevanten User-Agents zählen GPTBot (OpenAI), ClaudeBot und anthropic-ai (Anthropic), CCBot (Common Crawl) sowie Google-Extended (Googles KI-Datensammlung, getrennt vom regulären Googlebot).
Eine vollständige Sperrung sieht so aus:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Wichtig: Diese Maßnahme funktioniert nur bei Crawlern, die sich an die robots.txt-Konvention halten. Seriöse Anbieter tun das in der Regel, doch es gibt keine technische Garantie. Wer Inhalte zuverlässig vor KI-Crawling schützen will, muss zusätzliche Maßnahmen ergreifen – etwa Authentifizierung, Bot-Detection auf Serverebene oder rechtliche Hinweise in den AGB.
Die wichtigsten Direktiven sind User-agent (definiert den Adressaten der Regeln), Disallow (sperrt einen Pfad), Allow (gibt einen Pfad explizit frei, oft als Ausnahme innerhalb eines gesperrten Bereichs) und Sitemap (gibt den Speicherort einer XML-Sitemap an). Wildcards wie * (beliebige Zeichenfolge) und $ (Ende der URL) werden von den meisten großen Crawlern unterstützt, sind aber kein offizieller Bestandteil des ursprünglichen Standards.
Die früher genutzte Crawl-delay-Direktive zur Steuerung der Crawl-Geschwindigkeit wird von Google heute ignoriert; Bing und Yandex berücksichtigen sie noch. Für Google steht stattdessen in der Search Console eine Einstellung zur Crawl-Frequenz zur Verfügung.
Der klassischste und folgenreichste Fehler ist eine versehentlich live geschaltete Test-robots.txt mit User-agent: * und Disallow: /. Diese Konfiguration sperrt sämtliche Crawler von der gesamten Website aus – oft wochen- oder monatelang unbemerkt, bis der organische Traffic spürbar einbricht.
Weitere typische Fehler sind das Sperren von CSS- und JavaScript-Verzeichnissen, was dazu führt, dass Google die Seite nicht mehr korrekt rendern kann und die mobile Optimierung möglicherweise negativ bewertet. Auch Tippfehler in Pfaden – etwa abweichende Groß-/Kleinschreibung – führen häufig dazu, dass Regeln ins Leere greifen.
Vermeiden lässt sich das durch konsequente Tests vor jedem Live-Gang – mit dem robots.txt-Report in der Google Search Console, dem URL-Inspection-Tool oder mit externen Werkzeugen wie Screaming Frog. Versionsverlauf und automatisierte Überwachung der robots.txt helfen zusätzlich, ungewollte Änderungen frühzeitig zu erkennen.
Ja – das ist eine empfohlene Praxis. Die Sitemap-Direktive in der robots.txt teilt allen Crawlern den Speicherort der XML-Sitemap mit, unabhängig davon, ob diese in der Search Console oder den Bing Webmaster Tools eingereicht wurde. Die Syntax ist einfach:
Sitemap: https://www.beispiel.de/sitemap.xml
Mehrere Sitemap-Einträge sind möglich (etwa für Bild-, Video- oder News-Sitemaps) und werden von allen großen Crawlern berücksichtigt. Der Sitemap-Verweis sollte als absolute URL angegeben werden, nicht als relativer Pfad.
Crawler (Spider, Robot): Automatisierte Programme, die Websites systematisch durchsuchen und indexieren – die primären Adressaten der robots.txt.
XML-Sitemap: Eine strukturierte Liste aller relevanten URLs einer Website, die Crawlern als Navigationshilfe dient – idealerweise in der robots.txt verlinkt.
Meta-Robots-Tag: HTML-Tag im Header einer einzelnen Seite, das die Indexierung steuert – das eigentliche Werkzeug, um Seiten aus dem Suchindex auszuschließen.
Crawl-Budget: Die Anzahl an Seiten, die ein Crawler innerhalb eines bestimmten Zeitraums auf einer Website besucht – die robots.txt hilft, dieses Budget auf relevante Inhalte zu konzentrieren.
On-Page-Optimierung: Der Bereich der Suchmaschinenoptimierung, der technische und inhaltliche Maßnahmen auf der eigenen Website umfasst – die robots.txt ist ein klassisches On-Page-Werkzeug.
Indexierung: Der Prozess, durch den Suchmaschinen Webseiten in ihren Suchindex aufnehmen – wichtig zu verstehen, da die robots.txt das Crawling steuert, nicht die Indexierung.
Hier erfahren Sie genau, wie Sie eine robots.txt erstellen.
letzte Aktualisierung: 30. Juni 2026
|
Weiterführende Artikel zu "robots.txt":
|