Skip to main content

Robots.txt Generator

Generate robots.txt files with user-agent rules, allow/disallow paths and sitemap.

Geprüft von · Zuletzt geprüft

Rule 1
Generated robots.txt
User-agent: *
Disallow:

Den Robots.txt-Generator verwenden

Pro-Crawler-Regeln definieren, Pfade auflisten, die erlaubt oder gesperrt werden sollen, Sitemap anhängen und die generierte Datei direkt in das Stammverzeichnis der Website kopieren. Der gesamte Generator läuft im Browser, sodass keine URL-Muster oder Site-Struktur übertragen werden.

  1. User-Agent wählen - Mit * starten, um Regeln auf jeden Crawler anzuwenden, oder einen benannten Bot wie Googlebot, Bingbot, DuckDuckBot oder GPTBot angeben, wenn Pro-Bot-Verhalten benötigt wird.
  2. Disallow-Pfade hinzufügen - URL-Präfixe auflisten, die Crawlern vorenthalten werden sollen, einen pro Zeile. Ein Pfad von /admin/ sperrt alles unter diesem Ordner; ein bloßes / sperrt die gesamte Website.
  3. Allow-Ausnahmen hinzufügen - Allow-Einträge verwenden, um bestimmte Pfade freizuschalten, die crawlbar bleiben sollen, obwohl ein breiteres Disallow gilt. Allow-Regeln haben Vorrang, wenn sie spezifischer als das übereinstimmende Disallow sind.
  4. Sitemap anhängen - Die absolute URL der sitemap.xml einfügen. Die Sitemap-Direktive ist global, sodass ein einzelner Eintrag für alle User-Agents gilt.
  5. Kopieren oder herunterladen - Den generierten Text kopieren oder die Datei herunterladen, dann in das Stammverzeichnis der Domain hochladen, sodass sie unter https://deinedomain.de/robots.txt erreichbar ist.

Über das Robots Exclusion Protocol

Das Robots Exclusion Protocol (REP) begann als informelle Konvention, die Martijn Koster 1994 vorschlug, nachdem sein eigener Server von einem frühen Web-Crawler überwältigt worden war. Fast drei Jahrzehnte lang blieb es ein De-facto-Standard, und jede wichtige Suchmaschine einigte sich auf das Dateiformat und den Speicherort. Im September 2022 veröffentlichte die IETF RFC 9309, das das Protokoll schließlich standardisierte und die Syntax für User-Agent-Gruppen, Allow- und Disallow-Regeln sowie Pfad-Matching formalisierte.

Robots.txt funktioniert auf Vertrauen - wohlerzogene Crawler lesen die Datei und gehorchen ihren Direktiven, aber es ist kein Zugangskontrollmechanismus. Ein entschlossener Scraper oder ein böswilliger Bot kann die Datei vollständig ignorieren, weshalb sensibles Material durch Authentifizierung oder IP-Einschränkungen geschützt werden muss, nicht durch eine Disallow-Regel.

Die Datei muss als reines UTF-8-Text aus dem Stamm des Hosts bereitgestellt werden, mit einer Maximalgröße von 500 Kibibyte gemäß RFC 9309. Crawler cachen robots.txt in der Regel bis zu 24 Stunden lang, sodass Änderungen bis zu einem Tag brauchen, um bei allen Bots wirksam zu werden.

Beispiele

Eine minimale Datei, die vollständiges Crawlen erlaubt und auf eine Sitemap verweist:

User-agent: *
Disallow:

Sitemap: https://beispiel.de/sitemap.xml

Eine Datei, die den Admin-Bereich und private Uploads für jeden Crawler sperrt, aber Googlebot trotzdem zu einer öffentlichen PDF innerhalb des gesperrten Ordners lässt:

User-agent: *
Disallow: /admin/
Disallow: /uploads/privat/

User-agent: Googlebot Allow: /uploads/privat/whitepaper.pdf Disallow: /uploads/privat/

Sitemap: https://beispiel.de/sitemap.xml

Wie Pfad-Matching tatsächlich funktioniert

Pfade werden als case-sensitive Präfixe gegen den Teil der URL nach dem Host abgeglichen, sodass Disallow: /Admin nicht /admin sperrt, und eine Regel von /blog /blog/, /blog-archiv und /blogroll gleichermaßen erfasst. Nur den Ordner sperren: Disallow: /blog/ mit dem abschließenden Schrägstrich schreiben. Das Sternchen * stimmt mit einem beliebigen Zeichenlauf überein und $ verankert ein URL-Ende, sodass /*?sort= sortierte Duplikate sperrt und /*.css$ Stylesheets wieder erlaubt. Wenn sowohl Allow als auch Disallow übereinstimmen, gewinnt RFC 9309 die Regel mit mehr Pfadzeichen, Gleichstand geht an Allow.

Ein gearbeitetes Beispiel und typische Fehler

Bei WordPress nur /wp-admin/ sperren und gleichzeitig /wp-admin/admin-ajax.php erlauben und /wp-content/ crawlbar lassen, weil es die Assets enthält, die Google zum Rendern der Seite benötigt. Bei einem facettierten Katalog Parameter-URLs sperren, die sich unendlich multiplizieren (/*?farbe=, /*?sortierung=), während saubere kanonische URLs offen bleiben. Drei klassische Fehler: ein übrig gebliebenes Disallow: / aus einem Staging-Build de-indexiert still eine Website; ein öffentliches Disallow bewirbt genau die Datei, die es zu verstecken versucht; und das Sperren einer bereits indexierten Seite friert die veraltete Auflistung ein, weil Google das noindex nicht mehr abrufen kann, das es ablegen würde.

Wann eine robots.txt-Datei verwendet werden sollte

  • Crawl-Budget fokussieren - Bots von unendlichen facettierten Suchanfragen-URLs, internen Suchergebnisseiten oder Archivkalendern fernhalten, die Crawl-Budget verschwenden.
  • Staging- oder Dev-Umgebungen sperren - Verhindern, dass ein Produktionsspiegel indexiert wird, indem ein site-weites Disallow auf diesem Host hinzugefügt wird.
  • KI-Trainingscrawler kontrollieren - Bots wie GPTBot, ClaudeBot, CCBot, Google-Extended oder PerplexityBot sperren, wenn Inhalte nicht für das Modelltraining verwendet werden sollen.
  • Sitemap referenzieren - sitemap.xml bewerben, damit Crawler neue URLs schnell entdecken, auch wenn interne Verlinkung spärlich ist.
  • Aggressive Bots drosseln - Crawl-delay (von Bing und Yandex respektiert, von Google ignoriert) verwenden, um unkritische Crawler auf einem ressourcenbeschränkten Server zu verlangsamen.
  • Duplikat-URLs ausschließen - Tracking-Parameter-URLs oder druckerfreundliche Duplikate sperren, die andernfalls das Crawl-zu-Index-Verhältnis verwässern würden.

Häufig gestellte Fragen

Was ist robots.txt?

Robots.txt ist eine Klartextdatei, die im Stammverzeichnis einer Website abgelegt wird und konformen Web-Crawlern mitteilt, welche Pfade sie abrufen sollen oder nicht. Das Format ist durch das Robots Exclusion Protocol definiert, das 2022 als IETF RFC 9309 standardisiert wurde. Jede Gruppe von Regeln beginnt mit einer oder mehreren User-Agent-Zeilen, gefolgt von Allow- und Disallow-Direktiven, und optionale Sitemap-Zeilen können überall in der Datei erscheinen.

Wo platziere ich robots.txt?

Im Dokumentenstamm jedes Hosts ablegen, sodass sie unter <code>https://deinedomain.de/robots.txt</code> erreichbar ist. Eine Datei in einem Unterverzeichnis wie <code>/site/robots.txt</code> wird ignoriert. Jede Subdomain wird als eigener Host behandelt, sodass <code>blog.beispiel.de</code> eine eigene robots.txt benötigt, die sich von <code>www.beispiel.de</code> unterscheidet. Protokoll und Port spielen auch eine Rolle - HTTPS und HTTP sind für Crawl-Zwecke unterschiedliche Origins.

Verhindert robots.txt das Erscheinen von Seiten in Google?

Nein. robots.txt verhindert das Crawlen, nicht das Indexieren. Google kann eine URL immer noch indexieren, für deren Crawlen es nicht berechtigt ist, wenn es die URL durch externe Links entdeckt, und zeigt dann eine bloße Auflistung ohne Snippet an. Um eine Seite vollständig aus den Suchergebnissen herauszuhalten, das Crawlen erlauben und ein <code>&lt;meta name="robots" content="noindex"&gt;</code>-Tag oder einen <code>X-Robots-Tag: noindex</code>-HTTP-Header hinzufügen.

Was ist der Unterschied zwischen Crawlen und Indexieren?

Crawlen ist der Vorgang, eine URL und ihre Ressourcen abzurufen. Indexieren ist der Vorgang, den gescrapten Inhalt in einer durchsuchbaren Datenbank zu speichern, damit er für Anfragen gerankt werden kann. robots.txt steuert nur das Crawlen. Eine Seite kann indexiert werden, ohne gecrawlt zu werden (über externe Links), oder gecrawlt werden, ohne indexiert zu werden (über <code>noindex</code>). Die Verwechslung beider ist der häufigste robots.txt-Fehler.

Sollte ich CSS und JavaScript in robots.txt sperren?

Nein. Google hat seit 2015 erklärt, dass es Seiten wie ein moderner Browser rendert und CSS-, JS- und Bild-Assets abrufen muss, um Layout, Mobilfreundlichkeit und Core Web Vitals zu verstehen. Das Sperren von <code>/wp-content/</code>, <code>/static/</code> oder CDN-Pfaden kann dazu führen, dass Google eine defekte Seite sieht und sie in Rankings zurückstuft. Asset-Verzeichnisse crawlbar lassen und <code>noindex</code> auf den einzelnen HTML-Seiten verwenden, die versteckt werden sollen.

Kann ich mehrere User-Agent-Regeln haben?

Ja. Eine robots.txt-Datei kann beliebig viele User-Agent-Gruppen enthalten. Ein Crawler liest die gesamte Datei, wählt die einzelne Gruppe aus, deren User-Agent-Zeile am spezifischsten seinen Namen entspricht, und ignoriert die anderen - einschließlich der <code>*</code>-Wildcard-Gruppe, wenn eine spezifischere Übereinstimmung existiert. Das bedeutet: Sobald <code>User-agent: Googlebot</code> hinzugefügt wird, befolgt Google nur diesen Block und erbt keine Regeln aus dem <code>*</code>-Block; also alle gemeinsamen Regeln innerhalb der spezifischen Gruppe wiederholen.

Was macht die Allow-Direktive?

Allow ist eine Ausnahme für ein breiteres Disallow. Wenn der Pfad in Allow spezifischer als der Pfad in einem übereinstimmenden Disallow ist, darf der Crawler diese URL abrufen. Dies ist der Standardweg, um eine einzelne Datei oder einen Unterordner innerhalb eines anderweitig gesperrten Bereichs zu öffnen. Nicht alle Crawler respektieren Allow (die ursprüngliche Spezifikation von 1994 enthielt es nicht), aber Googlebot, Bingbot und die meisten modernen Bots tun es.

Funktioniert Crawl-delay für Googlebot?

Nein. Googlebot hat die <code>Crawl-delay</code>-Direktive nie implementiert. Sie wird von Bing, Yahoo und Yandex als Mindestzahl von Sekunden zwischen Abrufen respektiert. Um Googlebot zu verlangsamen, die Crawl-Rate-Einstellung in der Google Search Console für die betroffene Property verwenden, oder HTTP 503-Antworten während vorübergehender Überlastung zurückgeben und Google wird automatisch nachlassen.

Was passiert, wenn robots.txt einen Fehler zurückgibt oder fehlt?

Eine fehlende Datei (HTTP 404) wird als "keine Einschränkungen" behandelt - Crawler gehen davon aus, dass die gesamte Website offen ist. Ein dauerhafter Server-Fehler (HTTP 5xx) wird von Google für die Dauer des Fehlers als "vollständig nicht erlaubt" behandelt, sodass ein falsch konfigurierter Server, der 503 auf die robots.txt-Anfrage zurückgibt, versehentlich eine Website de-indexieren kann. Sicherstellen, dass die Datei eine saubere 200 zurückgibt.

Mehr SEO & Web Tools