Question 1

Was ist robots.txt?

Accepted Answer

Robots.txt ist eine Klartextdatei, die im Stammverzeichnis einer Website abgelegt wird und konformen Web-Crawlern mitteilt, welche Pfade sie abrufen sollen oder nicht. Das Format ist durch das Robots Exclusion Protocol definiert, das 2022 als IETF RFC 9309 standardisiert wurde. Jede Gruppe von Regeln beginnt mit einer oder mehreren User-Agent-Zeilen, gefolgt von Allow- und Disallow-Direktiven, und optionale Sitemap-Zeilen können überall in der Datei erscheinen.

Question 2

Wo platziere ich robots.txt?

Accepted Answer

Im Dokumentenstamm jedes Hosts ablegen, sodass sie unter https://deinedomain.de/robots.txt erreichbar ist. Eine Datei in einem Unterverzeichnis wie /site/robots.txt wird ignoriert. Jede Subdomain wird als eigener Host behandelt, sodass blog.beispiel.de eine eigene robots.txt benötigt, die sich von www.beispiel.de unterscheidet. Protokoll und Port spielen auch eine Rolle - HTTPS und HTTP sind für Crawl-Zwecke unterschiedliche Origins.

Question 3

Verhindert robots.txt das Erscheinen von Seiten in Google?

Accepted Answer

Nein. robots.txt verhindert das Crawlen, nicht das Indexieren. Google kann eine URL immer noch indexieren, für deren Crawlen es nicht berechtigt ist, wenn es die URL durch externe Links entdeckt, und zeigt dann eine bloße Auflistung ohne Snippet an. Um eine Seite vollständig aus den Suchergebnissen herauszuhalten, das Crawlen erlauben und ein -Tag oder einen X-Robots-Tag: noindex-HTTP-Header hinzufügen.

Question 4

Was ist der Unterschied zwischen Crawlen und Indexieren?

Accepted Answer

Crawlen ist der Vorgang, eine URL und ihre Ressourcen abzurufen. Indexieren ist der Vorgang, den gescrapten Inhalt in einer durchsuchbaren Datenbank zu speichern, damit er für Anfragen gerankt werden kann. robots.txt steuert nur das Crawlen. Eine Seite kann indexiert werden, ohne gecrawlt zu werden (über externe Links), oder gecrawlt werden, ohne indexiert zu werden (über noindex). Die Verwechslung beider ist der häufigste robots.txt-Fehler.

Question 5

Sollte ich CSS und JavaScript in robots.txt sperren?

Accepted Answer

Nein. Google hat seit 2015 erklärt, dass es Seiten wie ein moderner Browser rendert und CSS-, JS- und Bild-Assets abrufen muss, um Layout, Mobilfreundlichkeit und Core Web Vitals zu verstehen. Das Sperren von /wp-content/, /static/ oder CDN-Pfaden kann dazu führen, dass Google eine defekte Seite sieht und sie in Rankings zurückstuft. Asset-Verzeichnisse crawlbar lassen und noindex auf den einzelnen HTML-Seiten verwenden, die versteckt werden sollen.

Question 6

Kann ich mehrere User-Agent-Regeln haben?

Accepted Answer

Ja. Eine robots.txt-Datei kann beliebig viele User-Agent-Gruppen enthalten. Ein Crawler liest die gesamte Datei, wählt die einzelne Gruppe aus, deren User-Agent-Zeile am spezifischsten seinen Namen entspricht, und ignoriert die anderen - einschließlich der *-Wildcard-Gruppe, wenn eine spezifischere Übereinstimmung existiert. Das bedeutet: Sobald User-agent: Googlebot hinzugefügt wird, befolgt Google nur diesen Block und erbt keine Regeln aus dem *-Block; also alle gemeinsamen Regeln innerhalb der spezifischen Gruppe wiederholen.

Question 7

Was macht die Allow-Direktive?

Accepted Answer

Allow ist eine Ausnahme für ein breiteres Disallow. Wenn der Pfad in Allow spezifischer als der Pfad in einem übereinstimmenden Disallow ist, darf der Crawler diese URL abrufen. Dies ist der Standardweg, um eine einzelne Datei oder einen Unterordner innerhalb eines anderweitig gesperrten Bereichs zu öffnen. Nicht alle Crawler respektieren Allow (die ursprüngliche Spezifikation von 1994 enthielt es nicht), aber Googlebot, Bingbot und die meisten modernen Bots tun es.

Question 8

Funktioniert Crawl-delay für Googlebot?

Accepted Answer

Nein. Googlebot hat die Crawl-delay-Direktive nie implementiert. Sie wird von Bing, Yahoo und Yandex als Mindestzahl von Sekunden zwischen Abrufen respektiert. Um Googlebot zu verlangsamen, die Crawl-Rate-Einstellung in der Google Search Console für die betroffene Property verwenden, oder HTTP 503-Antworten während vorübergehender Überlastung zurückgeben und Google wird automatisch nachlassen.

Question 9

Was passiert, wenn robots.txt einen Fehler zurückgibt oder fehlt?

Accepted Answer

Eine fehlende Datei (HTTP 404) wird als "keine Einschränkungen" behandelt - Crawler gehen davon aus, dass die gesamte Website offen ist. Ein dauerhafter Server-Fehler (HTTP 5xx) wird von Google für die Dauer des Fehlers als "vollständig nicht erlaubt" behandelt, sodass ein falsch konfigurierter Server, der 503 auf die robots.txt-Anfrage zurückgibt, versehentlich eine Website de-indexieren kann. Sicherstellen, dass die Datei eine saubere 200 zurückgibt.

Robots.txt-Generator

Den Robots.txt-Generator verwenden

Über das Robots Exclusion Protocol

Beispiele

Wie Pfad-Matching tatsächlich funktioniert

Ein gearbeitetes Beispiel und typische Fehler

Wann eine robots.txt-Datei verwendet werden sollte

Häufig gestellte Fragen

Verwandte Tools

Mehr SEO & Web Tools

Google SERP Preview

Heading Structure Analyzer

Hreflang Tag Generator

Keyword Density Checker

Meta Tag Generator

Open Graph Preview