Was ist die Datei Robots.txt?
Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Webseite. Sie gibt Suchmaschinen-Crawlern (auch Bots oder Spider genannt) Anweisungen, welche Bereiche der Webseite sie nicht crawlen oder indexieren sollen. Sie ist ein grundlegendes Werkzeug zur Steuerung des Crawler-Verhaltens.
Der Weichensteller für Web-Crawler: Die Robots.txt im Detail
Die robots.txt ist eine einfache Textdatei, die immer unter dem Pfad deinedomain.de/robots.txt im Root-Verzeichnis Deiner Webseite liegen muss, damit Suchmaschinen-Bots sie finden und berücksichtigen können. Ihre Syntax ist standardisiert und besteht aus Anweisungen, die sich an bestimmte oder alle Crawler richten.
Die wichtigsten Befehle in einer robots.txt sind:
User-agent: Definiert, für welchen spezifischen Crawler (z.B. Googlebot, Bingbot) die nachfolgenden Regeln gelten. Ein Sternchen (*) als Wert bedeutet, dass die Regeln für alle Crawler gelten, sofern keine spezifischeren Regeln für einen bestimmten Bot vorhanden sind.
Disallow: Gibt an, welche Verzeichnisse oder Dateien der jeweilige User-Agent nicht besuchen (crawlen) soll. Ein leerer Disallow:-Eintrag bedeutet, dass alles erlaubt ist. Ein Disallow: / würde die gesamte Seite für den spezifizierten Bot sperren.
Allow: Erlaubt explizit den Zugriff auf ein Unterverzeichnis oder eine Datei innerhalb eines eigentlich per Disallow: gesperrten Verzeichnisses. Dieser Befehl wird nicht von allen Crawlern gleich interpretiert, Googlebot versteht ihn jedoch.
Sitemap: Kann verwendet werden, um den Speicherort einer oder mehrerer XML-Sitemaps anzugeben. Dies hilft Crawlern, alle wichtigen URLs Deiner Webseite leichter zu finden.
Ein einfaches Beispiel für eine robots.txt:
Generated code
User-agent: *
Disallow: /privat/
Disallow: /tmp/
User-agent: Googlebot
Allow: /privat/unterseite-fuer-google.html
Sitemap: https://www.deinedomain.de/sitemap.xml
In diesem Beispiel dürfen alle Bots die Verzeichnisse /privat/ und /tmp/ nicht crawlen. Für den Googlebot gibt es jedoch eine Ausnahme: Er darf die spezifische Datei /privat/unterseite-fuer-google.html besuchen. Zusätzlich wird auf die Sitemap hingewiesen.
Sinn und Zweck der Robots.txt
Die robots.txt erfüllt mehrere wichtige Funktionen:
Schutz sensibler Bereiche: Du kannst verhindern, dass Crawler auf nicht-öffentliche Bereiche, Testumgebungen, interne Suchergebnisseiten oder Verzeichnisse mit vertraulichen Dateien zugreifen.
Vermeidung von Duplicate Content: Indem Du den Zugriff auf URLs mit identischem oder sehr ähnlichem Inhalt (z.B. Druckversionen von Seiten, URLs mit Session-IDs) blockierst, kannst Du Problemen mit doppeltem Inhalt vorbeugen.
Schonung des Crawl-Budgets: Jede Webseite hat ein begrenztes "Crawl-Budget" – die Ressourcen, die Suchmaschinen für das Crawlen Deiner Seite aufwenden. Indem Du unwichtige Bereiche ausschließt, lenkst Du die Crawler auf Deine relevanten Inhalte und sorgst für eine effizientere Indexierung.
Verhinderung der Indexierung bestimmter Dateitypen: Du kannst beispielsweise das Crawlen von PDF-Dateien oder bestimmten Bildverzeichnissen unterbinden, wenn diese nicht in den Suchergebnissen erscheinen sollen.
Steuerung des Zugriffs für spezifische Bots: Du kannst unterschiedliche Regeln für verschiedene Suchmaschinen-Crawler oder andere Bots (z.B. Backlink-Checker, Werbe-Bots) festlegen.
Wichtig: Die robots.txt ist eine Richtlinie, kein Zwang. Seriöse Crawler wie die von Google oder Bing halten sich in der Regel an die Anweisungen. Böswillige Bots oder Spam-Crawler ignorieren sie jedoch oft. Daher ist die robots.txt kein geeignetes Mittel, um Inhalte wirklich sicher vor unbefugtem Zugriff zu schützen – dafür sind serverseitige Maßnahmen wie Passwortschutz notwendig.
Außerdem verhindert Disallow nicht zwangsläufig die Indexierung einer Seite. Wenn eine per robots.txt gesperrte Seite von anderen Webseiten verlinkt wird, kann Google sie trotzdem indexieren (allerdings ohne den Inhalt gecrawlt zu haben). Möchtest Du eine Seite zuverlässig aus dem Index fernhalten, solltest Du das Meta-Tag noindex im HTML-Header der betreffenden Seite verwenden.
Warum Deine Website nicht ihr volles Potenzial entfaltet
Deine Website ist online, doch sie liefert nicht die gewünschten Ergebnisse? Ohne gezielte Optimierung bleibt sie hinter den Erwartungen zurück, während Wettbewerber ihre Sichtbarkeit kontinuierlich ausbauen.
Die Kunst der richtigen Verwendung: So setzt Du die Robots.txt effektiv ein
Bei der Erstellung und Pflege Deiner robots.txt solltest Du sorgfältig vorgehen:
Korrekte Platzierung: Die Datei muss robots.txt heißen (alles klein geschrieben) und im Hauptverzeichnis (Root-Verzeichnis) Deiner Domain liegen.
Syntax beachten: Fehler in der Syntax können dazu führen, dass die Datei ignoriert wird oder unerwünschte Effekte hat. Jeder User-agent-Block sollte von Disallow- oder Allow-Anweisungen gefolgt werden.
Teste Deine robots.txt: Nutze Tools wie den robots.txt-Tester in der Google Search Console, um zu überprüfen, ob Deine Regeln wie beabsichtigt funktionieren und keine wichtigen Seiten blockiert werden.
Sperre nicht versehentlich wichtige Inhalte: Ein falscher Schrägstrich oder ein Tippfehler kann dazu führen, dass Deine gesamte Seite oder wichtige Teile davon für Crawler blockiert werden.
Sei spezifisch, wo nötig: Nutze spezifische Pfadangaben, um genau die gewünschten Bereiche zu sperren oder freizugeben.
Nutze Kommentare (mit #): Du kannst Kommentare hinzufügen, um Deine robots.txt für Dich oder andere verständlicher zu machen.
Verweise auf Deine XML-Sitemap(s): Dies ist eine bewährte Methode, um Suchmaschinen das Auffinden Deiner wichtigen URLs zu erleichtern.
Häufige Fehler im Umgang mit der Robots.txt
Fehlerhafte Syntax: Führt oft dazu, dass die gesamte Datei ignoriert wird.
Falsche Platzierung der Datei: Sie muss im Root-Verzeichnis liegen.
Versehentliches Blockieren wichtiger Inhalte oder der gesamten Seite.
Annahme, robots.txt sei ein Sicherheitsmechanismus: Sie schützt nicht vor böswilligen Bots oder direktem Zugriff.
Verwechslung von Disallow mit noindex: Disallow blockiert das Crawlen, noindex die Indexierung.
Auf den Punkt gebracht:
Die robots.txt-Datei ist ein kleines, aber mächtiges Werkzeug, um das Verhalten von Suchmaschinen-Crawlern auf Deiner Webseite zu steuern. Sie hilft Dir, sensible Bereiche zu schützen, Duplicate Content zu vermeiden und Dein Crawl-Budget effizient zu nutzen. Eine korrekt konfigurierte und regelmäßig überprüfte robots.txt ist ein wichtiger Bestandteil einer soliden technischen SEO-Strategie. Denke jedoch daran, dass sie eine Richtlinie für kooperative Bots darstellt und kein Allheilmittel für Sicherheit oder die Indexierungssteuerung ist – hierfür sind oft zusätzliche Maßnahmen wie noindex-Tags oder serverseitiger Schutz erforderlich.