Robots.txt

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Suchmaschinen-Bots und KI-Crawler instruiert, welche Bereiche der Website sie besuchen dürfen und welche nicht. Sie dient primär der Steuerung des Crawl-Budgets und dem Schutz sensibler Bereiche.

Wie die robots.txt funktioniert

Die Datei verwendet einfache Befehle, um Bots (User-Agents) den Zugriff auf bestimmte Verzeichnisse oder Dateien zu erlauben (Allow) oder zu verbieten (Disallow). Die robots.txt ist ein mächtiges Werkzeug zur technischen Feinsteuerung.

Wichtige Anwendungsbereiche

  • Schutz vor Müll-Content: Ausschluss von temporären Dateien, Admin-Bereichen oder Skript-Ordnern, die für die Suchmaschine irrelevant sind.
  • Crawl-Budget-Optimierung: Indem wir unwichtige Bereiche ausschließen, konzentrieren wir die Energie des Crawlers auf die Seiten, die wirklich Traffic generieren.
  • Schutz sensibler Daten: Verstecken von internen Datenbank-Dateien oder vorläufigen Staging-Umgebungen.

GEO-Relevanz: Schutz vor KI-Halluzinationen

In der Ära der Generative Engine Optimization (GEO) ist die robots.txt wichtig, um zu steuern, welche Inhalte eine KI lesen darf. Wenn Sie nicht möchten, dass Ihre internen Dokumente oder unfertigen Inhalte in KI-Antworten auftauchen, müssen Sie diese per robots.txt (oder per „noindex“) für die entsprechenden Bots sperren. Eine gut gepflegte robots.txt stellt sicher, dass nur Ihre hochwertigsten Inhalte als Basis für KI-Empfehlungen dienen.

Experten-Tipp von DMA

Ein häufiger Fehler: Das Blockieren von CSS- oder JavaScript-Dateien in der robots.txt. Da moderne Suchmaschinen und KIs Ihre Seite wie ein Browser rendern müssen, um den Inhalt zu verstehen, sollten diese Dateien immer für Bots freigegeben bleiben. Blockieren Sie diese, wird Ihre Seite für Google oder KIs unter Umständen „zerstört“ dargestellt.

Häufige Fragen zur robots.txt

Ist die robots.txt eine Sicherheitsmaßnahme?

Nur bedingt. Die Datei ist öffentlich einsehbar. Sie hält Suchmaschinen davon ab, sensible Seiten zu crawlen, aber sie schützt diese Seiten nicht vor direktem Aufruf. Für sensible Daten nutzen Sie immer einen Passwortschutz oder eine serverseitige Sperre.

Wie teste ich, ob meine robots.txt korrekt ist?

Google bietet im „robots.txt Tester“ innerhalb der Search Console die Möglichkeit, Pfade zu prüfen. Jede Änderung sollte vor dem Live-Gang immer erst dort validiert werden, um versehentliche Sperren der gesamten Website zu vermeiden.