Start
/
Website-Hilfe
/
SEO
/
Robots.txt – Was ist das & Best Practices

Robots.txt – Was ist das & Best Practices

SEO ist ein wichtiger Bestandteil des Website-Managements und stellt sicher, dass Ihre Webseiten optimal auf die Suchmaschinen abgestimmt sind. Die robots.txt-Datei ist dabei ein wichtiges Tool, da sie Suchmaschinen-Crawlern zeigt, welche Bereiche Ihrer Website sie untersuchen und indexieren sollen.

Dieser Artikel untersucht die Rolle der robots.txt-Datei in der Suchmaschinenoptimierung und zeigt Best Practices zur Maximierung ihrer Effektivität. Also, lassen Sie uns herausfinden, was die robots.txt-Datei ist und ihr Potenzial freisetzen!

Eine robots.txt-Datei teilt den Crawlern der Suchmaschinen mit, welche Teile einer Website sie crawlen und welche sie ignorieren sollen. Dies hilft dabei, die Serverlast zu verwalten, übermäßige Anfragen zu verhindern und das Crawl-Budget unter Kontrolle zu halten.

Die robots.txt-Datei ist ein grundlegender Bestandteil der technischen SEO und hilft Ihnen dabei:

  • das Crawl-Budget verwalten;
  • Indizierung sensibler Seiten verhindern;
  • und die Effizienz der Website verbessern.

Das Crawl-Budget ist die Anzahl der Seiten, die eine Suchmaschine in einem bestimmten Zeitraum für eine bestimmte Website crawlen kann. Das Crawl-Budget ist keine feste Zahl – es variiert für jede Website je nach Anzahl der Webseiten, Aktualisierungshäufigkeit, Webserver-Einstellungen usw.

Die Datei blockiert jedoch nicht die Anzeige von Seiten in den Google-Suchergebnissen. Websitebesitzer sollten daher ‘noindex’-Anweisungen oder andere Ausschlussmethoden verwenden. Stattdessen erhalten diese blockierten Seiten keine Metabeschreibungen.

Diese TXT-Datei befindet sich im Stammverzeichnis einer Website und folgt dem Robots Exclusion Protocol (REP), das von den meisten Suchmaschinen respektiert wird.

Im Bild unten können Sie sehen, was eine robots.txt normalerweise enthält.

Inhalt einer robots.txt-Datei

Warum ist robots.txt für SEO wichtig?

Suchmaschinen wie Google, Bing und Yahoo setzen Crawler ein, um Webseiten zu indexieren. Allerdings sollten nicht alle Seiten regelmäßig indexiert oder gecrawlt werden. Robots.txt hilft dabei:

  • Crawl-Effizienz zu optimieren
  • Private Inhalte zu schützen
  • Zu verhindern, dass doppelte Seiten das Ranking beeinträchtigen

Obwohl es die Sicherheit nicht erzwingt, fungiert es als Richtlinie für Such-Bots und weist sie an, wie sie Webseiten verarbeiten sollen.

Wenn Googlebot eine Domain zum ersten Mal besucht, sucht es außerdem automatisch unter “https://ihredomain.com/robots.txt” nach der robots.txt-Datei. Es handelt sich also um eine der allerersten Dateien, die die Webcrawler der Suchmaschinen prüfen, wenn sie eine Website besuchen.

Wie überprüfen Sie, ob Ihre Website eine robots.txt-Datei hat?

Um zu überprüfen, ob Ihre Website über eine robots.txt-Datei verfügt, rufen Sie die folgende Adresse in einem Webbrowser auf. Ersetzen Sie ihredomain.com durch den Domänennamen Ihrer Website.

ihredomain.com/robots.txt

Wenn die Datei vorhanden ist, wird ihr Inhalt angezeigt. Andernfalls müssen Sie möglicherweise eine robots.txt-Datei erstellen.

robots.txt in einem Webbrowser

Wie erstellt man eine Robots.txt-Datei und greift darauf zu?

  1. Robots.txt erstellen: Öffnen Sie einen einfachen Texteditor wie Notepad (Windows) oder TextEdit (Mac). Alternativ können SiteGround-Benutzer den Dateimanager verwenden, der in ihren Site Tools bereitgestellt wird. Erstellen Sie eine neue Datei, fügen Sie die Anweisungen hinzu und nennen Sie sie robots.txt. Stellen Sie sicher, dass die Datei als reine Textdatei gespeichert und in UTF-8 kodiert ist.
    Erstellen einer robots.txt-Datei


  2. Robots.txt hochladen: Laden Sie die robots.txt-Datei mit einem FTP-Client oder dem Dateimanager Ihres Hosting-Anbieters in das Stammverzeichnis (public_html/) Ihrer Website hoch. Dadurch ist die Datei unter ihredomain.com/robots.txt erreichbar. Wenn Sie die Datei mit dem Dateimanager Ihres Hosting-Kontos erstellt haben, können Sie diesen Schritt überspringen.
    Hochladen einer robots.txt-Datei mit einem FTP-Client
  3. Testen und Validieren: Um zu bestätigen, dass Ihre robots.txt-Datei korrekt formatiert und zugänglich ist, verwenden Sie den Robots.txt-Tester von Google. Dieses Tool hilft bei der Identifizierung von Fehlern und stellt sicher, dass Suchmaschinen die Datei korrekt verarbeiten.
    robots.txt in der Google Search Console

Robots.txt Syntax & Regeln

Die robots.txt-Datei enthält Regeln, die festlegen, wie verschiedene Suchmaschinen-Crawler mit einer Website interagieren sollen. Zu den gängigsten Anweisungen gehören:

1. User-Agent- und Crawler-Verwaltung

Definiert, für welchen Bot die Regel gilt. Verschiedene Suchmaschinen und Webcrawler haben unterschiedliche Anforderungen. Die Angabe eines User-Agents ermöglicht daher maßgeschneiderte Regeln, die die Leistung der Website optimieren. Wenn Sie beispielsweise nur „Googlebot“ eingeben, gelten die Regeln nur für diesen User-Agent, nicht jedoch für andere User-Agents wie Bingbot.

User-agent: Googlebot

2. Disallow

Diese Regel verhindert, dass Suchmaschinen bestimmte Bereiche einer Website einsehen. Sie ist hilfreich, um Probleme mit doppelten Inhalten zu vermeiden, z. B. um Suchmaschinen daran zu hindern, Kategorieseiten mit Filterparametern zu indexieren. Beispiel:

Disallow: /category-name/?filter=*

Sie können auch das Crawlen eines ganzen Kategorieabschnitts blockieren, wenn dieser für Suchmaschinen nicht relevant ist:

Disallow: /category-name/

Auf diese Weise helfen Sie den Suchmaschinen, sich auf die wichtigsten Seiten Ihrer Website zu konzentrieren und vermeiden, dass Crawl-Budget für unnötige Abschnitte verschwendet wird.

3. Allow

Überschreibt Disallow und ermöglicht Suchmaschinen das Crawlen bestimmter Seiten oder Verzeichnisse, die sonst blockiert wären. Dies ist nützlich, wenn Sie den Zugriff auf den größten Teil eines Abschnitts einschränken, aber gleichzeitig die Indexierung bestimmter wichtiger Dateien zulassen möchten. Beispiel:

Disallow: /private/
Allow: /private/public-file.html

Diese Konfiguration verhindert, dass Suchmaschinen alles im Verzeichnis /private/ mit Ausnahme von public-file.html crawlen. Die korrekte Verwendung der Allow-Direktive trägt dazu bei, ein Gleichgewicht zwischen Datenschutz und Auffindbarkeit zu wahren.

4. Crawl-Verzögerung

Diese Regel begrenzt die Crawling-Häufigkeit. Google unterstützt diese Anweisung nicht, andere Suchmaschinen wie Bing und Yandex tun dies jedoch bereits. Durch die Anpassung der Crawl-Verzögerung können Sie die Serverlast reduzieren, insbesondere bei großen Websites mit häufigen Updates.

Crawl-delay: 10

5. Sitemap-Einbindung

Durch die Integration einer Sitemap in Ihre robots.txt-Datei können Suchmaschinen wichtige Seiten Ihrer Website schneller finden und indexieren. Dies ist besonders nützlich für große Websites mit vielen Seiten, deren Entdeckung andernfalls länger dauern würde.

Obwohl nicht zwingend erforderlich, ist das Hinzufügen einer Sitemap-Anweisung in der robots.txt-Datei eine bewährte Methode, um sicherzustellen, dass Suchmaschinen Ihre Website-Struktur effizient crawlen können. Am besten fügen Sie die XML-Sitemap am Ende der robots.txt-Datei ein.

Sitemap: https://ihredomain.com/sitemap.xml

Best Practices für Robots.txt

1. Das Blockieren wichtiger Seiten vermeiden

Das Blockieren wichtiger Seiten (z. B. /blog/, /services/) kann sich negativ auf das Ranking auswirken, indem es Suchmaschinen daran hindert, wertvolle Inhalte zu indizieren.

Wenn Sie beispielsweise /category-name/ blockieren, werden möglicherweise unbeabsichtigt alle zugehörigen Produkt- oder Artikelseiten ausgeblendet, etwa /category-name/product-1/.
Wenn Sie bestimmte Seiten einschränken müssen, während der Rest sichtbar bleiben soll, sollten Sie einen präziseren Ansatz in Betracht ziehen:

Disallow: /category-name/private-page/

Alternativ kann das Blockieren einer ganzen Kategorie sinnvoll sein, wenn diese minderwertige oder doppelte Inhalte enthält:

Disallow: /category-name/

Durch sorgfältiges Überprüfen, welche Abschnitte blockiert werden sollen, wird sichergestellt, dass wichtige Inhalte indexierbar bleiben, während gleichzeitig die Crawl-Effizienz kontrolliert wird.

2. Das Crawling von doppelten und geringwertigen Seiten verhindern

Um das Crawl-Budget nicht zu verschwenden und die Indexierung unnötiger oder doppelter Seiten in den Suchergebnissen zu verhindern, nutzen Sie die Disallow-Anweisung effektiv. Seiten mit geringem Wert, wie Admin-Bereiche, interne Suchergebnisse und dynamisch generierte URLs, sollten in der Regel blockiert werden. Hier einige Beispiele:

Disallow: /wp-admin/
Disallow: /?s=

3. Wildcards und Mustervergleiche effizient nutzen

Wildcards und Mustervergleiche in der robots.txt-Datei ermöglichen eine flexiblere und präzisere Kontrolle darüber, welche Seiten Suchmaschinen crawlen dürfen und welche nicht. Dies ist besonders nützlich für die Verwaltung dynamisch generierter URLs oder das Blockieren bestimmter Dateitypen.

Wenn Ihre Website beispielsweise URLs mit Filtern generiert, die nicht indiziert werden sollen, können Sie Folgendes verwenden:

Disallow: /*?filter=*

Dadurch wird verhindert, dass Suchmaschinen URLs crawlen, die ?filter= enthalten, unabhängig vom Wert.

Wenn Sie das Crawlen aller PDF-Dateien blockieren möchten, können Sie Folgendes verwenden:

Disallow: /*.pdf$

Das $ am Ende stellt sicher, dass nur URLs blockiert werden, die auf .pdf enden, und nicht alle URLs, die irgendwo in ihrer Struktur .pdf enthalten.

Der strategische Einsatz von Wildcards hilft Ihnen, Ihr Crawl-Budget zu optimieren und gleichzeitig zu verhindern, dass unnötige oder irrelevante Seiten in den Suchergebnissen erscheinen.

4. Sicherstellen, dass Ihre Robots.txt zugänglich ist

Wenn Ihre robots.txt-Datei zugänglich ist, können Webroboter ihre Anweisungen korrekt lesen und befolgen. Eine falsch konfigurierte oder beschädigte robots.txt-Datei kann Suchmaschinen unbeabsichtigt daran hindern, Ihre gesamte Website zu crawlen. Dies kann zu schwerwiegenden SEO-Problemen und potenziellen Traffic-Verlusten führen.

Um dies zu verhindern, stellen Sie sicher, dass die Datei richtig formatiert ist, ordnungsgemäß im Stammverzeichnis abgelegt ist und über ihredomain.com/robots.txt zugänglich ist. Verwenden Sie Tools wie die Google Search Console, um die Datei zu testen und zu validieren und sicherzustellen, dass sie nicht versehentlich wichtige Seiten blockiert oder Syntaxfehler enthält.

5. Robots.txt zur Optimierung des Crawl-Budgets nutzen

Bei großen Websites hilft das Blockieren von Abschnitten mit niedriger Priorität (z. B. Tag-Seiten, Archivseiten) Suchmaschinen, ihre Crawling-Bemühungen auf hochwertige Inhalte zu konzentrieren, wie Produktseiten, Serviceseiten oder Blogbeiträge. Durch die Reduzierung der Anzahl unnötig gecrawlter Seiten stellen Sie sicher, dass Suchmaschinen mehr Zeit mit der Indexierung von Inhalten verbringen, die zum Ranking beitragen.

Wenn eine Website beispielsweise Tausende von Archivseiten enthält, die keinen eindeutigen Wert bieten, kann das Blockieren dieser Seiten mit robots.txt den Suchmaschinen dabei helfen, wichtigere Abschnitte der Website zu priorisieren.

6. Robots.txt nicht zum Schutz sensibler Inhalte verwenden

Verwenden Sie stattdessen noindex-Meta-Tags, die Suchmaschinen explizit anweisen, eine Seite nicht zu indexieren, Crawlern aber dennoch Zugriff darauf gewähren. Dies ist nützlich, um bestimmte Seiten aus den Suchergebnissen auszuschließen, ohne den Benutzerzugriff einzuschränken.

Alternativ können Sie für sensiblere Inhalte eine authentifizierungsbasierte Zugriffskontrolle implementieren, um sicherzustellen, dass nur autorisierte Benutzer die Seite anzeigen können. Dieser Ansatz verhindert, dass Webcrawler auf private oder vertrauliche Inhalte zugreifen.

Fazit

Eine gut optimierte robots.txt-Datei stellt sicher, dass Suchmaschinen Ihre Website effizient crawlen, was die SEO und die Leistung der Website verbessert. Regelmäßiges Überprüfen und Aktualisieren der robots.txt-Datei stellt sicher, dass sie Ihren SEO-Zielen entspricht. Wenn Sie sich bei der Konfiguration unsicher sind, verwenden Sie das Tool zum Testen der robots.txt- der Google Search Console, um kostspielige Fehler zu vermeiden.

Diesen Artikel teilen