Was ist die Datei Robots.txt?
Eine robots.txt Datei ist eine Textdatei, mit der Webroboter (auch Webspider oder Crawler genannt) angewiesen werden, eine Website zu crawlen und zu indizieren.
Die Datei robots.txt ist Teil des Robots-Exclusion-Standards (REP), eines Protokolls mit einem kleinen Satz von Befehlen, die für die Kommunikation mit Web-Robots verwendet werden können.
Am häufigsten wird die Datei robots.txt verwendet, um Webroboter daran zu hindern, eine Website ganz oder teilweise zu indizieren. Dazu werden in der Datei robots.txt eine oder mehrere Verbotsregeln festgelegt. Beispielsweise könnte der Datei robots.txt eine Regel hinzugefügt werden, die Webrobotern die Indizierung des Verzeichnisses /images/ auf einer Website untersagt.
Robots.txt und Sitemap.xml
Im Allgemeinen teilt eine robots.txt-Datei Web-Robotern oder „Spidern“ mit, welche Seiten Ihrer Website sie crawlen und indizieren sollen. Eine sitemap.xml-Datei liefert zusätzliche Informationen über die Struktur Ihrer Website, die für Suchmaschinen sehr hilfreich sein können.
Die beiden Dateien ergänzen sich, müssen aber nicht zusammen verwendet werden. Wenn Sie nur eine robots.txt-Datei haben, ist das völlig in Ordnung. Ebenso ist es in Ordnung, wenn Sie nur eine sitemap.xml-Datei haben. Es kann jedoch von Vorteil sein, beide Dateien zu verwenden, insbesondere wenn Sie eine große Website mit einer komplexen Struktur haben.
Eine robots.txt-Datei wird in der Regel im Stammverzeichnis einer Website abgelegt. Wenn Ihre Website z. B. www.example.com heißt, befindet sich Ihre robots.txt-Datei unter www.example.com/robots.txt.
Eine sitemap.xml Datei kann an beliebiger Stelle auf Ihrer Website platziert werden, befindet sich aber in der Regel ebenfalls im Stammverzeichnis. Wenn Ihre Website zum Beispiel www.example.com heißt, wäre Ihre sitemap.xml-Datei www.example.com/sitemap.xml.
Der Vorteil einer robots.txt-Datei ist, dass Sie angeben können, welche Seiten Ihrer Website nicht gecrawlt und indiziert werden sollen. Dies kann nützlich sein, wenn Sie Seiten mit sensiblen Informationen haben, die nicht in den Suchergebnissen auftauchen sollen.
Der Vorteil einer sitemap.xml-Datei besteht darin, dass Sie den Suchmaschinen zusätzliche Informationen über die Struktur Ihrer Website zur Verfügung stellen können. Dies kann vor allem bei großen Websites sehr hilfreich sein, da die Suchmaschinen so den Inhalt Ihrer Website besser verstehen können.
Im Allgemeinen ist es eine gute Idee, sowohl eine robots.txt-Datei als auch eine sitemap.xml-Datei zu verwenden, wenn Sie eine große Website mit einer komplexen Struktur haben. Auf diese Weise erhalten die Suchmaschinen die meisten Informationen über Ihre Website und können sie besser crawlen und indexieren.
Die Datei robots.txt wird auch verwendet, um den Speicherort der Sitemap für eine Website anzugeben. Die Sitemap ist eine Datei, die eine Liste aller Seiten einer Website enthält. Durch die Angabe der Sitemap in der robots.txt-Datei können Webroboter alle Seiten einer Website leicht finden und indizieren.
Webroboter müssen sich nicht an die in der robots.txt-Datei festgelegten Regeln halten. Die meisten Webroboter unterstützen jedoch den Robots-Ausschlussstandard und befolgen die in der robots.txt-Datei angegebenen Regeln.
Robots.txt Regeln
Die in der Datei robots.txt angegebenen Regeln werden auf alle Webroboter angewendet, die eine Website crawlen. Es ist nicht möglich, Regeln für einen bestimmten Webroboter festzulegen.
Die Datei robots.txt muss im Stammverzeichnis einer Website abgelegt werden. Wenn die URL einer Website beispielsweise http://www.example.com/ lautet, muss sich die robots.txt-Datei unter http://www.example.com/robots.txt befinden.
Die robots.txt-Datei kann mehrere Regeln enthalten. Jede Regel muss in einer eigenen Zeile stehen.
Eine Regel besteht aus zwei Feldern, einem Feldnamen und einem Feldwert. Auf den Feldnamen folgt ein Doppelpunkt (:) und der Feldwert. Zum Beispiel:
User-agent: * Disallow: /
Die obige Regel würde allen Web-Robotern die Indizierung von Seiten auf der Website verwehren.
Es können mehrere Feldwerte für einen Feldnamen angegeben werden, indem die Werte durch ein Komma (,) getrennt werden. Zum Beispiel:
User-agent: * Disallow: /images/, /cgi-bin/
Die obige Regel würde alle Webroboter daran hindern, die Verzeichnisse /images/ und /cgi-bin/ auf der Website zu indizieren.
Eine Regel kann ohne einen Feldwert angegeben werden. Zum Beispiel:
User-agent: * Disallow:
Die obige Regel würde es allen Web-Robotern ermöglichen, alle Seiten der Website zu indizieren.
Kommentare können in die robots.txt-Datei eingefügt werden, indem eine Zeile mit einem Rautezeichen (#) beginnt. Kommentare werden von Web-Robotern ignoriert. Zum Beispiel:
# This is a comment User-agent: * Disallow: /
Die obige robots.txt Datei würde allen Web-Robotern die Indizierung von Seiten auf der Website verwehren.
Die Reihenfolge der Regeln in der robots.txt-Datei ist wichtig. Die erste passende Regel wird angewandt. Betrachten Sie zum Beispiel die folgende robots.txt-Datei:
User-agent: * Disallow: / User-agent: Google Disallow:
Die obige robots.txt Datei würde allen Web-Robotern die Indizierung von Seiten auf der Website verwehren, mit Ausnahme des Google-Web-Roboters.
Schlussfolgerung
Wenn Sie eine WordPress-Website besitzen, sollten Sie unbedingt eine robots.txt-Datei verwenden. Diese Datei wird verwendet, um Suchmaschinen-Bots, auch bekannt als Web-Crawler, anzuweisen, welche Seiten auf Ihrer Website sie indizieren und crawlen dürfen.
Sie fragen sich vielleicht, warum Sie eine robots.txt-Datei verwenden müssen, wenn Ihre WordPress-Website bereits so eingestellt ist, dass sie von Suchmaschinen indiziert wird. Die Antwort ist, dass eine robots.txt-Datei Ihnen mehr Kontrolle darüber gibt, wie Suchmaschinen Ihre Website indizieren.
Nehmen wir zum Beispiel an, Sie haben eine WordPress-Website mit einem Blog und einem WooCommerce-Shop. Sie möchten vielleicht, dass die Suchmaschinen Ihre Blog-Einträge indizieren, damit sie bei der Suche nach Schlüsselwörtern zu Ihrem Inhalt gefunden werden können. Möglicherweise möchten Sie aber nicht, dass die Suchmaschinen Ihre WooCommerce-Seiten indizieren, weil Sie nicht möchten, dass die Besucher Ihre Produktseiten finden, bevor sie Ihre Website erreichen.
In diesem Fall würden Sie eine robots.txt-Datei verwenden, um den Suchmaschinen mitzuteilen, dass sie nur Ihre Blogseiten indizieren sollen. Auf diese Weise haben Sie mehr Kontrolle darüber, wie Besucher Ihre Website finden, und können sicherstellen, dass sie das gewünschte Ziel erreichen.
Es gibt noch andere Gründe, warum Sie eine robots.txt-Datei auf Ihrer WordPress-Website verwenden sollten. Wenn Sie beispielsweise passwortgeschützte Seiten haben, können Sie die robots.txt-Datei verwenden, um den Suchmaschinen mitzuteilen, dass diese Seiten nicht indiziert werden sollen. Auf diese Weise wird sichergestellt, dass nur Personen, die das Passwort kennen, auf den Inhalt dieser Seiten zugreifen können.
Insgesamt ist die Verwendung einer robots.txt-Datei auf Ihrer WordPress-Website eine gute Idee, wenn Sie mehr Kontrolle darüber haben möchten, wie die Suchmaschinen Ihre Website indizieren. Es ist auch eine gute Idee, wenn Sie bestimmte Seiten Ihrer Website vor der Indizierung schützen möchten.
Bonus
Ein kurzer Bonustipp: Vergessen Sie nicht, Ihren Sitemap-Link in die robots.txt-Datei einzufügen.