Mehr als die Hälfte deines Website-Traffics sind Bots – steur dagegen

Impuls 18 von 40: Wenn du in deine Website-Statistik schaust und dich über eine hohe Besucherzahl freust, lohnt sich ein zweiter Blick. Mehr als die Hälfte aller Zugriffe auf eine durchschnittliche Website stammt nicht von Menschen, sondern von Bots. Tendenz steigend – getrieben vor allem durch KI-Crawler, die seit 2023 massiv an Aktivität zugelegt haben.

Das ist kein neutraler Hintergrundrauschen. Jeder Bot-Request belastet den Server, erzeugt Datentransfer und verursacht Energie – auch wenn kein Mensch davon profitiert.

Vier Kategorien, sehr unterschiedliche Relevanz

Suchmaschinen-Bots (Googlebot, Bingbot, DuckDuckBot) sind in der Regel erwünscht. Sie indexieren Inhalte und sorgen dafür, dass die Website gefunden wird. Sie lassen sich über die robots.txt steuern und halten sich üblicherweise daran.

KI-Crawler (GPTBot, ClaudeBot, CCBot, Applebot-Extended und viele weitere) sammeln Inhalte für Trainingsdaten oder für direkte Antwortgenerierung in KI-Systemen. Sie liefern dir keinen Traffic zurück. Wer seine Inhalte nicht als kostenloses Trainingsmaterial zur Verfügung stellen will, kann sie gezielt ausschließen.

SEO-Crawler (Ahrefs, Semrush, Screaming Frog) sind Werkzeuge von Wettbewerbern oder Agenturen. Nützlich für eigene SEO-Analysen, aber fremder Crawling-Traffic bringt keinen Mehrwert.

Schädliche Bots suchen nach Sicherheitslücken, sammeln E-Mail-Adressen oder führen Credential-Stuffing-Angriffe durch. Sie ignorieren die robots.txt grundsätzlich – hier helfen nur Firewall-Regeln.

robots.txt: der einfache erste Schritt

Die robots.txt liegt im Wurzelverzeichnis der Website und ist für alle Bots öffentlich lesbar. Seriöse Bots halten sich daran. Ein Beispiel für gezielte Steuerung:

# KI-Trainingscrawler ausschließen
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot-Extended
Disallow: /

# SEO-Tools einschränken
User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

# Googlebot explizit erlauben
User-agent: Googlebot
Allow: /

Tipp

Eine aktuelle Liste bekannter KI-Crawler-User-Agents pflegt das Dark Visitors-Projekt: darkvisitors.com. Die Liste wächst monatlich – regelmäßiger Blick lohnt sich.

Firewall gegen schädliche Bots

Schädliche Bots lesen keine robots.txt. Gegen sie helfen serverseitige Maßnahmen: eine Web Application Firewall (WAF), IP-Blacklists und Rate-Limiting in der .htaccess oder Nginx-Konfiguration. Ich setze auf datensm.art auf eine Kombination aus .htaccess-Regeln und einer serverseitigen Firewall – mit messbarem Effekt auf die Serverlast.

Wer noch keinen eigenen Server konfiguriert, findet in Cloudflare einen einfachen Einstieg: der kostenlose Plan bietet grundlegende Bot-Erkennung und Rate-Limiting ohne Konfigurationsaufwand.

Info

Matomo zeigt in der Besucherstatistik unter „Besuche nach Besuchertyp" an, wie hoch der Bot-Anteil am Traffic ist – sofern die Bot-Erkennung aktiviert ist. Einstellungen → Websites → Bots ausschließen. Ein Blick in die Rohdaten des Server-Logs ist noch aufschlussreicher.

Weniger unnötige Zugriffe bedeuten weniger Serverlast, weniger Datentransfer und weniger Energie. Wer seinen Server-Traffic aufräumt, betreibt aktive digitale Nachhaltigkeit – und schützt nebenbei Inhalte und Infrastruktur.

Dieser Tipp ist Teil meiner Serie Digitalfasten ohne Verzicht – 40 Impulse zur Fastenzeit 2026: Zum LinkedIn-Post