Scraping, Bots und Fake Traffic: Wie Anubis den digitalen Schwarzmarkt entlarvt

Das moderne Web ist ein Dschungel aus Daten – und jeder will ernten. Ob Preisportale, Vergleichsseiten oder Spammer – automatisierte Bots greifen täglich Millionen Websites ab.

Die bittere Wahrheit: Bis zu 47 % des weltweiten Webtraffics stammt nicht von Menschen, sondern von Bots, Scrapers oder automatisierten Angriffstools.

Für Betreiber von APIs, SaaS-Plattformen oder Online-Shops bedeutet das: verfälschte Statistiken, Serverlast, Sicherheitsrisiken – und im schlimmsten Fall: Datenklau.

Doch genau hier setzt Anubis an – die KI-basierte Firewall, die Fake-Traffic nicht nur blockiert, sondern entlarvt.

1. Der Feind im Datenstrom: Typische Bot-Arten im Überblick

Nicht jeder Bot ist böse. Suchmaschinen-Crawler wie Googlebot oder Bingbot gehören zum Ökosystem. Doch der „dunkle Teil“ der Bots agiert unsichtbar – und oft professioneller, als man denkt.

1.1 Scraper-Bots

Ziel: Inhalte, Preise, Texte oder Produktdaten abgreifen

Beispiel:

Preisvergleichsseiten, die Produktfeeds kopieren
Konkurrenten, die deine Inhalte automatisiert spiegeln

Typisches Verhalten im Log:

192.168.4.23 - - [12/Oct/2025:10:05:12 +0200] "GET /produkte/angebote.html HTTP/1.1" 200
User-Agent: Python-Requests/2.31.0
Referer: -

Kein Referrer, kein Cookie, generischer User-Agent – ein klassischer Bot.

1.2 Credential-Stuffing-Bots

Ziel: Geklaute Login-Daten auf Gültigkeit prüfen

Muster:

Tausende Login-Versuche pro Stunde
wechselnde IPs, aber identische Payloads
hohe Wiederholrate bei bestimmten Endpunkten (/login, /auth)

Log-Beispiel:

POST /login HTTP/1.1
User-Agent: Mozilla/5.0 (Windows NT 10.0)
Payload: { "user": "max@test.de", "pass": "123456" }

Auf den ersten Blick unauffällig – doch Anubis erkennt:

unnatürliche Frequenz (z. B. 50 Logins/min)
identische Tippgeschwindigkeiten (Bot)
geringe Variabilität der User-Agent-Strings

1.3 Preis-Spider & API-Farmer

Ziel: Marktanalysen, Preisvergleiche oder automatisiertes Reselling

Symptome:

systematische API-Aufrufe im 1-Sekunden-Takt
Query-Parameter-Vergleiche (/api/products?sort=price_asc)
Zugriff nur auf bestimmte Endpunkte

Diese Bots sind oft professionell getarnt – mit echten Browser-Headern und Cookies. Aber ihr Verhalten verrät sie.

1.4 Click- und Impression-Faker

Ziel: Manipulation von Traffic-Statistiken oder Werbeeinnahmen

Muster:

scheinbar legitime Klicks auf Banner
identische Bewegungssequenzen
unlogische Tageszeiten / IP-Herkunft (z. B. 200 Klicks aus Rechenzentren)

2. Der digitale Fingerabdruck: Wie Anubis Verhalten analysiert

Klassische Firewalls blockieren nach Regeln – „User-Agent enthält Python → block“. Doch moderne Bots imitieren Browser, Cookies und sogar Mausbewegungen.

Anubis dagegen nutzt Behavioral AI Detection: ein mehrschichtiges Analysemodell, das Nutzerinteraktionen, Timing, Header und Muster kombiniert.

2.1 Click-Timing und Request-Metriken

Echte Menschen sind unregelmäßig. Sie klicken, scrollen, pausieren – mit Mikrovariationen im Timing.

Bots sind präzise. Sie senden Requests im Millisekundentakt, oft synchronisiert mit Systemuhren.

Beispiel:

Request	Intervall (ms)	Bewertung
#1	0	Start
#2	1000	Normal
#3	1000	Normal
#4	1000	Normal
#5	1000	❌ Verdächtig gleichmäßig

Anubis berechnet daraus eine Timing-Entropy – je gleichförmiger das Verhalten, desto wahrscheinlicher ein Bot.

2.2 User-Agent-Entropy

Viele Bots rotieren User-Agents, um Legitimität vorzutäuschen. Doch sie tun es zu perfekt:

Ein echter Traffic-Mix zeigt organische Wiederholungen, stabile Browseranteile und typische Header-Kombinationen.

Ein Bot-Netz dagegen erzeugt:

10.000 unterschiedliche User-Agents in 5 Minuten
Unmögliche Kombinationen wie „Safari auf Windows“
Gleichbleibende Request-Struktur trotz angeblich verschiedener Clients

Anubis misst daher die Entropie der User-Agent-Verteilung: ein zu hoher Wechsel ohne logische Verteilung = Fake-Traffic.

2.3 Header-Analyse und Browser-Fingerprint

Echte Browser senden Dutzende Header (Accept, Encoding, Cache, Sec-Fetch-*). Bots simulieren meist nur die nötigsten.

Beispiel:

GET / HTTP/1.1
Host: site.com
User-Agent: Chrome/108.0
Accept: */*

Fehlen hier z. B. Sec-Fetch-Site, Accept-Language oder Referer, fällt das sofort auf.

Anubis gleicht diese Profile mit gelernten Browser-Fingerprints ab und erkennt Abweichungen auf Byte-Ebene.

2.4 Geo- und Session-Korrelation

Bots operieren meist in Clustern – aus Rechenzentren, VPNs oder anonymisierten Netzen.

Anubis nutzt:

ASN- und IP-Reputation
Geo-Lokationskorrelation
Session-Cluster-Analyse (mehrere Nutzer identische Bewegungsmuster → verdächtig)

So entstehen Verhaltensgruppen, die systematisch bewertet werden.

3. Real-Life-Patterns aus Logs (fiktiv, aber realistisch)

Ein Beispiel aus einer SaaS-Plattform mit 100.000 täglichen Nutzern:

Ausschnitt aus Anubis Traffic Analyzer:

[ALERT] Group #47 - Suspicious Traffic
  - Avg. Request Interval: 0.98s
  - Distinct IPs: 233
  - Shared User-Agent Pool: 12
  - Region: EU / Data Center (Hetzner)
  - Behavior: GET /api/products, sequential scan
  → Classified: Automated Scraper

Gegenbeispiel – menschliches Verhalten:

Group #89 - Normal Traffic
  - Avg. Request Interval: 7.4s ± 3.1s
  - Mouse Movements Detected
  - Referrers: Google, Direct
  - Session Duration: 4min 32s
  → Classified: Human

Ergebnis: Anubis markiert Gruppe #47 als automatisierten Crawler, blockiert Requests über eine adaptive Policy und meldet den Cluster zur Modelloptimierung.

4. Wie Anubis Fake Traffic aktiv bekämpft

Anubis geht dabei dreistufig vor:

Analysephase (Monitor Mode)

Erkennt neue Bot-Muster, sammelt Trainingsdaten und erstellt Cluster. Nichts wird blockiert – nur beobachtet.

Scoringphase (Adaptive Mode)

Traffic erhält dynamische Scores:

0.0–0.3 → Mensch
0.4–0.7 → Suspicious
0.8–1.0 → Bot

Ab 0.8 kann Anubis automatisch reagieren:

Challenge (JavaScript Delay, CAPTCHA)
Soft-Block (Rate Limit)
Hard-Block (Reject 403)

Lernphase (Feedback Loop)

Anubis wertet Logs täglich aus, erkennt neue Muster und optimiert KI-Gewichte. So verbessert sich das System kontinuierlich – wie ein „digitaler Forensiker“.

5. Wirtschaftlicher Nutzen für Security-Teams

Der Vorteil liegt nicht nur in der Technik, sondern auch in der Effizienz:

Metrik	Ohne Anubis	Mit Anubis
False Positives	Hoch (manuelle WAF-Regeln)	< 5 % durch KI-Scoring
Analyseaufwand	Stunden täglich	automatisierte Reports
Bot-Traffic	30–50 %	< 10 % nach 14 Tagen
Loggröße	Gigabytes	komprimierte Feature-Daten

Ergebnis: Analysten fokussieren sich auf relevante Anomalien – nicht mehr auf Logflut.

6. Fallbeispiel: Der Preis-Scraper eines Wettbewerbers

Ein mittelständischer Online-Händler stellte plötzlich fest: Die Preise seines Shops wurden täglich kopiert – inklusive Rabattaktionen.

Klassische WAF: Unauffällig – der Scraper nutzte echten Chrome mit gültigem Cookie.

Anubis-Erkennung:

98 % identische Click-Timings
Referrer-Inkonsistenz
identischer Session-Flow über mehrere IPs

Nach Aktivierung des adaptive mode (ai_mode: adaptive) stoppte Anubis den Bot nach 10 Minuten – ohne dass legitime Nutzer betroffen waren.

7. Fazit: Von Logfiles zu Intelligenz

Anubis verwandelt rohe Access-Logs in ein lernendes System. Statt Tausende Zeilen Text zu durchsuchen, erkennt es automatisch:

Clusterverhalten
Timing-Anomalien
Header-Inkonsistenzen
Entropieabweichungen

Damit schließt es eine zentrale Lücke zwischen klassischer Firewall und modernem Threat Intelligence System.

Bots werden immer intelligenter. Aber Anubis lernt schneller.

1. Der Feind im Datenstrom: Typische Bot-Arten im Überblick

1.1 Scraper-Bots

1.2 Credential-Stuffing-Bots

1.3 Preis-Spider & API-Farmer

1.4 Click- und Impression-Faker

2. Der digitale Fingerabdruck: Wie Anubis Verhalten analysiert

2.1 Click-Timing und Request-Metriken

2.2 User-Agent-Entropy

2.3 Header-Analyse und Browser-Fingerprint

2.4 Geo- und Session-Korrelation

3. Real-Life-Patterns aus Logs (fiktiv, aber realistisch)

4. Wie Anubis Fake Traffic aktiv bekämpft

Analysephase (Monitor Mode)

Scoringphase (Adaptive Mode)

Lernphase (Feedback Loop)

5. Wirtschaftlicher Nutzen für Security-Teams

6. Fallbeispiel: Der Preis-Scraper eines Wettbewerbers

7. Fazit: Von Logfiles zu Intelligenz

Ähnliche Beiträge