open-how2 – Entdecke. Verstehe. Nutze.
Veröffentlicht am
How2-Tipps

Inside Anubis: Wie KI und Behavior Analysis Scraper-Bots in Echtzeit erkennen

Autor
Inside Anubis: Wie KI und Behavior Analysis Scraper-Bots in Echtzeit erkennen

In der modernen Webwelt ist nicht mehr der Mensch der Hauptbesucher deiner Website – sondern Maschinen. Über 50 % des weltweiten Web-Traffics stammen von Bots, Crawlern und automatisierten Skripten. Einige davon sind nützlich – etwa Suchmaschinen oder Monitoring-Dienste. Doch ein erheblicher Anteil besteht aus Scraper-Bots, die Inhalte stehlen, APIs missbrauchen oder Serverressourcen überlasten.

Hier setzt Anubis an – eine KI-gestützte Web-Firewall (AI Web Firewall Utility), die mit Behavior Analysis und Machine Learning in Echtzeit erkennt, ob ein Request von einem echten Nutzer oder einem Bot stammt.

Dieser Artikel blickt tief in die technische Architektur von Anubis und zeigt, wie die Plattform aus Datenströmen intelligente Entscheidungen trifft – weit über die Möglichkeiten klassischer Firewalls hinaus.

Architektur von Anubis: Wenn Machine Learning zur Verteidigung wird

Die Stärke von Anubis liegt in seiner modularen, KI-zentrierten Architektur. Anstatt ausschließlich auf feste Regeln oder IP-Listen zu setzen, analysiert Anubis Verhaltensmuster und Anomalien im Datenverkehr – also nicht nur was ein Request ist, sondern wie er sich verhält.

Die Hauptkomponenten

[Client] 
   ↓
[Ingress Layer] → [Feature Extractor] → [ML Detection Engine] → [Decision Layer]
   ↓
[Dashboard / API / Upstream Server]

Ingress Layer

Alle HTTP(S)-Requests laufen zunächst durch diesen Eingangspunkt (Reverse Proxy oder Sidecar-Agent). Hier werden Header, IP, User-Agent, Request-Rate und Timing erfasst.

Feature Extractor

Der Request wird in numerische und semantische Features übersetzt:

Kategorie Beispiele
Netzwerk IP, ASN, Geo, TTL
HTTP User-Agent, Header-Konsistenz, Referer, Accept-Encoding
Verhalten Request-Frequenz, Zeitabstände, Mausbewegung (JS)
Entropie Zeichenmuster in Tokens, Session-IDs, Query-Strings

Diese Daten werden normalisiert und in ein Vektormodell überführt, das anschließend vom Machine-Learning-Modul verarbeitet wird.

ML Detection Engine

Das Herzstück – hier arbeitet Anubis mit drei intelligenten Modellen:

  • Anomalieerkennung (Isolation Forest): Findet ungewöhnliche Requestmuster, die stark vom Normalverhalten legitimer Nutzer abweichen. → Beispiel: 300 Requests / Sekunde mit identischem Header-Set.

  • Scoring-Modell (Gradient Boosted Trees): Bewertet jede Anfrage mit einem Vertrauensscore (0–100).

    • 90–100 = sicherer Nutzer
    • 50–89 = verdächtig (Rate Limit oder JS-Challenge)
    • < 50 = Block
  • Cluster-Analyse (DBSCAN): Gruppiert ähnliche Requests zu Bot-Clustern. So erkennt Anubis z. B. 500 IP-Adressen aus verschiedenen Ländern, die exakt denselben Header senden → Botnetz!

Decision Layer

Hier entscheidet Anubis über die passende Reaktion:

Score-Bereich Aktion
> 90 Request weiterleiten
70–89 Verlangsamen (Delay, CAPTCHA)
50–69 JavaScript-Challenge oder Reauth
< 50 Block mit 403 oder 429
< 20 Auto-Blacklist

Behavior Analysis: Der Unterschied zwischen Mensch und Maschine

Klassische WAFs (Web Application Firewalls) arbeiten mit festen Regeln:

„Blockiere IP X“, „Erlaube nur Header Y“, „Verweigere Requestgröße > 2 MB“

Das Problem: Scraper-Bots haben gelernt, diese Regeln zu umgehen. Sie setzen Browser-ähnliche User-Agents, kopieren Cookies, führen JavaScript aus und verhalten sich auf den ersten Blick wie echte Nutzer.

🔬 Hier setzt Anubis an

Anubis analysiert das Verhalten über Zeit – nicht nur den einzelnen Request. Dazu nutzt die Plattform ein internes „Behavior Graph Model“, das Benutzerinteraktionen korreliert:

Request-Time Δ:      32 ms → 33 ms → 32 ms → 33 ms → ...
Header Variation:    konstant
Path Sequence:       identisch
Session Entropy:     niedrig
Behavior Vector:     0.99 similarity
→ Score: 12 (Bot)

Menschliches Verhalten weist dagegen Varianz und Mikro-Unregelmäßigkeiten auf:

Request-Time Δ:      280 ms → 650 ms → 1100 ms → 420 ms
Header Variation:    leicht verändert
Session Entropy:     hoch
→ Score: 96 (Human)

Machine Learning in Action – Beispielhafte Traffic-Muster

Beispiel 1: API Scraper

Ein Bot ruft im Sekundentakt /api/products?page=1..1000 auf.

  • Identischer Header
  • Keine „Referer“-Kette
  • Stabile Request-Intervalle (±1 ms)

Anubis erkennt:

„Deterministisches Pattern mit minimaler Jitter → kein menschliches Verhalten.“

Ergebnis: Score = 28 → Block + IP-Timeout für 15 Minuten.

Beispiel 2: Preisvergleichs-Crawler mit Browser-Spoofing

Der Bot verwendet Puppeteer mit --headless=new. Er lädt Seiten vollständig und führt JS aus, um menschliches Verhalten zu imitieren.

Anubis erkennt:

  • Sehr kurze Maus-Events (< 1 ms)
  • Kein Scroll-Delay
  • Unnatürliche „mousemove“-Frequenzen
  • Browser-Fingerprint weicht von realem Chrome ab

Ergebnis: Score = 42 → JavaScript-Challenge + Browser-Validation.

Beispiel 3: Legitimer Nutzer

Ein Mensch surft über Chrome 120 auf einem Laptop, klickt mehrere Seiten an, pausiert, navigiert zurück.

Anubis erkennt:

  • Variable Timing-Muster
  • Realistische User-Agent + OS-Kombination
  • Session-Wechsel mit konsistentem Cookie-Jitter

Ergebnis: Score = 98 → Request erlaubt, kein Eingriff.

Klassische WAF vs. Anubis AI Firewall

Merkmal Klassische WAF Anubis AI Firewall
Erkennungslogik Statische Regeln KI-basiertes Verhalten & Muster
Datenbasis Header, IP, URL Zeitverlauf, Entropie, Session, Netzwerkgraph
Lernfähigkeit Manuell Selbstlernend (adaptive Modelle)
False Positives Hoch Niedrig (Kontextbewertung)
Angriffsabwehr Reaktiv Präventiv & prädiktiv
Performance CPU-gebunden ML-optimiert (Go + Python Engine)

Warum DevOps & Security-Teams Anubis einsetzen sollten

  1. Real-Time-Protection: Erkennt Bedrohungen sofort – ohne ständige Regelupdates.

  2. Automatische Adaption: Neue Bot-Muster werden erkannt, ohne dass Entwickler eingreifen müssen.

  3. Integrationen: Lässt sich in Nginx, Cloudflare, Kubernetes oder API-Gateways einbinden.

  4. Transparenz: Dashboard zeigt Request-Score, Geo-Heatmaps, Bot-Cluster und Trendverläufe.

  5. Open Telemetry & Logging: Kompatibel mit Grafana, Loki, Prometheus – für Security-Monitoring und Alerting.

Anubis definiert den Begriff „Firewall“ neu. Statt statische Regeln abzuarbeiten, denkt Anubis mit – in Echtzeit. Mit KI-gestützter Anomalieerkennung, Scoring und Clustering analysiert das System jedes Paket, erkennt Muster und reagiert adaptiv auf neue Bedrohungen.

Für DevOps, Security-Engineers und KI-Interessierte bietet Anubis eine zukunftsweisende Plattform, die zeigt, wie Behavioral AI und Machine Learning den Schutz von Web-Infrastrukturen revolutionieren.