Détection des attaques sophistiquées — jailbreaks, injections indirectes, obfuscation HTML
Moteur de classification sémantique spécialisé dans la détection des injections de prompts et manipulations complexes. Détecte les injections indirectes via documents RAG, les jailbreaks multi-tour, l'obfuscation HTML (balises intercalées dans les mots-clés), et les attaques Crossword Game multi-phases. Intègre un SSE parser pour l'analyse des flux LLM en streaming.
Roleplay adversarial, DAN patterns, instructions cachées
Via PDF, RAG, outils, plugins MCP — vecteur souvent ignoré
Obfuscation HTML détectée et bloquée
Injection multi-phase via jeu de mots — 3 phases détectées
Requêtes reverse engineering du prompt système
Analyse flux LLM token par token en temps réel