Des outils d'audit et la sécurité de l'IA : PETRI
Anthropic a dévoilé Petri, un outil open source conçu pour tester la sécurité de l’intelligence artificielle en identifiant automatiquement des comportements à risque tels que la tromperie ou les dénonciations inappropriées. Le Parallel Exploration Tool for Risky Interactions marque une étape importante dans l’automatisation des audits de sécurité des IA, alors que ces modèles deviennent de plus en plus complexes et autonomes.
Cet outil emploie des agents IA pour simuler des conversations avec les modèles ciblés dans différents scénarios, en cherchant des comportements préoccupants qui pourraient passer inaperçus avec les méthodes d’évaluation classiques. Lors de tests initiaux sur 14 modèles d’IA avancés dans 111 scénarios, Petri a repéré des tendances problématiques dans chaque modèle, soulevant des questions sur les standards actuels de sécurité de l’IA.
Voici un résumé clair et structuré sur l'outil Petri :
🧪 Petri : Outil d’exploration parallèle pour les interactions à risque
Petri est un agent d’audit d’alignement conçu pour tester rapidement des hypothèses sur le comportement des modèles d’IA. Il simule des environnements réalistes, génère des dialogues multi-tours avec des messages humains et outils simulés, puis évalue les transcriptions pour détecter des comportements préoccupants.
⚙️ Fonctionnalités clés
- Audit rapide : Test d’hypothèses en quelques minutes, sans créer des évaluations sur mesure pendant des semaines.
- Multi-rôles : Trois modèles peuvent être assignés aux rôles d’auditeur, de cible et de juge.
- Instructions personnalisées : Permet de définir des scénarios spécifiques (ex. : tester la conscience de la date de coupure du modèle cible).
- Scoring automatisé : Analyse des transcriptions pour identifier les réponses problématiques.
🚀 Mise en route
Installation
uv add git+https://github.com/safety-research/petri # ou pip install git+https://github.com/safety-research/petri
Configuration des modèles
export ANTHROPIC_API_KEY=... export OPENAI_API_KEY=...
Exécution d’un audit
inspect eval petri/audit \ --model-role auditor=anthropic/claude-sonnet-4-20250514 \ --model-role target=anthropic/claude-3-7-sonnet-20250219 \ --model-role judge=anthropic/claude-opus-4-20250514
Visualisation des résultats
npx @kaifronsdal/transcript-viewer@latest --dir ./outputs
📊 Exemple d’usage de tokens (30 tours, 111 instructions)
Rôle | Modèle | Tokens utilisés |
---|---|---|
Auditeur | Claude Sonnet 4 | 15,4M |
Cible | Claude 3.7 Sonnet | 2M |
Juge | Claude Opus 4 | 1M |
📚 Documentation & Contrib
- Documentation complète github.com
- Licence MIT
- Contributions bienvenues, notamment pour enrichir les instructions spéciales (
src/petri/tasks/petri.py
) - Petri : https://safety-research.github.io/petri/
- Anthropic's open-source safety tool found AI models whistleblowing - in all the wrong places | ZDNET
- Petri: An open-source auditing tool to accelerate AI safety research
- Petri: An open-source auditing tool to accelerate AI safety research \ Anthropic
Contacts Utiles
- CERT-FR: https://www.cert.ssi.gouv.fr/
- ANSSI: https://www.ssi.gouv.fr/
- Discord Security: security@discord.com
- Anthropic Security: security@anthropic.com
---------------------------------------------------
Aucun commentaire:
Enregistrer un commentaire
Merci pour ce commentaire