Des outils d'audit et la sécurité de l'IA : PETRI

Anthropic a dévoilé Petri, un outil open source conçu pour tester la sécurité de l’intelligence artificielle en identifiant automatiquement des comportements à risque tels que la tromperie ou les dénonciations inappropriées. Le Parallel Exploration Tool for Risky Interactions marque une étape importante dans l’automatisation des audits de sécurité des IA, alors que ces modèles deviennent de plus en plus complexes et autonomes.

Cet outil emploie des agents IA pour simuler des conversations avec les modèles ciblés dans différents scénarios, en cherchant des comportements préoccupants qui pourraient passer inaperçus avec les méthodes d’évaluation classiques. Lors de tests initiaux sur 14 modèles d’IA avancés dans 111 scénarios, Petri a repéré des tendances problématiques dans chaque modèle, soulevant des questions sur les standards actuels de sécurité de l’IA.

GitHub - safety-research/petri: An alignment auditing agent capable of quickly exploring alignment hypothesis

Voici un résumé clair et structuré sur l'outil Petri :

🧪 Petri : Outil d’exploration parallèle pour les interactions à risque

Petri est un agent d’audit d’alignement conçu pour tester rapidement des hypothèses sur le comportement des modèles d’IA. Il simule des environnements réalistes, génère des dialogues multi-tours avec des messages humains et outils simulés, puis évalue les transcriptions pour détecter des comportements préoccupants.

⚙️ Fonctionnalités clés

Audit rapide : Test d’hypothèses en quelques minutes, sans créer des évaluations sur mesure pendant des semaines.
Multi-rôles : Trois modèles peuvent être assignés aux rôles d’auditeur, de cible et de juge.
Instructions personnalisées : Permet de définir des scénarios spécifiques (ex. : tester la conscience de la date de coupure du modèle cible).
Scoring automatisé : Analyse des transcriptions pour identifier les réponses problématiques.

🚀 Mise en route

Installation

uv add git+https://github.com/safety-research/petri
# ou
pip install git+https://github.com/safety-research/petri

Configuration des modèles

export ANTHROPIC_API_KEY=...
export OPENAI_API_KEY=...

Exécution d’un audit

inspect eval petri/audit \
  --model-role auditor=anthropic/claude-sonnet-4-20250514 \
  --model-role target=anthropic/claude-3-7-sonnet-20250219 \
  --model-role judge=anthropic/claude-opus-4-20250514

Visualisation des résultats

npx @kaifronsdal/transcript-viewer@latest --dir ./outputs

📊 Exemple d’usage de tokens (30 tours, 111 instructions)

Rôle	Modèle	Tokens utilisés
Auditeur	Claude Sonnet 4	15,4M
Cible	Claude 3.7 Sonnet	2M
Juge	Claude Opus 4	1M

Les chercheurs fournissent à Petri une liste d'instructions de départ ciblant les scénarios et les comportements qu'ils souhaitent tester. Pour chaque instruction de départ, un agent auditeur utilise ses outils pour interagir avec le modèle cible et le manipuler. Un juge note chaque transcription obtenue sur plusieurs dimensions, permettant ainsi aux chercheurs de rechercher et de filtrer rapidement les transcriptions les plus intéressantes.

La création manuelle d'évaluations d'alignement implique souvent la création d'environnements, l'exécution de modèles, la lecture de transcriptions et l'agrégation des résultats. Petri automatise une grande partie de ce processus.

📚 Documentation & Contrib

Documentation complète github.com
Licence MIT
Contributions bienvenues, notamment pour enrichir les instructions spéciales (src/petri/tasks/petri.py)
Petri : https://safety-research.github.io/petri/
Anthropic's open-source safety tool found AI models whistleblowing - in all the wrong places | ZDNET
Petri: An open-source auditing tool to accelerate AI safety research
Petri: An open-source auditing tool to accelerate AI safety research \ Anthropic

Contacts Utiles

CERT-FR: https://www.cert.ssi.gouv.fr/
ANSSI: https://www.ssi.gouv.fr/
Discord Security: security@discord.com
Anthropic Security: security@anthropic.com

---------------------------------------------------

Pierre Erol GIRAUDY

Fondateur de UGAIA.

www.ugaia.eu

https://clubsp2013.blogspot.com/

LLM-OLLAMA et SECURITE

samedi 11 octobre 2025