samedi 11 octobre 2025

Des outils d'audit et la sécurité de l'IA : PETRI

 Des outils d'audit et la sécurité de l'IA : PETRI

Anthropic a dévoilé Petri, un outil open source conçu pour tester la sécurité de l’intelligence artificielle en identifiant automatiquement des comportements à risque tels que la tromperie ou les dénonciations inappropriées. Le Parallel Exploration Tool for Risky Interactions marque une étape importante dans l’automatisation des audits de sécurité des IA, alors que ces modèles deviennent de plus en plus complexes et autonomes.

Cet outil emploie des agents IA pour simuler des conversations avec les modèles ciblés dans différents scénarios, en cherchant des comportements préoccupants qui pourraient passer inaperçus avec les méthodes d’évaluation classiques. Lors de tests initiaux sur 14 modèles d’IA avancés dans 111 scénarios, Petri a repéré des tendances problématiques dans chaque modèle, soulevant des questions sur les standards actuels de sécurité de l’IA.

GitHub - safety-research/petri: An alignment auditing agent capable of quickly exploring alignment hypothesis


Voici un résumé clair et structuré sur l'outil Petri :


🧪 Petri : Outil d’exploration parallèle pour les interactions à risque

Petri est un agent d’audit d’alignement conçu pour tester rapidement des hypothèses sur le comportement des modèles d’IA. Il simule des environnements réalistes, génère des dialogues multi-tours avec des messages humains et outils simulés, puis évalue les transcriptions pour détecter des comportements préoccupants.


⚙️ Fonctionnalités clés

  • Audit rapide : Test d’hypothèses en quelques minutes, sans créer des évaluations sur mesure pendant des semaines.
  • Multi-rôles : Trois modèles peuvent être assignés aux rôles d’auditeur, de cible et de juge.
  • Instructions personnalisées : Permet de définir des scénarios spécifiques (ex. : tester la conscience de la date de coupure du modèle cible).
  • Scoring automatisé : Analyse des transcriptions pour identifier les réponses problématiques.

🚀 Mise en route

  1. Installation

    uv add git+https://github.com/safety-research/petri
    # ou
    pip install git+https://github.com/safety-research/petri
    
  2. Configuration des modèles

    export ANTHROPIC_API_KEY=...
    export OPENAI_API_KEY=...
    
  3. Exécution d’un audit

    inspect eval petri/audit \
      --model-role auditor=anthropic/claude-sonnet-4-20250514 \
      --model-role target=anthropic/claude-3-7-sonnet-20250219 \
      --model-role judge=anthropic/claude-opus-4-20250514
    
  4. Visualisation des résultats

    npx @kaifronsdal/transcript-viewer@latest --dir ./outputs
    

📊 Exemple d’usage de tokens (30 tours, 111 instructions)

RôleModèleTokens utilisés
AuditeurClaude Sonnet 415,4M
CibleClaude 3.7 Sonnet2M
JugeClaude Opus 41M



Les chercheurs fournissent à Petri une liste d'instructions de départ ciblant les scénarios et les comportements qu'ils souhaitent tester. Pour chaque instruction de départ, un agent auditeur utilise ses outils pour interagir avec le modèle cible et le manipuler. Un juge note chaque transcription obtenue sur plusieurs dimensions, permettant ainsi aux chercheurs de rechercher et de filtrer rapidement les transcriptions les plus intéressantes.

La création manuelle d'évaluations d'alignement implique souvent la création d'environnements, l'exécution de modèles, la lecture de transcriptions et l'agrégation des résultats. Petri automatise une grande partie de ce processus.

📚 Documentation & Contrib







Contacts Utiles



---------------------------------------------------

 Pierre Erol GIRAUDY 

Fondateur de UGAIA. 







Aucun commentaire:

Enregistrer un commentaire

Merci pour ce commentaire