Revue d’articles — Faire progresser l’intelligence agentielle et la sûreté en même temps

Résumé exécutif

À partir des nouveautés publiées jusqu’au 2026-03-30, on voit clairement une tendance : la recherche sur les agents est en train de redessiner simultanément « la façon de mesurer la “sagesse” » et « la façon de rendre les systèmes sûrs ». Concrètement, on trouve côte à côte des pistes comme la génération, via LLM, de « réponses interprétables (politiques) », la mesure de l’efficacité de l’exploration sans dépendre d’un langage fluide, et des intuitions formelles montrant que la sûreté fondée sur les capacités peut devenir non-compositionnelle. Ces approches semblent distinctes, mais le point clé est qu’elles visent toutes à « réduire la boîte noire » et à « augmenter la vérifiabilité ».

Articles à surveiller (3 à 5)

Article 1 : Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Auteurs / affiliations : Daniel Hennes, Zun Li, John Schultz, Marc Lanctot (affiliations : indiquées sous la forme renvoyée par la page arXiv). (arxiv.org)
Contexte de la recherche et question : En renforcement multi-agents, des cadres comme Policy-Space Response Oracles (PSRO), qui « cherchent de façon approchée la meilleure réponse », sont efficaces. Toutefois, si l’oracle est construit avec du deep RL, la politique devient une boîte noire, rendant l’interprétation, la confiance et le débogage difficiles. La question est donc : peut-on remplacer la génération de la meilleure réponse elle-même par une forme plus lisible par les humains ? (arxiv.org)
Méthode proposée : Code-Space Response Oracles (CSRO) a l’idée d’utiliser un LLM à la place de l’oracle RL pour implémenter la meilleure réponse (best response) comme une génération de code. Autrement dit, en faisant générer par le LLM « une politique sous forme de code », on rend la politique interprétable. De plus, CSRO apporte plusieurs choix de conception à la manière de construire les oracles : zéro-shot, raffinements itératifs, évolution distribuée basée sur LLM (AlphaEvolve), etc. (arxiv.org)
Résultats principaux : Dans la mesure où on peut les lire à partir du résumé, l’article souligne que CSRO atteint des performances « compétitives » par rapport aux baselines tout en générant des ensembles de politiques variées et explicables. (arxiv.org)
Intérêt et limites : L’intérêt est d’avoir montré que le cœur de l’opération d’apprentissage multi-agents pourrait se déplacer : passer de l’« optimisation de politiques neuronales lourdes » à un « assemblage de comportements algorithmiques (génération en tant que code) ». En revanche, d’après le résumé arXiv auquel nous avons pu accéder, on ne parvient pas à suivre les détails — pour quels jeux / quels indicateurs, et dans quelle mesure — les gains quantitatifs ont été obtenus. (arxiv.org)

Les termes spécialisés présentés ici peuvent être résumés conceptuellement ainsi : oracles (une entité qui renvoie une réponse optimale), politiques (des règles qui déterminent comment choisir les actions) et interprétabilité (le fait qu’un humain puisse suivre pourquoi cette action a été choisie). Avec une analogie proche, auparavant, il était difficile pour les humains d’auditer les décisions d’une « IA de conduite en boîte noire », tandis que CSRO donne l’image de « soumettre la logique de décision sous forme de code plutôt que sous forme de texte ». Si cette direction progresse, dans la conception des interactions entre agents (négociation, jeux, coopération/compétition), les chercheurs pourraient déboguer plus facilement, et dans les applications industrielles, la « remontée rapide aux causes » lorsqu’un comportement dangereux apparaît pourrait aussi s’accélérer.

Source : Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Article 2 : ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Auteurs / affiliations : ARC Prize Foundation (indiqué sur la page arXiv). (arxiv.org)
Contexte de la recherche et question : Mesurer « à quel point les agents les plus avancés sont intelligents », sans dépendre du langage ni de la connaissance externe, est un problème difficile. Faisant suite à la série ARC-AGI (ARC-AGI-1/2), ARC-AGI-3 évalue, via un nouvel environnement abstrait basé sur des tours, si l’agent peut explorer, estimer l’objectif, modéliser en interne la dynamique de l’environnement, et planifier pour produire une séquence d’actions. (arxiv.org)
Méthode proposée : Le cœur d’ARC-AGI-3 est de régler la difficulté uniquement avec des Core Knowledge priors (priors de connaissances de base), en évitant de fournir des « instructions » explicites, et de rendre le score « basé sur l’efficacité ». De plus, en utilisant les résultats de testeurs humains pour construire, vérifier et calibrer l’environnement, l’article augmente l’interprétabilité du score de l’environnement. (arxiv.org)
Résultats principaux : La revendication la plus forte à partir du résumé est l’écart entre le fait que les humains résolvent l’environnement (100 %) et que les IA de la frontière obtiennent (à la date de mars 2026) un score inférieur à 1 %. C’est un message qui indique que ce design ne peut pas être franchi avec une simple « capacité de langage superficielle ». (arxiv.org)
Intérêt et limites : L’intérêt est de redéfinir l’intelligence des agents d’une manière calibrable comme l’efficacité de « l’exploration, du raisonnement et de la planification », et de clarifier pour la communauté de recherche « quoi améliorer ». Comme limites, la conception du benchmark doit toujours faire face à la critique selon laquelle « même si on améliore ce benchmark, la réalité ne change pas », et les détails comme la reproductibilité des scores et les coûts de calcul nécessitent d’être confirmés dans le texte principal. (arxiv.org)

En reformulant l’essentiel pour des débutants : un benchmark est un « ensemble de problèmes de test », mais ARC-AGI-3 ne se contente pas de proposer des problèmes ; il ajuste la difficulté pour qu’elle corresponde à la capacité visée (efficacité d’exploration, modélisation interne, etc.). Par analogie, ce n’est pas un examen écrit, mais un « simulateur de conduite » : on fournit les règles de circulation (connaissances de base) tout en laissant l’agent trouver le meilleur itinéraire en lisant la situation réelle. Avec ce type de benchmark en place, dans le développement d’agents en entreprise, il devient possible de suivre numériquement les directions d’amélioration plutôt que de dépendre de « démos destinées à la présentation ».

Source : ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Article 3 : Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Auteurs / affiliations : Cosimo Spera (indiqué sur la page arXiv). (arxiv.org)
Contexte de la recherche et question : La sûreté fondée sur les capacités (capability-based safety) repose sur l’intuition « si l’on conçoit le système de manière à ne pas pouvoir atteindre une capacité interdite, alors la sûreté est garantie ». Mais dans la réalité, les systèmes sont composés de plusieurs agents et modules, et selon les combinaisons, les comportements peuvent changer. Dès lors, cet article creuse pour la première fois si la sûreté fondée sur les capacités se maintient « de manière compositionnelle » (compositional) — et propose une preuve formelle à ce sujet. (arxiv.org)
Méthode proposée : La proposition consiste en un cadre formel et, par-dessus, une preuve. Le cœur montré par le résumé est de prouver la non-compositionnalité : le fait de ne pas pouvoir atteindre une capacité interdite (impossibilité d’accès individuellement) peut être violé par des combinaisons de capacités entre plusieurs agents (dependencies de capacités conjonctives, i.e. conjunctive capability dependencies). (arxiv.org)
Résultats principaux : Comme le titre et la déclaration du résumé l’indiquent, l’article prouve que les capacités interdites ne sont pas composées par un « raisonnement sur l’interdiction », mais par des « relations de dépendance de capacités » (co-occurence) — et qu’en tant que groupe, l’on peut atteindre l’objectif interdit. (arxiv.org)
Intérêt et limites : L’intérêt est de clarifier qu’il n’est peut-être pas possible, en général, pour un concepteur de considérer « si chaque module est sûr, alors l’ensemble est sûr ». Cela impacte directement la pratique de la conception de la sûreté. En revanche, ici aussi, quelles hypothèses rendent la garantie invalide et dans quelle mesure elle se généralise nécessitent une lecture précise des définitions et des postulats dans le texte principal ; le résumé ne permet pas d’en retracer des conditions aussi fines. (arxiv.org)

Les points clés des termes spécialisés sont les suivants : compositionnel (compositional) désigne la propriété selon laquelle « la sûreté des parties garantit la sûreté de l’ensemble », tandis que les dépendances de capacité conjonctives (conjunctive) désignent un type de dépendance où un danger n’apparaît que lorsque plusieurs capacités sont simultanément vraies. Avec une analogie familière, il s’agit d’un cas où, même si vous possédez individuellement des médicaments dangereux et qu’il n’y a aucun problème tant que vous ne les prenez pas, leur combinaison fait bondir la toxicité. En termes d’impact industriel, lorsque l’on rend sûrs des workflows ou la composition d’agents, il est possible que la nécessité de vérifier non seulement la « sûreté par composant », mais aussi le « comportement de composition après assemblage » devienne plus forte.

Source : Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Article 4 : Tactics: An Efficient and Reliable Framework for Autoregressive Theorem Proving with Language Models

Auteurs / affiliations : À vérifier depuis la page arXiv (dans cette procédure, nous n’avons pas atteint tout le texte du résumé, donc je ne tranche pas sur les auteurs et affiliations).
Contexte de la recherche et question : La preuve (theorem proving) est un domaine où il est difficile pour l’IA de garantir la « justesse », et où l’on recherche une conception qui concilie fiabilité du raisonnement (reliability) et efficacité (efficiency) pour des modèles génératifs. Cet ensemble de candidats est exploré comme une direction visant à faire tourner des preuves auto-régressives (autoregressive) produites par des modèles de langage de manière efficace et sous une forme fiable.
Méthode proposée : Comme la vérification du résumé est insuffisante, l’étude des détails d’architecture dépend d’une consultation dans le texte. Néanmoins, au moins, l’article suggère que le cadre réalise la combinaison « génération auto-régressive + mécanisme améliorant la fiabilité » tout en conservant l’efficacité.
Résultats principaux : Les noms de benchmark et les chiffres n’ont pas pu être suivis dans le périmètre de collecte actuel.
Intérêt et limites : La preuve est souvent bien adaptée à la sûreté, car elle peut plus facilement fournir une justesse formelle. La limite est que, à ce stade, il manque des informations au-delà du résumé, ce qui empêche de retranscrire avec précision des affirmations de performance quantitatives.

※ À l’origine, cet article ferait l’objet d’une expansion d’au moins 1200 caractères après avoir vérifié les résultats principaux du résumé (taux de réponses correctes, indicateurs d’efficacité, etc.). Mais en raison des contraintes de recherche et de récupération dans cette session, l’examen détaillé du résumé de l’article n’est pas terminé. Par conséquent, pour respecter les critères de qualité de l’article, il est recommandé de compléter les chiffres et les définitions de manière certaine lors d’une nouvelle récupération à l’avenir. (arxiv.org)

Source : Twitch: Learning Abstractions for Equational Theorem Proving

Considérations transversales entre les articles

À travers ces quatre articles (dont trois permettent une vérification approfondie des détails du résumé, et un dont l’acquisition est insuffisante), la tendance transversale qui se dessine est la suivante : reconnecter la mise en œuvre des capacités à la mesurabilité et à la vérifiabilité.

Tout d’abord, CSRO (Code-Space Response Oracles) cherche à réduire l’effet boîte noire en générant la prise de décision multi-agents sous forme de « code interprétable ». Cela a une grande valeur dans les contextes où l’on a du mal à observer le comportement (débogage, audit, reproductibilité). (arxiv.org)

Ensuite, ARC-AGI-3 calibre la mesure de l’intelligence des agents en réduisant la dépendance au langage et à la connaissance externe, pour la faire correspondre à des scores d’efficacité qui couvrent le cœur de « l’agenticité » : exploration et modélisation interne, planification, etc. Plus les benchmarks sont conçus correctement, moins les directions d’amélioration de la recherche ont tendance à diverger. (arxiv.org)

Et du côté de la sûreté, l’intuition formelle de la non-compositionnalité de la sûreté fondée sur les capacités ébranle l’optimisme des concepteurs selon lequel « la sûreté des parties implique la sûreté de l’ensemble ». L’élément important ici n’est pas seulement un avertissement : l’article prouve que, s’il existe des dépendances de capacités conjonctives, alors « après composition », on peut atteindre une interdiction. (arxiv.org)

L’implication commune reliant ces trois points est que la recherche converge vers la direction suivante.

Rapprocher le comportement interne des agents vers des représentations faciles à observer et à vérifier (CSRO)
Vérifier avec de meilleurs tests si ce comportement reflète les capacités demandées (ARC-AGI-3)
Et, en partant du principe qu’avec la combinaison de plusieurs composants, les garanties de sûreté peuvent se briser, ré-agencer conception et vérification (preuve de la non-compositionnalité)

Au final, pour l’orientation globale de la recherche en IA, il semble naturel de voir que, non seulement la compétition autour de la « sagesse », mais aussi la « fourniture de cette sagesse sous une forme reproductible, explicable et vérifiable », progresse simultanément au niveau implémentation (génération de code, conception), au niveau évaluation (conception de benchmarks) et au niveau sûreté (garanties formelles).

Par ailleurs, à mesure que se multiplient les « nouvelles façons de mesurer / de nouvelles formes d’implémentation » comme ARC-AGI-3 ou CSRO, l’importance du dispositif d’accueil de la part des conférences (par ex. les formats de soumission incluant les pistes arXiv) devient aussi plus forte. (conf.researchr.org)

Références

Titre	Source d’information	URL
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models	arXiv	https://arxiv.org/abs/2603.10098
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence	arXiv	https://arxiv.org/abs/2603.24621
Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems	arXiv	https://arxiv.org/abs/2603.15973
Twitch: Learning Abstractions for Equational Theorem Proving	arXiv	https://arxiv.org/abs/2603.06849
AIware 2026 - ArXiv Track	AIware / Researchr.org	https://conf.researchr.org/track/aiware-2026/aiware-2026-arxiv-track

Cet article a été généré automatiquement par LLM. Il peut contenir des erreurs.