Revisão de Artigos — Desenvolvendo Simultaneamente a Inteligência de Agentes e a Segurança

Resumo Executivo

De novos trabalhos publicados até 2026-03-30, fica cada vez mais claro que a pesquisa sobre agentes está seguindo um fluxo no qual “como medir a inteligência” e “como torná-la segura” são redesenhados simultaneamente. Em particular, aparecem linhas paralelas: gerar “respostas interpretáveis (políticas)” com LLMs, medir por eficiência de exploração em vez de por linguagem fluente e, como insight formal, mostrar que a segurança baseada em capacidades pode se tornar não-composicional. Esses pontos parecem distintos, mas a ideia central é a mesma: “reduzir a caixa-preta e aumentar a verificabilidade”.

Artigos em Destaque (3 a 5)

Artigo 1: Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Autores / Filiação: Daniel Hennes, Zun Li, John Schultz, Marc Lanctot (a filiação dos autores é listada conforme forma de consulta na página do arXiv). (arxiv.org)
Contexto e questão de pesquisa: Na aprendizagem por reforço multiagente, estruturas que buscam “aproximar a melhor resposta”, como Policy-Space Response Oracles (PSRO), são eficazes. No entanto, se os oráculos forem construídos por deep RL, a política se torna uma caixa-preta, tornando difícil interpretar, confiar e debugar. Assim, a pergunta é se não seria possível substituir a geração da melhor resposta em si por uma forma mais legível para humanos. (arxiv.org)
Método proposto: Code-Space Response Oracles (CSRO) é a ideia de usar LLMs no lugar de oráculos de RL e implementar a melhor resposta (best response) como geração de código. Em outras palavras, ao fazer o LLM “gerar políticas como código”, elas se tornam interpretáveis. Além disso, são fornecidos vários desenhos também para como construir os oráculos, como zero-shot, refinamento iterativo e evolução evolutiva baseada em LLM distribuído (AlphaEvolve). (arxiv.org)
Resultados principais: Dentro do que é possível inferir pelo resumo, o artigo enfatiza que o CSRO atinge desempenho “competitivo” com relação a baselines e, ao mesmo tempo, gera conjuntos de políticas diversas e explicáveis. (arxiv.org)
Significado e limitações: O significado é que isso mostra a possibilidade de a operação central na aprendizagem multiagente mudar seu foco de “otimizar políticas neurais pesadas” para “composição de comportamentos algorítmicos (geração como código)”. Por outro lado, com base apenas no abstract do arXiv que foi possível confirmar aqui, não foi possível acompanhar detalhes como em quais jogos/quais métricas e quanto houve de melhora quantitativa. (arxiv.org)

Os termos especializados que aparecem aqui podem ser entendidos conceitualmente como: oráculo (uma entidade que retorna uma melhor resposta), política (regras para escolher ações) e interpretabilidade (o fato de que uma pessoa consegue acompanhar por que aquela ação foi tomada). Em uma analogia cotidiana, antes o julgamento de um “AI de direção automatizada em caixa-preta” era difícil de auditar por humanos; já no CSRO, a ideia é fazer com que a lógica de decisão seja submetida como código, e não como texto. Se essa direção avançar, no design das interações entre agentes (negociação, jogos e cooperação/competição), pesquisadores poderiam debugar com mais facilidade, e em aplicações industriais a “rastreabilidade da causa quando se encontra um comportamento perigoso” poderia ficar mais rápida.

Fonte: Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Artigo 2: ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Autores / Filiação: ARC Prize Foundation (conforme descrito na página do arXiv). (arxiv.org)
Contexto e questão de pesquisa: Medir o quanto “os agentes mais avançados” são inteligentes, sem depender de linguagem ou de conhecimento externo, é um problema difícil. Seguindo a série ARC-AGI (ARC-AGI-1/2), o ARC-AGI-3 avalia, por meio de um novo ambiente abstrato baseado em turnos, se o agente consegue explorar, estimar objetivos, modelar a dinâmica do ambiente internamente e planejar para gerar uma sequência de ações. (arxiv.org)
Método proposto: O núcleo do ARC-AGI-3 é ajustar a dificuldade do ambiente apenas com Core Knowledge priors (isto é, o conhecimento prévio essencial) — mesmo que o ambiente não forneça “instruções explícitas” — e tornar o pontuamento “baseado em eficiência”. Além disso, ao usar resultados de avaliadores humanos na construção, validação e calibração do ambiente, aumenta-se a interpretabilidade da pontuação do ambiente. (arxiv.org)
Resultados principais: A afirmação mais forte a partir do resumo é que, enquanto humanos resolvem o ambiente (100%), a IA de fronteira atinge uma pontuação de (até março de 2026) menos de 1%. Isso vira uma mensagem de que o design não pode ser superado apenas por “habilidades linguísticas superficiais”. (arxiv.org)
Significado e limitações: O significado é redefinir a inteligência de agentes de uma forma que possa ser calibrada como eficiência de “exploração, inferência e planejamento”, deixando claro para a comunidade de pesquisa “o que deve ser melhorado”. Como limitação, o design do benchmark sempre precisa lidar com a crítica de que “resolver apenas esse benchmark não necessariamente muda a realidade”; além disso, detalhes como reprodutibilidade da pontuação e custo computacional precisam ser verificados no corpo do artigo. (arxiv.org)

Reformulando esse ponto para iniciantes: “benchmark” é um conjunto de “questões de teste”, mas o ARC-AGI-3 não se limita a propor problemas; ele ajusta a dificuldade para refletir as capacidades pretendidas (eficiência de exploração e modelagem interna). Como analogia, não é uma prova escrita, e sim um “simulador de direção”: fornece as regras de trânsito (conhecimento essencial) e, ainda assim, faz o agente encontrar a rota ideal lendo as condições do cenário. Com esse tipo de benchmark estabelecido, em desenvolvimento de agentes por empresas, pode ficar mais fácil acompanhar numericamente não “demos para anúncio”, mas as direções de melhoria.

Fonte: ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Artigo 3: Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Autores / Filiação: Cosimo Spera (conforme descrito na página do arXiv). (arxiv.org)
Contexto e questão de pesquisa: A segurança baseada em capacidades (capability-based safety) parte da intuição de que, ao projetar o sistema para não conseguir chegar a uma capacidade proibida, a segurança seria garantida. Contudo, sistemas reais são compostos por múltiplos agentes ou módulos, e o comportamento pode mudar dependendo das combinações. Assim, este artigo investiga, pela primeira vez com uma prova formal, se a segurança baseada em capacidades é preservada de forma “composicional (compositional)”. (arxiv.org)
Método proposto: A proposta inclui uma estrutura formal e, sobre ela, provas. O cerne indicado pelo resumo é provar que a impossibilidade de alcançar uma capacidade proibida (impossibilidade individual) pode ser violada por combinações de múltiplos agentes (dependencies conjuntivas de capacidades). (arxiv.org)
Resultados principais: Conforme o título do artigo e a declaração do resumo, o artigo prova que capacidades proibidas não são compostas por “raciocínio sobre proibições”, mas sim por dependências de capacidade (coocorrência), fazendo com que o grupo possa alcançar o objetivo proibido. (arxiv.org)
Significado e limitações: O significado é esclarecer que pode não ser válido, em geral, assumir que “se cada módulo é seguro, o sistema inteiro também será seguro”. Isso está diretamente ligado à prática do projeto de segurança. Por outro lado, para este caso também é essencial compreender quais premissas são necessárias e até que ponto a afirmação se generaliza; isso depende da leitura das definições/assunções no corpo do artigo, e o resumo não permite acompanhar condições precisas. (arxiv.org)

Os pontos dos termos especializados são: “composicional (compositional)” é a propriedade de que “a segurança das partes garante a segurança do todo”; e “conjuntivo (conjunctive) dependencies de capacidades” é um tipo de dependência na qual o perigo surge apenas quando múltiplas capacidades coexistem ao mesmo tempo. Em uma analogia cotidiana, é como ter medicamentos perigosos individualmente, mas não haver problema se eles não forem tomados juntos; ao combiná-los, a toxicidade dispara. Em termos de impacto industrial, ao tornar seguros fluxos de trabalho ou a composição de agentes, pode crescer a necessidade não só de validar “segurança por componente”, mas também “o comportamento composicional após a composição”.

Fonte: Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Artigo 4: Tactics: An Efficient and Reliable Framework for Autoregressive Theorem Proving with Language Models

Autores / Filiação: é necessário confirmar a partir da página do arXiv (neste procedimento, não foi possível chegar ao texto completo do resumo; portanto, não afirmo autores/filiação).
Contexto e questão de pesquisa: A prova de teoremas (theorem proving) é uma área em que é difícil garantir “correção” para a IA; então, é necessário um design que concilie confiabilidade (reliability) e eficiência (efficiency) na inferência de modelos generativos. Este conjunto de candidatos foi verificado como uma abordagem que busca realizar, de forma eficiente e confiável, provas autoregressivas geradas por um modelo de linguagem.
Método proposto: Como a verificação do resumo foi insuficiente, a confirmação dos detalhes de arquitetura depende de verificar no corpo do artigo; no entanto, ao menos é sugerido que o artigo realiza uma estrutura que combina “geração autoregressiva + mecanismo para aumentar confiabilidade” junto com eficiência.
Resultados principais: nomes do benchmark e números não foram rastreados dentro do escopo de obtenção desta vez.
Significado e limitações: Provas têm boa compatibilidade com segurança e tendem a fornecer correção formal. Como limitação, ainda faltam informações além do resumo nesta fase, de modo que não é possível transcrever com precisão alegações quantitativas de desempenho.

※ Este artigo, em princípio, exigiria verificar primeiro os principais resultados do resumo (taxa de acerto e métricas de eficiência) e só então avançar para uma explicação de mais de 1200 caracteres; porém, por conta da busca/obtenção nesta ocasião, a revisão detalhada do resumo no corpo do texto não foi concluída. Assim, para atender aos padrões de qualidade do artigo, recomenda-se obter novamente e complementar com números e definições verificáveis na próxima etapa. (arxiv.org)

Fonte: Twitch: Learning Abstractions for Equational Theorem Proving

Considerações Transversais Entre Artigos

As tendências transversais que se tornam visíveis ao considerar estes 4 artigos (dos quais 3 permitiram confirmar fortemente detalhes do resumo; 1 ficou com aquisição insuficiente) são: “reconectar a implementação de capacidades à mensuração e à verificabilidade”.

Primeiro, o CSRO (Code-Space Response Oracles) tenta reduzir o problema da caixa-preta ao gerar decisões multiagente como “código interpretável”. Isso agrega valor especialmente em cenários em que o comportamento é difícil de observar (debug, auditoria, reprodutibilidade). (arxiv.org)

Em seguida, o ARC-AGI-3 calibra a medição da inteligência de agentes reduzindo a dependência de linguagem e de conhecimento externo, transformando-a em uma pontuação de eficiência associada a elementos centrais de “agência”, como exploração e modelagem interna, bem como planejamento. Quanto melhor o design do benchmark, menos a direção de melhoria da pesquisa tende a se desviar. (arxiv.org)

No lado da segurança, a visão formal de não-composicionalidade da segurança baseada em capacidades abala o otimismo do projetista de que “segurança de partes = segurança do todo”. O ponto crucial aqui é que não se trata apenas de um alerta: o artigo prova que, quando existe dependência conjuntiva de capacidades, após a composição pode ser possível alcançar a proibição. (arxiv.org)

A implicação comum que conecta estes três pontos é que a pesquisa está convergindo para a seguinte direção:

deslocar comportamentos internos do agente para representações mais fáceis de observar e validar (CSRO)
avaliar, com testes melhores, se esse comportamento realmente reflete as capacidades exigidas (ARC-AGI-3)
além disso, reorganizar projeto e validação, assumindo que garantias de segurança podem ser quebradas pela combinação de múltiplos componentes (provas de não-composicionalidade)

No fim, como direção geral da pesquisa em IA, é natural entendê-la como um avanço simultâneo em três frentes: na camada de implementação (“geração de código e design”), na camada de avaliação (“design de benchmarks”) e na camada de segurança (“garantias formais”), não apenas competindo por “inteligência”, mas também “fornecendo inteligência de forma que possa ser reproduzida, explicada e validada”.

Além disso, à medida que aumentam “novas formas de medir / novas formas de implementar”, como ARC-AGI-3 e CSRO, cresce também a importância de o lado dos congressos ter espaço adequado para submissões (por exemplo, formatos que incluem faixas arXiv). (conf.researchr.org)

Referências

Título	Fonte de informação	URL
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models	arXiv	https://arxiv.org/abs/2603.10098
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence	arXiv	https://arxiv.org/abs/2603.24621
Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems	arXiv	https://arxiv.org/abs/2603.15973
Twitch: Learning Abstractions for Equational Theorem Proving	arXiv	https://arxiv.org/abs/2603.06849
AIware 2026 - ArXiv Track	AIware / Researchr.org	https://conf.researchr.org/track/aiware-2026/aiware-2026-arxiv-track

Este artigo foi gerado automaticamente por LLM. Pode conter erros.