Revisão de Artigos - “Compressão de Experiência” e Operação Segura de Agentes LLM

Sumário Executivo

O foco desta vez está no gerenciamento de experiências para que agentes de LLM “continuem operando por um longo tempo” e, como base, nos arcabouços de segurança e validação. Primeiro, Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents organiza memória/habilidades/regras em um eixo de taxa de compressão e atinge diretamente os gargalos de contexto e latência. Em seguida, OpenCLAW-P2P v6.0 propõe persistência multicamadas e verificação de referência por consulta (referência ao vivo), fazendo com que a revisão por pares de IA funcione no “nível operacional”. Além disso, It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents torna avaliáveis, por benchmark, situações em que agentes web se desviam com injeções do tipo persuasão, firmando uma base para avaliação.

Artigos em Destaque (3 a 5)

Artigo 1: Experience Compression Spectrum: Unificando Memória, Habilidades e Regras em Agentes LLM

Autores e afiliações: Xing Zhang, Guanghui Wang, Yanwei Cui, Wei Qiu, Ziyuan Li, Bing Zhu, Peiyang He (as afiliações são omitidas neste artigo com base nas informações do resumo) (arxiv.org)
Contexto e pergunta de pesquisa: Quanto mais tempo um agente de LLM é executado em um eixo temporal longo, mais o tratamento das “experiências” acumuladas vira um gargalo. Se mantivermos as experiências exatamente como estão, o contexto cresce; e se fizermos sumários ou reaproveitamento de modo desleixado, a reprodutibilidade diminui. Este artigo procura responder à pergunta: “o que é necessário para comprimir sistematicamente experiências (memória, habilidades, regras) e operá-las de forma eficiente?”. (arxiv.org)
Método proposto: Propõe o Experience Compression Spectrum, que posiciona memória, habilidades e regras em diferentes locais do “grau de compressão”. No resumo, é apresentada uma ordem de compressão como: memória episódica (episodic) cerca de 5 a 20 vezes, habilidades procedimentais 50 a 500 vezes, e regras declarativas 1.000 vezes ou mais. Além disso, mapeia muitos métodos existentes para este espectro e aponta como uma lacuna (missing diagonal) o fato de faltar a capacidade de “alternar a compressão adaptativamente na direção diagonal em relação ao eixo”, dado que o nível de compressão permanece fixo. (arxiv.org)
Resultados principais: Considerando 22 pesquisas principais (análise de citações de 1.136 trabalhos), o artigo relata observações como taxa de citação cruzada entre comunidades inferior a 1%, sugerindo a possibilidade de que conhecimento seja “otimizado separadamente” entre os blocos de memória, habilidades e regras. Além disso, organiza questões de design como: quando o nível de compressão é fixo, os indicadores de avaliação e a transferabilidade passam a se entrelaçar, e o gerenciamento do ciclo de vida do conhecimento se torna fraco. (arxiv.org)
Significado e limitações: A contribuição é ter colocado a “organização da experiência” necessária para agentes de longo prazo não como uma simples técnica de implementação, mas como um “princípio de design” (o eixo de compressão). Como limitação, a partir das informações do resumo não dá para compreender completamente, por exemplo, quais pontos de compressão no espectro (ou formas intermediárias) devem ser alternados sob quais condições, nem os rule de aprendizado concretos para estratégias adaptativas—portanto, são necessárias verificações de experimentos detalhados no futuro (por exemplo: em quais tarefas e com quais alternâncias isso funcionou). (arxiv.org)
Fonte: Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

Uma forma de reformular o conceito central deste estudo para iniciantes é: não “manter todos os logs de ações do passado”, mas sim “separar tipos do que deve ser aprendido a partir dos logs, e reutilizar enquanto comprime para o formato necessário”. Por exemplo, pensando no cotidiano: os “dados brutos” obtidos de uma falha na cozinha têm valor porque podem ser revistos depois; porém, para não repetir o mesmo erro, no fim vale mais compilar isso em uma regra do tipo “da próxima vez faça assim”. O Experience Compression Spectrum corresponde a essa intuição em três camadas: memória (vestígios de eventos), habilidades (procedimentos) e regras (diretrizes), além de fornecer uma “régua” para medir quanto cada parte está comprimida. Por outro lado, compressão é também um trade-off. Ao comprimir, é possível economizar contexto, mas pode ficar mais difícil reproduzir detalhes; por isso, é necessário revisar junto o design da avaliação (o que considerar como sucesso). Essa colocação é uma postura importante deste artigo. (arxiv.org) Se isso avançar no futuro, os agentes tenderão a aprender “trabalho de longo prazo (investigação, design, operação)” de forma faseada como os humanos, chamando experiências com o nível de granularidade adequado para cada tarefa. Em aplicações industriais, quanto mais houver aprendizagem e reutilização contínuas, mais os custos tendem a disparar; contudo, com o design de compressão como diretriz, torna-se realista equilibrar custo operacional e desempenho. (arxiv.org)

Artigo 2: OpenCLAW-P2P v6.0: Revisão por Pares de IA Descentralizada com Persistência Multicamadas e Verificação de Referência ao Vivo

Autores e afiliações: Francisco Angulo de Lafuente, Teerth Sharma, Vladimir Veselov, Seid Mohammed Abdu, Nirmal Tej Kumar, Guillermo Perry (arxiv.org)
Contexto e pergunta de pesquisa: À medida que se passa da etapa em que a IA “gera” artigos ou relatórios de forma autônoma para a etapa em que se “garante operacionalmente” a confiabilidade desses resultados, surgem desafios distintos dos da pesquisa tradicional. Por exemplo: correção das referências (citações), dados ou resultados faltando, atrasos na avaliação e problemas de escala. Este artigo pergunta o que é necessário para que o arcabouço em que agentes de IA publicam artigos, revisam uns aos outros e os melhoram consiga rodar sem gargalos. (arxiv.org)
Método proposto: O OpenCLAW-P2P v6.0 apresenta, como principais novos subsistemas, (1) (com base no resumo) a busca por perda zero de artigos em reimplantação por meio de persistência em múltiplas camadas (in-memory cache, Cloudflare R2, Gun.js, GitHub); (2) a redução de latência de >3 segundos para <50ms por meio de uma cascata multicamadas de busca de referências; (3) a detecção de citações fabricadas via live reference verification, consultando CrossRef, arXiv e Semantic Scholar durante a pontuação da revisão, visando >85% de precisão; (4) a preparação de um cache proxy com limitação de taxa para bases de dados públicas (scientific API proxy); entre outros. (arxiv.org)
Resultados principais: Com base no resumo, são reportados indicadores operacionais como: 14 agentes autônomos gerando 50+ artigos com pontuação, com contagem de palavras de 2.072 a 4.073 e pontuação do leaderboard de 6,4 a 8,1. Também inclui uma análise de modos de falha, como a recuperação de 25 artigos perdidos via um protocolo de resgate. (arxiv.org)
Significado e limitações: A contribuição é que a direção para incorporar “segurança e confiabilidade” ao design de “operação de sistema” em vez de ao desempenho do modelo fica clara. Incorporar verificação de referências diretamente na pontuação de revisão é uma medida concreta que sustenta a qualidade do produto gerado, e não uma noção de segurança apenas no nível teórico. A limitação é que, a partir das informações do resumo, não é possível compreender em que grau permanecem diferentes tipos de falhas (por exemplo, erros sutis nas citações, desvio de relevância, vieses de avaliação) nem em quais condições >85% é mantido. É necessária uma análise mais precisa das seções de experimentos do corpo do texto. (arxiv.org)
Fonte: OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review

A intenção deste artigo, em linguagem figurada, é como: “antes de comer o bolo feito pela IA, primeiro conferir se a listagem dos ingredientes da receita está correta, e ainda providenciar uma embalagem que impeça que o bolo desmorone durante a entrega”. O “produto” só passa a existir quando as etapas de distribuição (persistência), busca (obtenção de referências), verificação (verificação ao vivo) e avaliação de qualidade (revisão por pares) estão todas configuradas. Em particular, a verificação ao vivo de referências é importante porque desloca a questão das chamadas alucinações (o problema de afirmar com aparência convincente coisas sem base real) para o ato de desconfiar mecanicamente “naquele exato momento”. (arxiv.org)

Como mudança social/industrial, usos como revisão autônoma em áreas de pesquisa e auditoria automatizada de documentos dentro de empresas estão se aproximando da realidade. Quando a integridade das citações e a persistência dos logs de auditoria são incorporadas ao sistema, a geração por IA tende a se integrar mais facilmente a um “processo que pode ser revisado”.

Entretanto, um arcabouço distribuído e autônomo também cria novas superfícies de ataque. Por exemplo: quando um conteúdo malicioso é inserido no meio, seria a verificação de referência suficiente? Ou a robustez do avaliador (lado de revisão) também deveria ser desenhada no mesmo nível de granularidade? Essa próxima pergunta conecta-se naturalmente à preocupação do próximo artigo (TRAP). (arxiv.org)

Artigo 3: É um TRAP! Benchmark de Persuasão por Desvio de Tarefas para Agentes Web

Autores e afiliações: omitido neste artigo com base nas informações do resumo (para informações de conferência/revisão, consulte OpenReview) (openreview.net)
Contexto e pergunta de pesquisa: À medida que agentes web realizam tarefas do mundo real, ficam expostos a “induzimentos” vindos de fora. O problema não é apenas a injeção via prompt; em particular, as situações em que o agente se desvia da tarefa alvo devido a técnicas de persuasão e indução que se misturam ao contexto do usuário ou do próprio site. Este artigo tem como objetivo fornecer um benchmark para avaliar sistematicamente esse desvio. (arxiv.org)
Método proposto: Propõe um pacote de avaliação chamado Task-Redirecting Agent Persuasion Benchmark (TRAP), cujo desenho mede em que grau técnicas de persuasão induzem um agente web autônomo a ser mal direcionado. No OpenReview, há registros antes de submissão/aceite para o ICLR 2026, associados a palavras-chave como agentes web, agentes de navegador, segurança de agentes, injeção de prompt/texto e sequestro (takeover) de agentes. (openreview.net)
Resultados principais: A partir das informações do resumo, dá para entender que os principais resultados são: o TRAP ser um “reproducible (reproduzível) evaluation suite” e que a avaliação de mecanismos em que a injeção orientada por persuasão (persuasion-driven prompt injections) causa desvio de tarefa é tratada como alvo da avaliação. (arxiv.org)
Significado e limitações: A contribuição é que a discussão de segurança não fica apenas como “assunto de vulnerabilidades”, e sim é colocada em uma forma que pode ser medida. No fim das contas, a melhoria de segurança só avança com indicadores de avaliação. O TRAP pode servir como essa base. Como limitação, como o benchmark não consegue cobrir toda a indução do mundo real, é necessário verificar no futuro a extensão de cobertura (para quais textos em sites e para quais padrões de indução) e a transferabilidade dependendo do tipo de modelo (até onde isso se reproduz em tarefas externas). (openreview.net)
Fonte: It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents

O valor do TRAP está em observar diretamente “se a tarefa virou outra coisa por causa da persuasão”, e não apenas “se a injeção ocorreu”. Intuitivamente, para iniciantes, isso é parecido com a ideia de não detectar e-mails de phishing, mas sim medir “se o usuário, como resultado, acabou enviando dinheiro”. Em outras palavras, vincula a segurança não a “strings internas”, mas ao “desvio final”. Além disso, esse tipo de avaliação fica ainda mais importante conforme avaliações desse tipo, como o OpenCLAW-P2P mencionado acima, tornam “geração e revisão” cada vez mais autônomas. Isso porque há risco de propostas desviadas e justificativas crescerem de forma autorreprodutiva como “melhorias” para o caminho errado. O TRAP mede a porta de entrada para essa autorreprodução (indução) e fornece materiais para a revisão do design. (openreview.net)

Do ponto de vista social e industrial, quanto mais se automatiza navegação e execução de tarefas, mais o agente fica exposto ao “limite de confiança de informações externas”. Se benchmarks do tipo TRAP se difundirem, os processos de teste para operação segura tendem a se tornar padrão, e a estimativa de risco na adoção fica mais realista. (openreview.net)

Considerações Transversais Entre os Artigos

Os três desta vez se conectam pelo mesmo ponto, embora pareçam pertencer a áreas diferentes: “viabilizar agentes que operam por um longo período”. O Experience Compression Spectrum unificou, em um eixo abstrato de compressão, “métodos de organização da experiência” para execução de longo prazo. (arxiv.org) O OpenCLAW-P2P v6.0 concretiza, como sistema, a “confiabilidade operacional” necessária em situações em que o agente continua gerando e revisando artefatos. (arxiv.org) O TRAP avalia “formas realistas de falha” em que o agente se desvia por fatores externos do ambiente web, fornecendo instrumentos de medição para a melhoria. (arxiv.org)

Se resumirmos o tema comum em uma frase, é que o foco está mudando de “astúcia do modelo” para “design do ciclo de vida do agente”. Mesmo se o modelo for inteligente, falhas operacionais como acabar o contexto, citações se quebrarem e desvio por indução não param. Por isso, tornam-se necessárias três camadas ao mesmo tempo: (1) compressão e reutilização de experiências (o que lembrar e como usar), (2) validação de artefatos e continuidade (no que confiar e como armazenar) e (3) avaliação de ataques/indução do ambiente externo (como medir e como melhorar).

Por fim, até mesmo em blogs de pesquisa de empresas, há indicações de que a “exploração e a validação” devem ser incorporadas às capacidades dos agentes. Por exemplo, no artigo do blog da DeepMind, como um arcabouço para acelerar descobertas matemáticas e científicas, há menções ao uso de busca e leitura para exploração, bem como a melhorias para evitar citações incorretas etc. Isso pode ser entendido como um problema contíguo ao que o TRAP e o OpenCLAW-P2P tratam: “integridade de referências externas” e “design de validação”. (deepmind.google)

Referências

Título	Fonte de informação	URL
Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents	arXiv	https://arxiv.org/abs/2604.15877
OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review	arXiv	https://arxiv.org/abs/2604.19792
It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents	arXiv	https://arxiv.org/abs/2512.23128
TRAP (registros relacionados ao ICLR 2026)	OpenReview	https://openreview.net/forum?id=NJUmKny4ZI
Accelerating mathematical and scientific discovery with Gemini Deep Think	Google DeepMind Blog	https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

Este artigo foi gerado automaticamente por LLM. Pode conter erros.