Revisión de artículos: «Compresión de la experiencia» y «operación segura» de agentes LLM

Resumen ejecutivo

El foco de esta edición está en la gestión de la experiencia para que los agentes LLM «permanezcan en funcionamiento durante mucho tiempo», y en los marcos de seguridad y verificación que lo sustentan. En primer lugar, Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents organiza la memoria/habilidades/reglas en un eje de tasa de compresión, atacando directamente los cuellos de botella de contexto y latencia. Luego, OpenCLAW-P2P v6.0 propone persistencia multicapa y verificación de referencias con consulta, con el objetivo de hacer viable una revisión entre pares de IA a «nivel de operación». Además, It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents convierte en benchmark las situaciones en las que agentes web se desvían mediante inyección persuasiva, estableciendo una base para la evaluación.

Artículos destacados (3 a 5)

Artículo 1: Espectro de compresión de la experiencia: unificación de memoria, habilidades y reglas en agentes LLM

Autores y afiliaciones: Xing Zhang, Guanghui Wang, Yanwei Cui, Wei Qiu, Ziyuan Li, Bing Zhu, Peiyang He (las afiliaciones se omiten en este artículo con base en la información del resumen del trabajo) (arxiv.org)
Antecedentes y pregunta de investigación: A medida que los agentes LLM se ejecutan durante horizontes temporales más largos, el manejo de las «experiencias» acumuladas se convierte en un cuello de botella. Si se conserva la experiencia tal cual, el contexto se infla; y si se realizan resúmenes o reutilización de forma tosco, cae la reproducibilidad. Este artículo busca responder a la pregunta: «¿Qué se necesita para comprimir de manera sistemática y operar la experiencia (memoria, habilidades y reglas)?». (arxiv.org)
Método propuesto: Se propone Experience Compression Spectrum, que coloca memoria, habilidades y reglas en distintas posiciones según su «grado de compresión». En el resumen se muestra el orden de compresión: las memorias episódicas (episodic) alrededor de 5 a 20 veces, las habilidades procedimentales 50 a 500 veces y las reglas declarativas 1,000 veces o más. Además, se mapean muchos métodos existentes a este espectro y se plantea como brecha (missing diagonal) que falta la capacidad de «cambiar la compresión adaptativamente en dirección diagonal respecto al eje», cuando el nivel de compresión está fijo. (arxiv.org)
Resultados principales: Tomando 22 investigaciones principales (análisis de 1,136 citas), se reporta una observación de que la tasa de citación cruzada entre comunidades es inferior al 1%, sugiriendo que el conocimiento podría estar «optimizado por separado» entre los sistemas de memoria, habilidades y reglas. Además, se organizan cuestiones de diseño como que, cuando el nivel de compresión es fijo, las métricas de evaluación y la transferibilidad (transferability) se entrelazan entre sí, y la gestión del ciclo de vida del conocimiento es débil. (arxiv.org)
Significado y limitaciones: El significado está en haber aterrizado la «organización de la experiencia» necesaria para agentes de largo plazo no como una mera técnica de implementación, sino como un «principio de diseño (eje de compresión)». Como limitación, a partir de la información a nivel de resumen, no se puede leer completamente hasta qué punto se debe conmutar qué punto de compresión (o forma intermedia) del espectro bajo qué condiciones, ni cuál es la regla de aprendizaje concreta para la estrategia adaptativa; por tanto, se requiere confirmar con experimentos detallados en el futuro (p. ej., en qué tareas funcionó qué conmutación). (arxiv.org)
Fuente: Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

Reformulada para principiantes, la idea central de esta investigación es: en lugar de «seguir conservando todo el registro de acciones del pasado», «separar los tipos de cosas que se debe aprender del registro, y usarlas reutilizándolas mientras se comprimen en la forma necesaria». Por ejemplo, en la vida cotidiana: los «datos en bruto» derivados de un fracaso al cocinar son valiosos en la medida en que luego se pueden revisar, pero para no repetir el mismo fallo, finalmente es más rápido resumirlo en una regla del tipo «la próxima vez, haz esto». El espectro de compresión de la experiencia corresponde a esta intuición con tres capas —memoria (huellas de acontecimientos), habilidades (procedimientos) y reglas (lineamientos)—, y además proporciona una unidad para medir «cuánta compresión» hay. Por otro lado, la compresión también implica compromisos. Aunque comprimir puede ahorrar contexto, puede dificultar la reproducción de detalles; por ello, el propio diseño de la evaluación (qué se considera un éxito) debe revisarse junto con ello. Esta pregunta es una postura importante de este artículo. (arxiv.org) A medida que esto avance en el futuro, se acercará el escenario en el que el agente «aprende gradualmente trabajos de largo plazo (investigación, diseño, operación)» como lo hace un humano, y recupera la experiencia con un nivel de granularidad adecuado para cada tarea. En cuanto a aplicaciones industriales, a medida que avance el aprendizaje y la reutilización constantes, los costos tienden a dispararse; pero si el diseño de la compresión se vuelve una guía, la conciliación entre costo operativo y desempeño se vuelve más realista. (arxiv.org)

Artículo 2: OpenCLAW-P2P v6.0: revisión entre pares de IA distribuida mediante persistencia multicapa y verificación de referencias en vivo

Autores y afiliaciones: Francisco Angulo de Lafuente, Teerth Sharma, Vladimir Veselov, Seid Mohammed Abdu, Nirmal Tej Kumar, Guillermo Perry (arxiv.org)
Antecedentes y pregunta de investigación: Cuando el desarrollo pasa de la etapa en la que la IA «genera» autónomamente artículos o informes, a la etapa en la que su credibilidad se «garantiza de manera operativa», aparecen desafíos que son distintos a los de la investigación tradicional. Por ejemplo: si las referencias (citas) son correctas, si faltan datos o resultados, retrasos en la evaluación o fallas a escala. Este artículo se pregunta qué es necesario para que la IA agente publique artículos, se sometan a revisión entre sí y mejore dentro de un marco que funcione sin cuellos de botella. (arxiv.org)
Método propuesto: OpenCLAW-P2P v6.0 plantea, como nuevos subsistemas principales: (1) persistencia multicapa (cache en memoria, Cloudflare R2, Gun.js, GitHub) para buscar cero pérdida de artículos al redeployizar (basado en el resumen); (2) reducir la latencia de >3 segundos a <50 ms mediante una cascada multicapa de búsqueda de referencias; (3) detectar citas inventadas con live reference verification que consulta durante el scoring de revisión a CrossRef, arXiv y Semantic Scholar, apuntando a >85% de precisión; y (4) preparar un proxy de caché con limitación de velocidad (scientific API proxy) para bases de datos públicas. (arxiv.org)
Resultados principales: Según el resumen, se reporta que 14 agentes autónomos generan más de 50 artículos con puntuaciones, con recuentos de palabras de 2,072 a 4,073 y puntuaciones en la tabla de clasificación de 6.4 a 8.1 como métricas operativas. También incluye análisis de modos de falla, como la recuperación de 25 artículos perdidos mediante un protocolo para rescatarlos. (arxiv.org)
Significado y limitaciones: El significado está en la claridad de la dirección: incorporar la «seguridad y confiabilidad» en el diseño del «sistema de operación», no en el rendimiento del modelo. Integrar la verificación de referencias directamente en el scoring de revisión hace que no sea un tema de seguridad solo de escritorio, sino una acción concreta que sustenta la calidad del producto generado. La limitación es que, a partir de la información del resumen, no se puede determinar cuánta falla de qué tipo (p. ej., errores sutiles en citas, desviación de relevancia, sesgo en la evaluación) queda, ni bajo qué condiciones se mantiene >85%. Para los detalles, es necesario revisar minuciosamente la sección experimental del cuerpo. (arxiv.org)
Fuente: OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review

La intención de este artículo, expresada con una analogía, es: antes de que te comas el pastel que crea la IA, primero inspeccionar que la lista de materiales de la receta es correcta y, además, preparar un embalaje que evite que el pastel se aplaste durante el envío. Más allá de lo bien que sea el modelo, el «producto» solo llega a existir cuando se combinan los pasos de distribución (persistencia), búsqueda (obtención de referencias), inspección (verificación en vivo) y evaluación de calidad (revisión por pares). En particular, la verificación en vivo de referencias es importante porque desplaza el problema de las llamadas alucinaciones (declaraciones con apariencia de sustento sobre evidencias inexistentes) hacia una postura de duda mecánica «en el momento». (arxiv.org) Como cambio hacia lo social e industrial, los usos como revisiones autónomas en el campo de investigación o auditorías automáticas de documentación interna dentro de empresas se acercan más a la realidad. Cuando la sanidad de las citas y la persistencia de los logs de auditoría se implementan en el sistema, la generación por IA tiende a integrarse en un «proceso que se puede revisar». Sin embargo, los marcos distribuidos y autónomos también crean nuevas superficies de ataque. Por ejemplo, cuando se inyecta contenido malicioso, surge naturalmente la siguiente pregunta: ¿la verificación de referencias por sí sola es suficiente, o también debe diseñarse con la misma granularidad la robustez del evaluador (lado de revisión)? Aquí conecta con la conciencia del problema del siguiente artículo (TRAP). (arxiv.org)

Artículo 3: ¡Es un TRAP! Benchmark de persuasión para desvío de tareas en agentes web

Autores y afiliaciones: Se omite en este artículo según la información del resumen (para información de conferencia/revisión por pares, ver OpenReview) (openreview.net)
Antecedentes y pregunta de investigación: Cuanto más un agente web cumple tareas reales, más expuesto está a «inducciones» externas. No se trata solo de inyección de prompt; mediante persuasión/inducción que se infiltra en el contexto del usuario o del sitio, el agente puede desviarse de la tarea objetivo. Este artículo tiene como objetivo proporcionar un benchmark para evaluar sistemáticamente ese desvío. (arxiv.org)
Método propuesto: Se propone un conjunto de evaluación llamado Task-Redirecting Agent Persuasion Benchmark（TRAP）, diseñado para medir el grado en que las técnicas de persuasión inducen a un agente web autónomo a equivocarse. En OpenReview se muestran registros previos a la postulación y aceptación para ICLR 2026, y se asocia con palabras clave como agentes web, agentes de navegador, seguridad de agentes, inyección de prompt/texto y secuestro de agentes. (openreview.net)
Resultados principales: A nivel de resumen, se entiende que el principal logro de TRAP es ser un «conjunto de evaluación reproducible (reproducible)» y que convierte en objeto de evaluación el mecanismo por el cual la inyección impulsada por persuasión (persuasion-driven prompt injections) causa el desvío de la tarea. (arxiv.org)
Significado y limitaciones: El significado es que la discusión de seguridad no se queda en hablar de «vulnerabilidades», sino que se lleva a una forma que se puede medir. La mejora de la seguridad, en última instancia, es difícil de avanzar sin métricas de evaluación; TRAP puede ser esa base. Como limitación, el benchmark no puede abarcar toda la inducción del mundo real, por lo que en el futuro se debe confirmar el alcance que cubre (en qué textos de sitios o qué patrones de inducción responde) y la transferibilidad según el tipo de modelo (hasta qué punto se reproduce en tareas externas). (openreview.net)
Fuente: It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents

El valor de TRAP está en mirar directamente «si la tarea se convirtió en otra cosa por la persuasión», en vez de solo preguntar «si ocurrió o no la inyección». Para hacerlo intuitivo a principiantes, es una idea más parecida a medir «si el usuario terminó enviando dinero como resultado» en vez de detectar el phishing por correo. Es decir, ata la seguridad no a «cadenas de texto internas», sino a la «desviación final». Además, este tipo de evaluación se vuelve aún más importante a medida que la generación y la revisión se vuelven autónomas, como en OpenCLAW-P2P mencionado anteriormente. Esto se debe a que existe el riesgo de que propuestas desviadas y su justificación se auto-repliquen como mejoras en la dirección equivocada. TRAP mide la entrada a esa auto-replicación (la inducción) y proporciona material para reconsiderar el diseño. (openreview.net) Desde la perspectiva social e industrial, cuanto más se automatiza la navegación y la ejecución de tareas, más expuestos quedan los agentes a los «límites de confianza de información externa». Si se popularizan benchmarks tipo TRAP, los procesos de prueba para una operación segura se estandarizarán y la estimación de riesgos al momento de la adopción se volverá más realista. (openreview.net)

Consideraciones transversales entre artículos

Estas tres propuestas conectan entre sí en un punto aunque parezcan pertenecer a campos distintos: «hacer viable un agente que funcione durante mucho tiempo». Experience Compression Spectrum unificó la «forma de organizar la experiencia» para la ejecución de largo plazo mediante un eje abstracto de compresión. (arxiv.org) OpenCLAW-P2P v6.0 concreta como sistema la «confiabilidad operativa» necesaria cuando el agente sigue generando y revisando productos (persistencia, verificación de referencias y escalabilidad). (arxiv.org) TRAP evalúa «formas realistas de fallos» en las que el agente se desvía por factores externos del entorno web, y proporciona instrumentos de medición para mejorar. (arxiv.org)

Si se resume el tema común en una frase, es que el centro de gravedad se ha desplazado de la «habilidad del modelo» hacia el «diseño del ciclo de vida del agente». Aunque el modelo sea más inteligente, no se detienen fallos operativos como que se agota el contexto, que se rompen las citas o que el agente se desvía por inducción. Por ello, se requieren simultáneamente tres capas: (1) compresión y reutilización de la experiencia (qué memorizar y cómo usarlo), (2) verificación de los productos generados y continuidad (qué confiar y cómo almacenarlo), y (3) evaluación de ataques/inducciones del entorno externo (cómo medirlo y cómo mejorarlo).

Por último, se sugiere en blogs de investigación de empresas la dirección de «incluir exploración y verificación dentro de las capacidades del agente». Por ejemplo, en un artículo del blog de DeepMind se menciona un marco para acelerar descubrimientos matemáticos y científicos que incluye exploración mediante búsqueda y lectura, junto con esfuerzos para evitar citas incorrectas, etc. Esto puede considerarse una línea continua de la conciencia del problema que tratan TRAP y OpenCLAW-P2P: «la sanidad de referencias externas» y «el diseño de la verificación». (deepmind.google)

Referencias

Título	Fuente de información	URL
Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents	arXiv	https://arxiv.org/abs/2604.15877
OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation of Decentralized AI Peer Review	arXiv	https://arxiv.org/abs/2604.19792
It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents	arXiv	https://arxiv.org/abs/2512.23128
TRAP（registros relacionados con ICLR 2026）	OpenReview	https://openreview.net/forum?id=NJUmKny4ZI
Accelerating mathematical and scientific discovery with Gemini Deep Think	Google DeepMind Blog	https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

Este artículo fue generado automáticamente por LLM. Puede contener errores.