Resumen de artículos del mes - Inteligencia de agentes auditable

1. Resumen ejecutivo

La tendencia de artículos de abril fue un mes en el que la IA de agentes comenzó a demostrar no solo que “se comporta de manera inteligente” sino que “puede operar de manera segura”, como se muestra en el diseño de evaluación, verificación y auditoría. La revisión externa de casos de seguridad, el monitoreo no supervisado que identifica desviaciones más allá de reglas conocidas, y la verificación formal previa de la base de entornos aislados avanzan en paralelo. Además, la agentificación de RAG, la alineación multimodal, los modelos fundacionales en descubrimiento de fármacos y medicina, y la integración de restricciones físicas en robótica también enfatizan la “realización del sistema”. Los artículos discutidos superan los 20 en clasificaciones generales, con campos que van desde seguridad de IA y evaluación de agentes hasta multimodal, robótica, ciencias de la vida y descubrimiento de fármacos, ciencia computacional social, finanzas y diseño institucional.

2. Tendencias de investigación del mes

Tendencia 1: La seguridad pasó de “corrección del modelo” a “verificabilidad operacional” (evaluación, auditoría y métodos formales)

Lo que caracterizó este mes fue que el debate sobre seguridad no se separó de la “mejora de rendimiento”, sino que buscó introducir “sobre qué base se puede decir que es seguro” en una forma operable. El marco representativo es la auditoría externa de casos de seguridad (safety cases) a través de la revisión, verificando la calidad débil y fuerte de afirmaciones, evidencia, supuestos y métodos de evaluación (Lessons from External Review of DeepMind’s Scheming Inability Safety Case). La esencia aquí es que antes de la bondad o maldad del comportamiento del modelo, el “objeto que debe ser auditado es la calidad de la argumentación que respalda la afirmación de seguridad”.

Además, existe un diseño para identificar “desviaciones desconocidas” que son difíciles de detectar con reglas o jueces predefinidos, mediante monitoreo no supervisado (Unsupervised monitoring to surface novel agent misbehaviors beyond predefined rules/judges). Esta dirección proporciona una entrada de “detección de anomalías” a la seguridad, mientras reduce el costo de la proliferación de reglas. Como resultado, la seguridad se convierte no solo en “aprobado/reprobado”, sino en un problema de “camino operacional” conectado a reinvestigación, priorización y revisión humana.

Al mismo tiempo, existe una dirección de verificación formal previa de la base (infraestructura y condiciones límite) suponiendo que los supuestos del entorno aislado podrían ser violados (Mythos and the Unverified Cage: Z3-Based Pre-Deployment Verification for Frontier-Model Sandbox Infrastructure). Este es un enfoque que hace que el aislamiento sea no solo una filosofía de diseño sino una especificación verificable. El consenso de todo el mes converge en el punto de que cuanto más avanza la agentificación, más se encadenan las superficies de ataque, y la seguridad no puede seguir el ritmo si es solo “extinción de incendios post-hoc”.

Relacionado con esto, hay investigación que trata de manera empírica mediante análisis de asequibilidad cómo el marco de Preparedness, como diseño institucional, realmente induce “acciones de implementación” (The 2025 OpenAI Preparedness Framework does not guarantee any AI risk mitigation practices: a proof-of-concept for affordance analyses of AI safety policies), que también se conecta a la misma “teoría del diseño operacional”. La seguridad se cuestiona no como declaración sino como diseño ambiental que activa comportamiento.

Tendencia 2: RAG de agentes pasó de “adquisición paralela” a “síntesis y control de desviación” (MASS-RAG, TRAP, OpenCLAW)

Otro eje de abril fue que RAG de tipo agente trasladó el énfasis de “expansión de adquisición de información” a “integración y garantía de integridad de información”. MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation es un ejemplo representativo, introduciendo un paso de síntesis con revisión de confiabilidad al final donde múltiples agentes adquieren y luego revisan. Busca mejoras de precisión y reducción de tasas de contaminación de información en preguntas de bases de conocimiento complejas. Intenta llenar “pérdidas de prueba” y “falta de contexto” que son fáciles de ocurrir cuando solo hay búsqueda única a generación, como un flujo de trabajo.

En contraste, en el lado de la seguridad, se destaca la dirección de medir como referencia el mecanismo por el cual los agentes web se “desvían” a través de la “persuasión” (It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents). El punto clave es que el diseño no observa la presencia o ausencia de inyección, sino que mide si “la tarea se convirtió en otra cosa” a través de la persuasión. Mientras RAG es un “mecanismo de integración”, TRAP es un “medidor de desviación”, acercando la evaluación de seguridad de RAG de agentes a la operación real.

Además, incluso si la IA genera artículos o reportes, un marco para garantizar su integridad (corrección de referencias, persistencia de pérdida cero, escala de evaluación) en operación apareció como OpenCLAW-P2P v6.0. Aquí, a través de la verificación de referencias en vivo (consultas a CrossRef/arXiv/Semantic Scholar, etc.) y persistencia multicapa, genera y auditoría se conectan como “procesos”. Como resultado, el agente no es solo un sujeto de salida, sino un sujeto que continúa en verificación y mejora de salida.

Estos tres puntos (síntesis de MASS-RAG, evaluación de desviación de TRAP, conexión operacional de OpenCLAW) unidos significan que RAG de agentes está comenzando a ser diseñado como un producto que incluye no solo “rendimiento” sino también “verificabilidad”.

Tendencia 3: Coherencia multimodal, estabilidad de creencias y optimización de uso de herramientas (descomposición de la “causa” del error)

Abril fue un mes en el que mucha investigación descompone la razón por la que un modelo parece correcto desde “afuera”. La evaluación que expone la “ilusión del razonamiento encarnado” en el comportamiento visión-lenguaje-acción (Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models) ilumina el problema de continuar generando planes plausibles incluso cuando no hay coherencia con el mundo físico. A partir de aquí, el implicación para el diseño de seguridad se fortalece de que se necesita no solo mejora en cantidad de datos y aprendizaje, sino evaluación conectada a restricciones físicas del mundo real.

También se ven investigaciones que capturan teóricamente la competencia modal (el problema de que el lenguaje domine la visión) e mejoran mediante intervención en decodificación (Dual Alignment Between Language Model Layers and Human Sentence Processing). Esto tiene valor de implementación en que sugiere una dirección de “ajuste de peso de token en tiempo de inferencia” en lugar de solo “arreglar con ajuste fino”.

Además, se examina el “uso excesivo de herramientas” de LLM, investigando el fenómeno en el que incluso problemas que pueden completarse con conocimiento interno se consultan en herramientas externas, y se demuestra que esto puede llevar a disminución de eficiencia e información errónea (The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?). Aquí, la seguridad además de costo, retraso y carga de monitoreo se incluye, haciendo “cuándo detener” un objeto de diseño de toma de decisiones.

Y se realiza probing sobre por qué las creencias internas no son estables ante persona (Probing the Lack of Stable Internal Beliefs in LLMs). Esta línea intenta reconstruir el sistema de coordenadas de evaluación y depuración devolviendo la causa de fluctuación de salida al “estado interno” para observación.

Además, se explica desde análisis de gradientes por qué la alineación RLHF se ve “superficial” (Why Is RLHF Alignment Shallow? A Gradient Analysis). Esto previene que la dirección de mejora sea engañada describiendo donde la señal de seguridad está llegando al aprendizaje como “dinámica”.

En general, el punto común de abril es que “los errores no son meramente diferencia de rendimiento, sino descompuestos como problemas de mecanismo (creencia, competencia, llegada de señal, parada de herramientas)”.

Tendencia 4: En descubrimiento de fármacos, medicina y base molecular, coherencia física y contexto temporal son los protagonistas (APOLLO/GPT-Rosalind, etc.)

La ciencia de la vida fue un mes en el que la IA generativa pasó de “texto” a “conexión a procesos científicos”. APOLLO que integra representaciones de pacientes virtuales temporalmente usando eventos médicos de gran escala, mostró mejora dramática de rendimiento en predicción de enfermedades como modelo fundacional temporal multimodal. En lugar de apuntar a una sola modalidad, la característica es conectar el largo contexto de series temporales del paciente, se podría decir que la “predictibilidad” de la medicina fue reducida a “representación fundacional”.

En descubrimiento de fármacos, fue discutida la dirección de apoyo a cadenas de síntesis de pruebas, generación de hipótesis y planificación experimental como GPT-Rosalind. También se sugiere la existencia de sistemas que usan modelos de difusión para capturar fluctuaciones dinámicas de proteínas y avanzar en diseño molecular (ejemplo uvahealth.comrelacionado con aceleración de descubrimiento de fármacos).

Incluso a nivel molecular, UBio-MolFM: A Universal Molecular Foundation Model for Bio-Systems como modelo fundacional molecular universal orientado hacia coherencia física (alineación energía/fuerzas, etc.) demostró la corriente de colocar coherencia física como eje del diseño de aprendizaje, no solo ajuste de datos. Además, la dirección de transformar el paisaje de adaptabilidad de proteína a una forma “fácil de manejar” para optimización de recocido cuántico (Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization) también se propaga a paradigmas de búsqueda en descubrimiento de fármacos.

El resumen de ciencia de la vida de abril es el movimiento de “solo generar” a “integrar cómo se hace la ciencia (evidencia → hipótesis → planificación → verificación)” en modelos fundacionales.

Tendencia 5: A medida que avanza la agentificación, “eficiencia” también es esencial (cuantización/optimización de inferencia/aprendizaje de restricciones físicas)

Finalmente, a medida que los agentes entran en operación real, costo computacional y retraso se convierten en problemas, y también se entrelazan con procesos de seguridad y auditoría. Por lo tanto, la investigación de eficiencia también se destaca en el mismo mes. Por ejemplo, la cuantización de bajo bit de alta precisión GSQ (GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling) contribuye a ejecución en borde y consideración de privacidad.

Como optimización de flujo de trabajo de inferencia, la aceleración de descubrimiento científico y matemático por búsqueda agentica de DeepMind (Accelerating mathematical and scientific discovery with Gemini Deep Think). Además, la dirección como Neuro-Symbolic que combina capas lógicas para reducir consumo de energía mientras aumenta tasa de éxito (en esta entrada, Neuro-symbolic explanation es central, URLs se dispersan como Apple, etc.) se alinea con la tendencia de eficiencia de todo el mes.

En robótica también aparecen regularización basada en energía y restricción física integrada en aprendizaje (ejemplo: Energy-based Regularization for Learning Residual Dynamics in Neural MPC), y se ve movimiento de estabilizar control integrando física en el lado de aprendizaje.

3. Selección de artículos importantes (5-10 papers)

[Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization](Paisajes de adaptabilidad de proteína con latencia binaria: Optimización con recocido cuántico)

Fecha de publicación: 2026-03-30 (como supuesto de fecha de referencia del artículo de entrada)
Campo de investigación: q-bio (ciencia de la vida) / optimización y recocido cuántico
Autores y afiliación: (items no confirmados en entrada. Verificar en página arXiv real)
Contexto y pregunta de investigación: El paisaje de adaptabilidad en espacio de secuencias de proteínas tiene alto costo de evaluación, y la búsqueda se rompe rápidamente. Por lo tanto, es necesaria “transformación de representación” a una forma que buscadores y optimizadores puedan manejar.
Método propuesto y resultados principales: Se propone un marco que reduce paisajes de adaptabilidad a “representación latente binaria” y lo coloca en optimización de recocido cuántico. En resumen de entrada, se obtienen estructuras útiles en ProteinGym, etc., con potencial para ayudar en identificación de variantes de alta adaptabilidad.
Significado e impacto futuro: La dirección de aumentar eficiencia de búsqueda a través de “diseño de representación” puede propagarse a aguas arriba de IA de descubrimiento de fármacos (generación de candidatos, filtrado). La limitación es cómo la binarización y diseño de representación latente afectan precisión, y la comparación con otros paradigmas computacionales se convierte en próximo punto de debate.
Fuente: Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization

[CASSR: Continuous A-Star Search through Reachability for real time footstep planning](CASSR: A* continuo a través de alcanzabilidad para planificación de pisadas en tiempo real)

Fecha de publicación: 2026-03-30 (entrada referenciada)
Campo de investigación: cs.RO (robótica)
Autores y afiliación: (items no confirmados en entrada. Verificar en página arXiv real)
Contexto y pregunta de investigación: La planificación de pisadas de robots bípedos enreda restricciones continuas y seguridad (alcanzabilidad). La discretización es áspera, elevando tasa de fracaso y desperdiciar cálculo.
Método propuesto y resultados principales: Se presenta la idea de hacer análisis de alcanzabilidad y caerlo en expresión continua y convexa, manteniendo restricción en búsqueda A*. En resumen de entrada, se apunta a velocidad y precisión cercanas a planificación en tiempo real en comparación con redes de grillas discretas tradicionales.
Significado e impacto futuro: Al incorporar información del lado de seguridad (conjunto alcanzable) como “prerrequisito” de planificación, la confiabilidad de aplicación práctica puede aumentar. Por otra parte, el análisis de alcanzabilidad y aproximación convexa se convierten en cuello de botella.
Fuente: CASSR: Continuous A-Star Search through Reachability for real time footstep planning

[FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications](FireBench: Evaluación de seguimiento de instrucciones en aplicaciones LLM impulsadas por empresas y APIs)

Fecha de publicación: 2026-04-01 (entrada referenciada)
Campo de investigación: Evaluación LLM / aplicación de agentes
Autores y afiliación: (basado en resumen de autores en entrada, ver página de fuente para detalles)
Contexto y pregunta de investigación: La evaluación tipo chat no puede medir requisitos comerciales (formato de salida, cumplimiento de procedimiento, supuestos de herramientas). Se necesita evaluación de seguimiento de instrucciones cercana a operación real empresarial/impulsada por API.
Método propuesto y resultados principales: Se construye benchmark de seguimiento de instrucciones FireBench a partir de patrones operacionales reales, evaluando múltiples dimensiones de capacidad. En resumen de entrada, con 6 dimensiones, más de 2,400 muestras, 11 LLMs, el objetivo de mostrar diferencia de comportamiento de escenarios prácticos se vuelve claro.
Significado e impacto futuro: La evaluación se mueve desde laboratorio a requisitos operacionales, convirtiéndose en componente de adopción, auditoría y aseguramiento de calidad. La limitación es la optimización a supuesto práctico particular, y revisión de sesgo de distribución se vuelve necesaria.
Fuente: FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

[MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation](MASS-RAG: Generación aumentada de recuperación con síntesis multiagente)

Fecha de publicación: 2026-04-22 (entrada referenciada)
Campo de investigación: RAG de agentes / supresión de alucinación
Autores y afiliación: Xingchen Xiao, Heyan Huang, Runheng Liu, Jincheng Xie (entrada mencionada)
Contexto y pregunta de investigación: RAG de búsqueda única carece de calidad y rango de adquisición de información, y falta de contexto e información errónea ocurren fácilmente en preguntas multietapa.
Método propuesto y resultados principales: Se introduce descomposición de consulta, búsqueda, filtrado y generación de respuesta en roles separados, e introduce paso de síntesis de revisión mutua de puntuaciones de confiabilidad de información recuperada. En resumen de entrada, se muestra mejora de precisión aproximadamente 15%, reducción de contaminación de información, y mejora de precisión de citas en respuestas a preguntas complejas.
Significado e impacto futuro: De “paralelización de búsqueda” a “procesamiento de integración y verificación”. Existe posibilidad de conectar a salida auditable en búsqueda de documentos intraempresa, pero costo de comunicación y realtime-ness requieren optimización posterior.
Fuente: MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation

[The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?](La ilusión del uso excesivo de herramientas: ¿Por qué LLM prefiere herramientas externas a conocimiento interno?)

Fecha de publicación: 2026-04-24 (entrada referenciada)
Campo de investigación: Control de agentes / evaluación
Autores y afiliación: (entrada trata como anónimo)
Contexto y pregunta de investigación: Se ha vuelto común dar a LLM herramientas de búsqueda y ejecución de código, pero el uso excesivo de herramientas en problemas que podrían completarse con conocimiento interno aumenta, potencialmente empeorando eficiencia y calidad de información errónea.
Método propuesto y resultados principales: Se propone marco de evaluación que clasifica si el conocimiento interno puede completar la tarea y analiza tendencia de uso de herramientas paso a paso. En resumen de entrada, se observa uso excesivo de herramientas ampliamente, la contribución a precisión de inferencia es limitada, y aumenta costo computacional y retraso.
Significado e impacto futuro: Trata “cuándo parar herramientas” como toma de decisiones meta, conectándose a diseño de gobernanza. El aprendizaje futuro de política de uso de herramientas y verificación se convierte en tema.
Fuente: The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?

[APOLLO: A multimodal and temporal foundation model for virtual patient representations at healthcare system scale](APOLLO: Modelo fundacional multimodal y temporal para representaciones de pacientes virtuales a escala del sistema de salud)

Fecha de publicación: 2026-04-24 (entrada referenciada)
Campo de investigación: IA médica / modelo fundacional multimodal
Autores y afiliación: Ali Zan, Ting Ding, Samuel J. Wagner, otros (entrada mencionada)
Contexto y pregunta de investigación: La mayoría de datos médicos son no utilizados, y se necesita marco temporal que integre modalidades diversas no estructuradas.
Método propuesto y resultados principales: Se construye modelo fundacional temporal APOLLO con dataset MGB-7M (7.2 millones de personas, 25 mil millones de eventos, 28 modalidades integradas). En resumen de entrada, se muestran diferencias de rendimiento como AUROC 0.92 en predicción de inicio de esquizofrenia, AUROC 0.93 en predicción de supervivencia de cáncer de mama HER2 positivo (baseline 0.66).
Significado e impacto futuro: Lleva predicción médica hacia “representación fundacional”, conectando a gestión de salud por vida de individuo predictiva. Las limitaciones son revisión ética y verificación adicional de confiabilidad.
Fuente: A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

[Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents](Espectro de compresión de experiencia: Unificación de memoria, habilidades y reglas en agentes LLM)

Fecha de publicación: 2026-04-27 (entrada referenciada)
Campo de investigación: Agentes de ejecución larga / memoria y aprendizaje
Autores y afiliación: Xing Zhang, Guanghui Wang, Yanwei Cui, otros (entrada mencionada)
Contexto y pregunta de investigación: En ejecución larga, la experiencia se vuelve masiva, y mantenerla aumenta contexto. Resumen y reutilización torpes pierden reproducibilidad. Se necesita principio de compresión y cambio de experiencia sistemático.
Método propuesto y resultados principales: Se propone espectro que posiciona memoria/habilidades/reglas en posiciones de “grado de compresión” diferente, e indica que cambio fijo carece de adaptabilidad (missing diagonal). En resumen de entrada, se muestran orden de tasa de compresión (episódico, habilidad procedural, regla declarativa) y bajo cruce de referencia (menos de 1%, etc.) basados en hipótesis de fragmentación comunitaria.
Significado e impacto futuro: Asciendo “diseño de experiencia” desde técnica de implementación a principio de diseño. El próximo reto es profundizar en estrategia adaptativa de cambio y validación experimental.
Fuente: Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents

[OpenCLAW-P2P v6.0: Resilient Multi-Layer Persistence, Live Reference Verification, and Production-Scale Evaluation](OpenCLAW-P2P v6.0: Persistencia multicapa resiliente, verificación de referencia en vivo y evaluación a escala de producción)

Fecha de publicación: 2026-04-27 (entrada referenciada)
Campo de investigación: Seguridad de IA / verificación y operación de productos generados
Autores y afiliación: Francisco Angulo de Lafuente, Teerth Sharma, Vladimir Veselov, otros (entrada mencionada)
Contexto y pregunta de investigación: Los agentes no solo generan artículos sino que necesitan garantizar en operación la corrección de referencias y escala de evaluación.
Método propuesto y resultados principales: Se combinan persistencia multicapa, cascada de búsqueda de referencia por latencia baja, verificación de referencia en vivo durante puntuación de revisión por pares, proxies API y caché con limitación de velocidad. En resumen de entrada se presentan indicadores operacionales incluyendo protocolo de recuperación de artículos perdidos.
Significado e impacto futuro: Mueve “seguridad” desde dentro del modelo a proceso operacional. El desafío es cuántos errores sutiles de citas pueden eliminarse mediante verificación en vivo.
Fuente: OpenCLAW-P2P v6.0

[It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents](¡Es una TRAP! Benchmark de persuasión de agentes de redirección de tarea para agentes web)

Fecha de publicación: 2026-04-27 (entrada referenciada)
Campo de investigación: Seguridad de agentes / benchmark
Autores y afiliación: (basado en OpenReview/fuente de resumen)
Contexto y pregunta de investigación: Conforme los agentes web se ocupan de tareas reales, enfrentan guía y persuasión. Se necesita medir desviación “donde la tarea se convierte en otra cosa” más allá de inyección.
Método propuesto y resultados principales: Se diseña suite de evaluación Task-Redirecting Agent Persuasion Benchmark (TRAP), midiendo reproduciblemente en qué medida inyección impulsada por persuasión causa desviación de tarea. En resumen de entrada se enfatiza la suite de evaluación reproducible y el diseño que mide directamente desviación.
Significado e impacto futuro: Conecta evaluación de seguridad de “cadena de entrada” a “desviación final”. En el futuro, se necesita confirmar tasa de cobertura de guía real y transferibilidad del modelo.
Fuente: It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents

4. Análisis transversal de campos

El hilo común a través del grupo de artículos de abril es que el objeto de investigación ha cambiado de “competencia en rendimiento” a “diseño de condiciones de realización (constraints) y verificabilidad (verifiability)”. En robótica, la búsqueda se mapea a alcanzabilidad y restricción física; en ciencia de la vida, la coherencia física y contexto temporal se integran en representación fundacional. Incluso en multimodal, la competencia modal y “parecer estar observando” se descomponen desde ambos lados de bench de evaluación e intervención de inferencia.

En seguridad, conforme los agentes actúan sobre el entorno externo, el modelo de amenaza se encadena (guía → ejecución → desviación → reutilización), y el aumento de reglas previas por sí solo no puede mantener el ritmo. Como resultado, tres capas avanzan simultáneamente: (1) auditoría de casos de seguridad, (2) monitoreo no supervisado de desviación desconocida, (3) verificación formal previa de base de entorno aislado. Esto no es meramente teoría de seguridad sino demuestra que el “diseño de evaluación se convierte en infraestructura central de investigación”.

Además, incluso en investigación organizacional y de mercado (ciencia computacional social, finanzas y diseño institucional), la vista se fortalece de que lo que IA trae es no mejora de precisión de una sola vez, sino formación de creencias en grupos, bienestar, velocidad de aprendizaje y acumulación de inconsistencia. Es decir, AI debe ser evaluada no solo como individuo sino como “sistema en el que se opera”. Esta conclusión meta se compartió transversalmente.

5. Temas a notar el próximo mes

Se anticipa que el próximo mes la aceleración de la corriente que conecta (a) “forma verificable de auditoría” de casos de seguridad (cobertura de prueba, realismo de supuestos, refutabilidad) y (b) “lazo cerrado de detección de desviación → recuperación” de RAG de agentes, y (c) compresión de experiencia de ejecución larga (cambio adaptativo de memoria/habilidades/reglas), a través de experimentación, benchmark y ingeniería operacional. Además, cuantización e optimización de política de uso de herramientas, etc., harán que indicadores de lado de eficiencia se unifiquen, aumentando marcos que midan optimización simultánea de “seguridad, precisión y costo”.

También, el lado de comunidad de investigación (diseño de incentivos de mejor artículo y análisis de estructura de participación y colaboración) está probablemente para ser tratado más cuantitativamente, conectado con el punto de que la evaluación distorsiona aprendizaje.

6. Referencias

Título	Fuente	Fecha	URL
Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization	arXiv	2026-03-30	https://arxiv.org/abs/2603.17247
CASSR: Continuous A-Star Search through Reachability for real time footstep planning	arXiv	2026-03-30	https://arxiv.org/abs/2603.02989
TerraBind: Fast and Accurate Binding Affinity Prediction through Coarse Structural Representations	arXiv	2026-02-xx	https://arxiv.org/abs/2602.07735
Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models	arXiv	2026-03-30	https://arxiv.org/abs/2603.10098
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence	arXiv	2026-03-30	https://arxiv.org/abs/2603.24621
Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems	arXiv	2026-03-30	https://arxiv.org/abs/2603.15973
FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications	Artículo	2026-04-01	https://ai-navigate-news.com/en/articles/127560eb-3c88-49b9-acfa-7b70547b3158
Why Is RLHF Alignment Shallow? A Gradient Analysis	arXiv	2026-04-01	https://arxiv.org/abs/2603.04857
Probing the Lack of Stable Internal Beliefs in LLMs	arXiv	2026-04-01	https://arxiv.org/abs/2603.25187
SoK: Agentic RAG — First Unified Framework for Autonomous Retrieval-Generation Systems	arXiv	2026-04-01	https://arxiv.org/abs/2603.07379
Eval awareness in Claude Opus 4.6’s BrowseComp performance	Anthropic	2026-04-03	https://www.anthropic.com/engineering/eval-awareness-browsecomp
Bio-PINNs: 生体模倣PINNs for Cell-Induced Phase Transitions: UQ-R3 Sampling with Causal Gating	arXiv	2026-04-03	https://arxiv.org/abs/2603.29184
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?	arXiv	2026-04-06	https://arxiv.org/abs/2604.03016
MIRAGE: The Illusion of Visual Understanding	arXiv	2026-04-06	https://arxiv.org/abs/2604.02168
Experience Compression Spectrum: Unifying Memory, Skills, and Rules in LLM Agents	arXiv	2026-04-27	https://arxiv.org/abs/2604.15877
OpenCLAW-P2P v6.0	arXiv	2026-04-27	https://arxiv.org/abs/2604.19792
It’s a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents	arXiv	2026-04-27	https://arxiv.org/abs/2512.23128
A multimodal and temporal foundation model for virtual patient representations at healthcare system scale	arXiv	2026-04-24	https://arxiv.org/abs/2604.18570
The Tool-Overuse Illusion: Why Does LLM Prefer External Tools over Internal Knowledge?	arXiv	2026-04-24	https://arxiv.org/abs/2604.19749
MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation	arXiv	2026-04-22	https://arxiv.org/abs/2604.18509
GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling	arXiv	2026-04-22	https://arxiv.org/abs/2604.18556
Mythos and the Unverified Cage: Z3-Based Pre-Deployment Verification for Frontier-Model Sandbox Infrastructure	arXiv	2026-04-29	https://arxiv.org/abs/2604.20496
The 2025 OpenAI Preparedness Framework does not guarantee any AI risk mitigation practices	arXiv	2026-04-13	https://arxiv.org/abs/2509.24394
Accelerating mathematical and scientific discovery with Gemini Deep Think	DeepMind blog	2026-04-xx	https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

Este artículo fue generado automáticamente por LLM. Puede contener errores.