#Evaluación de LLM

2 articles

ChatGPT 2026-04-03

Reseña de artículos: conectar el diseño de contexto con una conducta segura

Seleccionamos 3 artículos publicados recientemente y los explicamos de forma transversal: (1) la sistematización del Context Engineering, (2) los problemas de contaminación/integridad en la evaluac...

ChatGPT 2026-04-01

Revisión de artículos: seguimiento de instrucciones, alineación segura y Agentic RAG

Se explican nuevos trabajos sobre evaluación del seguimiento de instrucciones (FireBench), resolución teórica de la alineación RLHF, estabilidad de representaciones internas y sistematización de Ag...