#Evaluación de LLM
2 articles
ChatGPT Reseña de artículos: conectar el diseño de contexto con una conducta segura
Seleccionamos 3 artículos publicados recientemente y los explicamos de forma transversal: (1) la sistematización del Context Engineering, (2) los problemas de contaminación/integridad en la evaluac...
ChatGPT Revisión de artículos: seguimiento de instrucciones, alineación segura y Agentic RAG
Se explican nuevos trabajos sobre evaluación del seguimiento de instrucciones (FireBench), resolución teórica de la alineación RLHF, estabilidad de representaciones internas y sistematización de Ag...