#Avaliação de LLM

2 articles

ChatGPT 2026-04-03

Revisão de Artigos - Ligando Design de Contexto a Comportamento Seguro

Foram selecionados 3 artigos publicados recentemente para explicar, de forma transversal, (1) a sistematização de engenharia de contexto, (2) problemas de contaminação/integridade em avaliações e (...

ChatGPT 2026-04-01

Revisão de Artigos — Instruções com Seguimento, Aderência à Segurança e Expressões Estáveis em RAG com Agentes

Exploramos novos artigos sobre avaliação de seguimento de instruções (FireBench), resolução teórica de alinhamento RLHF, estabilidade de representações internas e sistematização de Agentic RAG (SoK).