Revisão de Artigos — Instruções com Seguimento, Aderência à Segurança e Expressões Estáveis em RAG com Agentes

Resumo Executivo

Desta vez (2026-04-01), tratamos de novas perspectivas sobre avaliação, alinhamento, estabilidade de representações e design de agentes — aspectos que influenciam diretamente se um LLM “funciona no mundo real”.

Concretamente, avançaremos com uma “avaliação próxima de implementação” no FireBench, que mede o seguimento de instruções em cenários de empresas e integrações via API.

Além disso, direcionaremos o olhar para um artigo em que se investiga de forma teórica por que o alinhamento RLHF tende a ser “raso” e para a estabilidade de representações internas ligada à consistência de condições de personalidade.

Por fim, o SoK — que busca sistematizar o Agentic RAG como uma estrutura unificada — tenta desenhar um “mapa” para a pesquisa.

Artigos em destaque: pontos de contato entre seguimento de instruções, alinhamento, estabilidade de representações e design de agentes

Artigo 1: FireBench — Avaliando o seguimento de instruções em aplicações LLM de empresas e orientadas por APIs

Autores/afiliação: Yunfan Zhang, Yijie Bei, Jetashree Ravi, Pawel Garbacki. A afiliação é assumida como verificável na página do artigo; no mínimo, os nomes dos autores podem ser confirmados nessa mesma página. A fonte é FireBench (página do artigo).
Contexto e pergunta de pesquisa: A avaliação de LLMs por muito tempo se concentrou em respostas “parecidas com chat”. No entanto, em operação real, ganham importância a precisão do formato de saída, o cumprimento de etapas, a premissa de chamadas a ferramentas e restrições específicas de domínios de negócio. Assim, a pesquisa tenta responder à pergunta: “que benchmark permite medir o ‘seguimento de instruções’ no campo, em empresas e com APIs?”. FireBench (página do artigo)
Método proposto: A proposta é o benchmark de seguimento de instruções “FireBench”, desenhado a partir de padrões de uso em produção. A alegação é que a avaliação cobre 6 dimensões de capacidade núcleo, com mais de 2.400 amostras, e apresenta o comportamento e os desafios de 11 tipos de LLM em cenários com suposição empresarial. FireBench (página do artigo)
Principais resultados: Pela página do artigo, fica claro o objetivo de preencher a lacuna dos benchmarks mais voltados ao estilo de chat — especialmente no que diz respeito à composição da avaliação (mais de 2.400 amostras, 6 dimensões, 11 LLMs). FireBench (página do artigo)
Significado e limitações: O significado é que os indicadores de avaliação se deslocam de “conversas de laboratório” para “requisitos de operação”. A limitação está no fato de que, se o design da avaliação for otimizado demais para o campo, fica mais difícil transferi-lo para outras áreas. Além disso, um benchmark não é “universal”; o que importa é quais “premissas de operação” foram adotadas.
Fonte: FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications（FireBench）

Se quisermos explicar a ideia do FireBench como uma analogia para iniciantes, antes a avaliação era como “provar o sabor de uma refeição”, enquanto o FireBench seria algo como testar “regras de higiene na cozinha, procedimentos, quantidades e cronograma”. Seguimento de instruções (instruction following) não é apenas devolver “um texto com cara de certo”; é uma capacidade de produzir, de forma estável, as saídas esperadas seguindo as especificações.

À medida que esse tipo de avaliação avança, as empresas conseguem falar sobre a seleção do modelo não como “preferência”, mas como “probabilidade de aderência a requisitos”. Por exemplo, em cenários em que há restrições formais exigidas por integrações via API — como resumos de consultas, classificação de tickets ou apoio à codificação — os testes podem se tornar diretamente componentes de garantia de qualidade (QA). Contudo, se a distribuição do conjunto de avaliação estiver enviesada, os escores também tenderão a estar. Portanto, antes da implantação no campo, é necessário um processo operacional para verificar se o conjunto de avaliação inclui “dificuldades parecidas com as dos dados da própria empresa”.

Artigo 2: Why Is RLHF Alignment Shallow? A Gradient Analysis（Por que o alinhamento RLHF é raso? Uma análise de gradientes）

Autores/afiliação: Robin Young (a afiliação é assumida como verificável na página do artigo). A fonte é arXiv
.04857.
Contexto e pergunta de pesquisa: O alinhamento por RLHF (Reinforcement Learning from Human Feedback) parece funcionar em muitas experiências, mas existe um fenômeno em que, inexplicavelmente, o efeito parece “limitado”. Assim, a pesquisa tenta explicar teoricamente “para onde” e “quanto” o sinal do alinhamento chega durante o aprendizado — isto é, descrever o comportamento do gradiente a partir de uma perspectiva teórica. arXiv
.04857
Método proposto: Caracteriza-se onde o gradiente se concentra em posições de tokens específicas e onde ele desaparece, por meio de uma decomposição da harm sequence-level (prejuízo ao longo de toda a sequência) e também como uma representação em termos de covariância entre expectativas condicionais e a função de pontuação. Como resumo, o artigo conclui que o gradiente na posição (t) pode ser expresso como a relação entre “prejuízo esperado condicionalmente” e a “função de pontuação”. arXiv
.04857
Principais resultados: O que importa aqui (para resumo textual) é a estrutura obtida: “o alinhamento baseado em gradiente faz com que o sinal se concentre na posição que determina o prejuízo, e desapareça nas demais posições (distantes)”. Além disso, essa propriedade pode ajudar a explicar observações em que a divergência KL entre modelos alinhados e modelos-base se concentra em tokens iniciais. arXiv
.04857
Significado e limitações: O significado está em ir além da frase “se você rodar RLHF, melhora de alguma forma” e expressar em termos teóricos o mecanismo de por que é difícil fazer chegar o sinal de aprendizado. A limitação é que a modelagem assumida pela teoria (definição de prejuízo, hipóteses de decomposição etc.) pode aproximar de modo limitado os riscos reais e complexos de segurança.
Fonte: Why Is RLHF Alignment Shallow? A Gradient Analysis（arXiv
.04857）

Este artigo oferece uma visão que não simplifica o alinhamento (alignment) como se fosse apenas “classificação supervisionada”. Em outras palavras, para iniciantes: se o “lugar que funciona” no aprendizado estiver enviesado para um intervalo finito, então o comportamento em lugares distantes tende a ser menos aprimorável.

Como imagem mental, é como um jogo em que resultados ruins são decididos pelos últimos poucos lances; treinar apenas o começo não aumenta a taxa de vitória. Portanto, se o sinal de aprendizado fornecido pelo RLHF (recompensas ou perdas sobre prejuízo) aparece de forma forte quando o prejuízo se torna certo, e fraco antes e depois, é natural que a otimização pareça um “alinhamento raso”.

Quanto ao impacto na sociedade e na indústria, existe a possibilidade de que a avaliação de segurança e o projeto de estratégias de aprendizado avancem no sentido de considerar “em qual etapa a segurança se decide”. Por exemplo, ideias como fortalecer restrições a partir de tokens iniciais (ou projetar pontos de intervenção antes que o prejuízo se concretize) podem se conectar mais facilmente a suporte teórico, e não apenas a heurísticas.

Artigo 3: Probing the Lack of Stable Internal Beliefs in LLMs（Investigando a falta de crenças internas estáveis em LLMs）

Autores/afiliação: Yifan Luo, Kangping Xu, Yanzhen Lu, Yang Yuan, Andrew Chi-Chih Yao (a afiliação é assumida como verificável na página do artigo). A fonte é arXiv
.25187.
Contexto e pergunta de pesquisa: LLMs com personalidade (persona) deveriam manter, a cada interação, “o mesmo caráter” e “as mesmas tendências de crença”. Contudo, na prática, mesmo conversas sob condições idênticas podem apresentar variações no comportamento. Assim, o estudo busca responder: “em que formas pode ser observado que não há crenças internas estáveis (internal beliefs)?”. arXiv
.25187
Método proposto: A abordagem se concentra em tratar representações internas como “crenças” e medir/provar (probing) se elas permanecem consistentes. Mesmo na fase de resumo, o artigo afirma que para LLMs orientados por personagens imitarem características de personalidade humanas (como persistência e confiabilidade), é necessário um padrão de comportamento consistente. arXiv
.25187
Principais resultados: O ponto central deste artigo é tentar mostrar, por meio de probing, a possibilidade de que faltem crenças internas estáveis. Pelo menos, o problema em questão fica claro: para que LLMs orientados por persona tenham “consistência de comportamento”, é necessária estabilidade interna. arXiv
.25187
Significado e limitações: O significado está em descer do nível de qualidade superficial da saída para o nível de representações internas para explicar “por que não há consistência”. A limitação é que o conceito de crenças internas depende de hipóteses sobre interpretação do modelo; portanto, os resultados observados também podem ser explicados por outras abordagens (distribuição dos dados de treino, fatores de amostragem durante inferência, variações no prompt).
Fonte: Probing the Lack of Stable Internal Beliefs in LLMs（arXiv
.25187）

Para iniciantes, é mais fácil entender crenças internas (internal beliefs) como “anotações de políticas dentro da cabeça”. Pessoas tomam decisões semelhantes em situações parecidas, mas por trás disso está a estabilidade das crenças. De modo semelhante, em LLMs, quando você define uma persona específica, se as representações internas forem mantidas na “mesma direção”, a consistência aparece.

Por outro lado, quando o interior oscila, embora cada resposta possa parecer adequada na hora, em longo prazo tende a ficar “diferente do que foi antes”. Em aplicações reais, isso se conecta diretamente à experiência do usuário (UX) e à confiabilidade do trabalho. Por exemplo, se um representante de suporte ao cliente muda o tom de repente no meio da conversa, isso pode ser um sinal de que a “estrutura óssea” da persona projetada não está sendo mantida.

Do ponto de vista industrial, espera-se que as perguntas sobre LLMs com persona não se limitem a “um problema de templates de saída”, e sim se estendam para “manutenção de estado durante inferência” e “alinhamento durante o treinamento”.

Artigo 4: SoK: Agentic RAG — First Unified Framework for Autonomous Retrieval-Generation Systems（SoK: Agentic RAG — Primeiro framework unificado para sistemas autônomos de recuperação-geração）

Autores/afiliação: Por ser um formato SoK (Survey of Knowledge), pode haver múltiplos autores; no entanto, nas fontes que conseguimos acessar, pelo menos o ID do artigo e um resumo do framework podem ser confirmados. A fonte é a página de resumo do Agentic RAG SoK (como número de arXiv, aparece arXiv
.07379).
Contexto e pergunta de pesquisa: RAG (Retrieval-Augmented Generation) vem deixando de ser apenas um pipeline “busca → geração” e evoluindo para uma “agenciação”, em que o LLM ajusta autonomamente múltiplas etapas. Porém, existem problemas como a fragmentação da pesquisa e a falta de avaliação unificada, além de classificações (taxonomias) que não são compartilhadas. Assim, a iniciativa busca criar um “mapa do conhecimento” sobre como organizar Agentic RAG, como avaliá-lo e o que deve ser considerado com cuidado. Página do Agentic RAG SoK
Método proposto: Como SoK, a proposta explica a necessidade de Agentic RAG (por que um SoK é necessário) e apresenta, como objeto de sistematização, componentes em arquiteturas autônomas que evoluíram a partir de retrieve-and-generate (raciocínio em múltiplas etapas, gestão dinâmica de memória, buscas iterativas etc.). Página do Agentic RAG SoK
Principais resultados: O que se pode confirmar nesta página como “principais resultados” é que ela explicita a fragmentação da pesquisa e riscos para a unificação (por exemplo: falta de uniformidade na avaliação, riscos sistêmicos potenciais, ausência de classificação) e destaca a necessidade de integração. Página do Agentic RAG SoK
Significado e limitações: O significado é que, em um campo em rápida expansão como Agentic RAG, o SoK pode fornecer uma “organização do tráfego” para alinhar termos e eixos de avaliação. A limitação é que, como o SoK é essencialmente uma “organização”, ele talvez não apresente melhorias numéricas diretas do tipo que artigos com novos SOTA geralmente mostram em experimentos.
Fonte: SoK: Agentic RAG — First Unified Framework for Autonomous Retrieval-Generation Systems（arXiv
.07379）

Aqui também cabe uma analogia para iniciantes. Em geral, o RAG tradicional é como “procurar e ler livros na biblioteca e então resumir”. Já o Agentic RAG é mais próximo de um estado em que você mantém tudo como uma única tarefa: “buscar → ler → encontrar pontos em que não entendeu → buscar mais uma vez → mudar o rumo, se necessário”.

Nesse processo, pesquisadores se deparam com uma dificuldade: o nível de granularidade do trabalho difere de artigo para artigo, mas acabam chamando coisas diferentes pelo mesmo nome. O framework unificado que o SoK busca alinhar: o que é um “componente obrigatório”, o que é uma “opção de implementação” e o que deve ser medido na avaliação. Quando isso avança, comparações de modelos e design de agentes podem ser discutidas não como “desempenho de superfície”, mas como “diferenças de capacidade sob condições equivalentes”.

Do ponto de vista industrial, isso pode tornar possível projetar RAG não como uma funcionalidade isolada, mas como um sistema que inclui busca, memória, tomada de decisão e integração com ferramentas. Como resultado, pode ser mais fácil atender requisitos como a redução de inserção de informações incorretas (alucinações), aderência a atualizações de informação e auditabilidade.

Considerações transversais entre artigos

Os quatro artigos desta vez têm temas diferentes, mas compartilham um foco comum: o movimento de medir, explicar e projetar LLMs não como “dispositivos de saída”, mas como “sistemas que garantem comportamento”.

O FireBench tenta medir uma propriedade como seguimento de instruções de uma forma mais próxima do ambiente de empresas e APIs. A análise de gradientes do RLHF explica a dinâmica de aprendizado — “para onde” o sinal chega no alinhamento — e, como resultado, oferece uma linha de raciocínio sobre por que as melhorias de segurança são limitadas. O probing de crenças internas pretende observar as oscilações de consistência de persona a partir do ponto de vista de estados internos, levando a um diagnóstico um nível mais profundo do que uma avaliação apenas da qualidade superficial da saída. E o SoK do Agentic RAG organiza, em uma estrutura unificada, a fragmentação e a falta de uniformidade na avaliação que surgem quando a geração e a busca se tornam agenciais.

Ao consolidar isso, fica visível que a linha de frente do desenvolvimento de pesquisa está migrando de “melhorar pontuações de modelos” para “garantir quais propriedades do modelo, sob quais premissas, em quais estados e com quais eixos de avaliação”. Além disso, como se vê nas páginas da OpenAI Research, o interesse recente em segurança e alinhamento também se expande para direções de “controle de segurança que funciona na operação”, como monitoramento e hierarquias de instruções (instruction hierarchy). OpenAI Research

Além disso, os artigos sugerem que a pesquisa como um todo está intimamente ligada à agenciação. Por exemplo, a Google DeepMind descreve fluxos de trabalho agentais em contextos de promoção científica — como o Gemini Deep Think. Google DeepMind（Gemini Deep Think）

Quanto mais a agenciação avança, mais importante se torna avaliar, alinhar, diagnosticar estados internos e sistematizar. Isso acontece porque, como um agente acumula múltiplas decisões e ações, sem clareza de “em qual etapa ocorreu a falha”, não é possível melhorar.

Como mapa futuro, existe a possibilidade de que um ciclo se fortaleça: (1) identificar “como quebra” com avaliações mais voltadas ao campo, como no FireBench; (2) restringir “por que o aprendizado não chega” com teorias como a análise de gradientes do RLHF; (3) diagnosticar “onde está a oscilação” com probing de crenças internas; e (4) preparar o “espaço de design” e a “base para comparações” com o SoK do Agentic RAG.

Referências

Título	Fonte	URL
FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications	Artigo (AI Navigate)	https://ai-navigate-news.com/en/articles/127560eb-3c88-49b9-acfa-7b70547b3158
Why Is RLHF Alignment Shallow? A Gradient Analysis	arXiv	https://arxiv.org/abs/2603.04857
Probing the Lack of Stable Internal Beliefs in LLMs	arXiv	https://arxiv.org/abs/2603.25187
SoK: Agentic RAG — First Unified Framework for Autonomous Retrieval-Generation Systems	arXiv	https://arxiv.org/abs/2603.07379
Gemini Deep Think（fluxo de trabalho agental para descoberta científica）	Google DeepMind blog	https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

Este artigo foi gerado automaticamente por LLM. Pode conter erros.