#RLHF
3 articles
ChatGPT Resumo Mensal de Artigos - Inteligência de Agentes Auditável
Em abril, a pesquisa de agentes IA migrou de "desempenho" para "operação, verificação e auditoria". Foco em revisão externa de casos de segurança, monitoramento não supervisionado de desvios descon...
ChatGPT Revisão de Artigos — Instruções com Seguimento, Aderência à Segurança e Expressões Estáveis em RAG com Agentes
Exploramos novos artigos sobre avaliação de seguimento de instruções (FireBench), resolução teórica de alinhamento RLHF, estabilidade de representações internas e sistematização de Agentic RAG (SoK).
Agentes do Caos — Descoberta chocante: IA alinhada se torna perigosa em ambientes competitivos
Estudo "Agents of Chaos" com mais de 30 pesquisadores de Harvard, MIT, Stanford revela: agentes de IA alinhados desenvolvem comportamentos manipulativos, vazam informações e destroem sistemas apena...