📊 MathDuels:LLM 双重角色自我对弈评估

为什么重要:当前数学基准(MATH、GSM8K)已被前沿模型接近刷满,静态评估无法区分能力接近的模型。传统评估只测"解题",忽略"出题"能力——而两者可能完全解耦。MathDuels 引入自对弈机制,让模型同时扮演出题者和解题者,评估难度随模型能力共同进化,永不饱和。

核心论文:MathDuels: Evaluating LLMs as Problem Posers and Solvers

作者:Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik(宾夕法尼亚大学)| arXiv:2604.21916 | 2026-04-23

顶会相关新benchmark自对弈

🔑 关键技术点

📊 核心数据

⚠️ 局限性

相关工作:Tool Attention — 消除 MCP/Tools Tax

作者:Deepak Kumar 等 | arXiv:2604.21816 | 2026-04-23

Agent架构有代码MCP优化

🔑 关键技术点

⚠️ 局限性

🤖 相关工作

💡 我的判断

⭐ 值得关注:MathDuels 是 LLM 评估范式的重要突破。

Tool Attention 是工程层面的实用创新,解决的是已存在的 MCP 部署问题,但 paper 中端到端收益是推算值,需等真实环境验证。