论文一:MathDuels — Evaluating LLMs as Problem Posers and Solvers
arXiv:2604.21916 · cs.CL · 2026-04-23
作者:Zhiqiu Xu 等(加州大学尔湾分校 + 联合团队)
顶会:无明确 venue(arXiv 预印)
- 核心机制:19个前沿模型互相出题 + 互相解题,三阶段生成管线(meta-prompting → 问题生成 → 难度放大),独立 verifier 过滤无效问题
- 关键发现:出题能力与解题能力部分解耦——某些模型解题强但出题弱,某些反之。单一角色评估会遗漏这些差异
- 动态天花板:随着更强模型加入,它们出的题能击败之前顶级解题模型,基准难度随参与者水平共同进化,不会饱和
- 方法论:Rasch 模型联合估计求解者能力和问题难度,作者质量由其出题造成的击败率推导
局限性
仅覆盖数学领域,泛化到其他领域(如代码、推理)尚需验证;Rasch 模型假设可能不完全匹配 LLM 行为;自博弈可能存在自我强化偏差。
论文二:GiVA — Gradient-Informed Bases for Vector-Based Adaptation
arXiv:2604.21901 · cs.CL · 2026-04-23
作者:Neeraj Gangwar 等
顶会:AISTATS 2026 ✅
- 问题:LoRA 已是参数高效微调标准,但向量类方法(Vector-based Adaptation,如 AdaLoRA 的向量变体)需要更高 rank 才能匹配 LoRA 性能,成本反而更高
- 方案:GiVA 用梯度信息初始化向量适配器,将 rank 需求降低 8倍,训练时间与 LoRA 持平,同时保持极端参数效率
- 验证:跨越自然语言理解(NLU)、自然语言生成(NLG)、图像分类多个基准一致优于或匹配现有方法
局限性
实验主要集中在 Transformer 架构;对非标准任务(如长文本)的泛化待验证;8倍 rank 降低的具体数值可能随模型规模变化。
MathDuels 是近期最有创意的评估设计——它抓住了"会出题才能真正测出能力"这个洞察。传统基准的饱和是真实问题,自博弈解决了天花板问题。值得跟踪 leaderboard 的发展。
GiVA 则是工程友好的改进:参数高效微调在边侧部署场景至关重要,8倍 rank 降低意味着同等硬件可微调更大模型,或同等模型用更少参数。当前 LoRA 仍是主流,但 GiVA 这类初始化优化值得集成到工作流。
两个工作共同指向一个趋势:评估和训练方法正在从"固定题目刷分"转向"对抗性、动态、能力解耦"。