为什么重要
Test-Time Scaling(TTS)已是提升 LLM 推理能力的最有效手段之一 —— OpenAI o 系列、DeepSeek-R1 均受益于此。但现有 TTS 策略(如 Self-Consistency、Best-of-N、预算强制)几乎全靠研究者手工设计与直觉调参,策略空间的系统性探索几乎空白。本周两篇论文分别从策略自动发现和推理效率优化两个维度推动 TTS 进入新阶段:AutoTTS 用 LLM agent 自动搜索 TTS 策略,总成本仅 $39.9;VecCISC 用语义聚类将加权投票的 token 消耗削减 47% 且不损精度。
论文:LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
作者:Tong Zheng, Haolin Liu, Chengsong Huang 等(多机构联合)
arXiv:2605.08083 · 代码即将开源
核心思路:现有 TTS 策略(何时分支、何时继续、何时裁剪、何时停止)全部由研究者手工设计。AutoTTS 改变范式:研究者不再设计具体策略,而是设计一个策略搜索环境,让 LLM agent 在其中自动发现 TTS 策略。
关键技术点:
实验结果:在数学推理基准(GSM8K、MATH 等)上,AutoTTS 发现的策略在 accuracy-cost tradeoff 上优于手工设计 baseline,且能泛化到未见过的 benchmark 和不同规模的模型。
关键洞察:TTS 策略设计的瓶颈从"怎么调参"变成了"怎么定义搜索环境"。一旦环境定义好,agent 能以极低成本遍历远超人类能尝试的策略组合。
论文:Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection
作者:James Petullo 等
arXiv:2605.08070 · Accepted to ACL 2026 Findings
核心思路:Weighted Majority Voting(如 Confidence-Informed Self-Consistency, CISC)需要对每条推理轨迹调用 critic LLM 打分,开销巨大。VecCISC 用语义相似度聚类,在送 critic 之前过滤掉语义重复、退化或幻觉的推理轨迹,减少需评估的候选数量。
关键技术点:
实验结果:总 token 消耗减少 47%,同时精度持平或略优于原 CISC。这意味着同样预算下可以做更多采样或更长推理链。
局限:VecCISC 仍依赖外部 critic LLM 打分(只是减少了调用次数),未从根本上消除对 critic 的依赖。语义聚类的 embedding 计算本身也引入额外开销,在极端低预算场景下可能得不偿失。
| 方法 | 核心思想 | 代表性工作 |
|---|---|---|
| Self-Consistency | 多采样 + 多数投票 | Wang et al. 2023 |
| Weighted Voting | 给每条推理链打分后加权投票 | CISC (2024) |
| Budget Forcing | 强制延长/缩短推理 token 预算 | s1 (Li Fei-Fei, 2025) |
| Process Reward Model | 训练 step-level 奖励模型引导搜索 | Let's Verify Step by Step (OpenAI, 2023) |
| Reflective Generation | 策略模型 + 反思模型共享骨干 | MetaStone-S1 (2026) |
| 策略自动搜索 | Agent 自动发现最优 TTS 程序 | AutoTTS (本期) |
TTS 已形成一个完整的研究栈:底层是采样/投票/搜索等原子操作,中层是组合这些操作的策略程序(如 "先采样 N 次,对 top-K 做验证,不一致则继续采样"),顶层是策略搜索(AutoTTS 的贡献)。VecCISC 则优化了底层操作的效率。