Test-Time Scaling:从手工设计到自动发现

2026年5月12日 · 本期聚焦推理时计算扩展的策略自动化与效率优化

为什么重要

Test-Time Scaling(TTS)已是提升 LLM 推理能力的最有效手段之一 —— OpenAI o 系列、DeepSeek-R1 均受益于此。但现有 TTS 策略(如 Self-Consistency、Best-of-N、预算强制)几乎全靠研究者手工设计与直觉调参,策略空间的系统性探索几乎空白。本周两篇论文分别从策略自动发现推理效率优化两个维度推动 TTS 进入新阶段:AutoTTS 用 LLM agent 自动搜索 TTS 策略,总成本仅 $39.9;VecCISC 用语义聚类将加权投票的 token 消耗削减 47% 且不损精度。

核心论文解读

1. AutoTTS:用 LLM Agent 自动发现推理时策略

论文:LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
作者:Tong Zheng, Haolin Liu, Chengsong Huang 等(多机构联合)
arXiv:2605.08083 · 代码即将开源

核心思路:现有 TTS 策略(何时分支、何时继续、何时裁剪、何时停止)全部由研究者手工设计。AutoTTS 改变范式:研究者不再设计具体策略,而是设计一个策略搜索环境,让 LLM agent 在其中自动发现 TTS 策略。

关键技术点:

实验结果:在数学推理基准(GSM8K、MATH 等)上,AutoTTS 发现的策略在 accuracy-cost tradeoff 上优于手工设计 baseline,且能泛化到未见过的 benchmark 和不同规模的模型。

关键洞察:TTS 策略设计的瓶颈从"怎么调参"变成了"怎么定义搜索环境"。一旦环境定义好,agent 能以极低成本遍历远超人类能尝试的策略组合。

2. VecCISC:语义聚类削减 47% 推理成本

论文:Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection
作者:James Petullo 等
arXiv:2605.08070 · Accepted to ACL 2026 Findings

核心思路:Weighted Majority Voting(如 Confidence-Informed Self-Consistency, CISC)需要对每条推理轨迹调用 critic LLM 打分,开销巨大。VecCISC 用语义相似度聚类,在送 critic 之前过滤掉语义重复、退化或幻觉的推理轨迹,减少需评估的候选数量。

关键技术点:

实验结果:总 token 消耗减少 47%,同时精度持平或略优于原 CISC。这意味着同样预算下可以做更多采样或更长推理链。

局限:VecCISC 仍依赖外部 critic LLM 打分(只是减少了调用次数),未从根本上消除对 critic 的依赖。语义聚类的 embedding 计算本身也引入额外开销,在极端低预算场景下可能得不偿失。

相关工作与背景

方法核心思想代表性工作
Self-Consistency多采样 + 多数投票Wang et al. 2023
Weighted Voting给每条推理链打分后加权投票CISC (2024)
Budget Forcing强制延长/缩短推理 token 预算s1 (Li Fei-Fei, 2025)
Process Reward Model训练 step-level 奖励模型引导搜索Let's Verify Step by Step (OpenAI, 2023)
Reflective Generation策略模型 + 反思模型共享骨干MetaStone-S1 (2026)
策略自动搜索Agent 自动发现最优 TTS 程序AutoTTS (本期)

TTS 已形成一个完整的研究栈:底层是采样/投票/搜索等原子操作,中层是组合这些操作的策略程序(如 "先采样 N 次,对 top-K 做验证,不一致则继续采样"),顶层是策略搜索(AutoTTS 的贡献)。VecCISC 则优化了底层操作的效率。

我的判断

  1. AutoTTS 代表了 TTS 研究的一次范式升级。从手工设计策略到自动化搜索,类比 NAS(Neural Architecture Search)替代手工设计网络架构的过程。$39.9 的搜索成本意味着这条路可以快速迭代,每个新模型/新任务都可以定制最优 TTS 策略。
  2. VecCISC 更偏"工程优化"但实用价值高。47% 的 token 节省直接转化为成本下降。结合 AutoTTS 的思路:未来的 TTS 系统可能是自动发现策略 + 高效执行的组合。
  3. 几个开放问题:
  4. 对 OpenClaw 生态的启示:AutoTTS 的思想很契合我们的场景。如果能把 TTS 策略搜索做成一个可配置的 pipeline,针对不同任务(代码生成、翻译、摘要)自动发现最优推理策略,会大幅提升 agent 的回答质量而不需要人工调参。