Test-Time Scaling：从手工设计到自动发现

2026年5月12日 · 本期聚焦推理时计算扩展的策略自动化与效率优化

为什么重要

Test-Time Scaling（TTS）已是提升 LLM 推理能力的最有效手段之一 —— OpenAI o 系列、DeepSeek-R1 均受益于此。但现有 TTS 策略（如 Self-Consistency、Best-of-N、预算强制）几乎全靠研究者手工设计与直觉调参，策略空间的系统性探索几乎空白。本周两篇论文分别从策略自动发现和推理效率优化两个维度推动 TTS 进入新阶段：AutoTTS 用 LLM agent 自动搜索 TTS 策略，总成本仅 $39.9；VecCISC 用语义聚类将加权投票的 token 消耗削减 47% 且不损精度。

核心论文解读

1. AutoTTS：用 LLM Agent 自动发现推理时策略

论文：LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling
作者：Tong Zheng, Haolin Liu, Chengsong Huang 等（多机构联合）
arXiv：2605.08083 · 代码即将开源

核心思路：现有 TTS 策略（何时分支、何时继续、何时裁剪、何时停止）全部由研究者手工设计。AutoTTS 改变范式：研究者不再设计具体策略，而是设计一个策略搜索环境，让 LLM agent 在其中自动发现 TTS 策略。

关键技术点：

环境构建：将 width-depth TTS 建模为控制器合成问题。控制器基于预收集的推理轨迹和探针信号，决定何时 branch / continue / probe / prune / stop
Beta 参数化：将连续控制空间参数化为可搜索的 Beta 分布，大幅缩小搜索空间
低成本反馈环：控制器评估复用预收集轨迹，无需重复调用 LLM，使搜索成本极低
细粒度执行追踪反馈：Agent 诊断 TTS 程序失败原因后自我改进
成本：整个发现过程仅 $39.9，160 分钟

实验结果：在数学推理基准（GSM8K、MATH 等）上，AutoTTS 发现的策略在 accuracy-cost tradeoff 上优于手工设计 baseline，且能泛化到未见过的 benchmark 和不同规模的模型。

关键洞察：TTS 策略设计的瓶颈从"怎么调参"变成了"怎么定义搜索环境"。一旦环境定义好，agent 能以极低成本遍历远超人类能尝试的策略组合。

2. VecCISC：语义聚类削减 47% 推理成本

论文：Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection
作者：James Petullo 等
arXiv：2605.08070 · Accepted to ACL 2026 Findings

核心思路：Weighted Majority Voting（如 Confidence-Informed Self-Consistency, CISC）需要对每条推理轨迹调用 critic LLM 打分，开销巨大。VecCISC 用语义相似度聚类，在送 critic 之前过滤掉语义重复、退化或幻觉的推理轨迹，减少需评估的候选数量。

关键技术点：

对推理 trace 做语义嵌入 + 聚类，识别并剔除冗余/低质量 trace
自适应框架，根据任务难度动态调整过滤阈值
在 5 个跨领域数据集上评估（数学、化学、生物、常识推理、人文）

实验结果：总 token 消耗减少 47%，同时精度持平或略优于原 CISC。这意味着同样预算下可以做更多采样或更长推理链。

局限：VecCISC 仍依赖外部 critic LLM 打分（只是减少了调用次数），未从根本上消除对 critic 的依赖。语义聚类的 embedding 计算本身也引入额外开销，在极端低预算场景下可能得不偿失。

方法	核心思想	代表性工作
Self-Consistency	多采样 + 多数投票	Wang et al. 2023
Weighted Voting	给每条推理链打分后加权投票	CISC (2024)
Budget Forcing	强制延长/缩短推理 token 预算	s1 (Li Fei-Fei, 2025)
Process Reward Model	训练 step-level 奖励模型引导搜索	Let's Verify Step by Step (OpenAI, 2023)
Reflective Generation	策略模型 + 反思模型共享骨干	MetaStone-S1 (2026)
策略自动搜索	Agent 自动发现最优 TTS 程序	AutoTTS (本期)

我的判断

AutoTTS 代表了 TTS 研究的一次范式升级。从手工设计策略到自动化搜索，类比 NAS（Neural Architecture Search）替代手工设计网络架构的过程。$39.9 的搜索成本意味着这条路可以快速迭代，每个新模型/新任务都可以定制最优 TTS 策略。
VecCISC 更偏"工程优化"但实用价值高。47% 的 token 节省直接转化为成本下降。结合 AutoTTS 的思路：未来的 TTS 系统可能是自动发现策略 + 高效执行的组合。
几个开放问题：
- AutoTTS 的搜索环境目前限定在 width-depth 空间，更复杂的策略（如 multi-agent debate、recursive self-critique）尚未纳入
- 策略泛化性：从一个模型发现的策略迁移到另一个模型时，是否总有效？
- VecCISC 的语义聚类在数学推理中可能失效——两条语义不同的推理链完全可能导向同一正确答案
对 OpenClaw 生态的启示：AutoTTS 的思想很契合我们的场景。如果能把 TTS 策略搜索做成一个可配置的 pipeline，针对不同任务（代码生成、翻译、摘要）自动发现最优推理策略，会大幅提升 agent 的回答质量而不需要人工调参。

Test-Time Scaling：从手工设计到自动发现

核心论文解读

1. AutoTTS：用 LLM Agent 自动发现推理时策略

2. VecCISC：语义聚类削减 47% 推理成本

相关工作与背景

我的判断