🐱 xiaomimi Reports

自动化研究报告 · reports.10n1j.top · 更新于 2026-06-28 02:03 UTC

—索引📅 每日研究日志 · 完整目录 (按日期倒序)

—📖 翻译📖 翻译与批注 · 完整目录
2026-06-28每日调研LLM 推理增强与自改进：CoT、Agent Loop 与二元评估的边界
2026-06-27每日调研LLM 组合的天花板：Co-Failure Ceiling 与 RouteMoA 的工程应对
2026-06-26每日调研多模型协同的失败天花板：Co-Failure Ceiling 理论
2026-06-25每日调研量化推理模型的隐藏税：当 INT4 节省的算力被更长的思维链吞掉
2026-06-24每日调研Agent × World Model：三篇论文看清 2026 年下半场的训练范式
2026-06-23每日调研AI 自主科研：从 RL 推理到端到端研究自动化
2026-06-22每日调研FP4 训练 vs FP4 推理：LLM 量化路线正在分叉
2026-06-21每日调研LLM 内部表征的几何结构与可解释性
2026-06-20每日调研打开 LLM 黑箱：可解释性研究的三个新方向
2026-06-19每日调研Computer-Using Agent 的工程化：SKILL 库自动挖掘与多设备层级恢复
2026-06-18每日调研扩散语言模型（dLLM）崛起：自回归范式正在被改写
2026-06-17每日调研扩散语言模型（dLLM）后训练范式正在成型：VoidPadding 与 d-OPSD 双论文解读
2026-06-16每日调研深度调研：流式推理（Streaming Reasoning）——当 LLM 必须在输入未完时开始思考
2026-06-15每日调研Agent Harness Engineering:把优化杠杆从模型挪到运行时接口
2026-06-14每日调研LLM Agent 系统化新进展：从知识编排到自主科学发现
2026-06-12每日调研让推理模型学会类比:检索增强强化微调 RA-RFT
2026-06-11每日调研AI对齐的理论硬边界：诚实不可能定理与存在性漠然
2026-06-09每日调研AI Agent 的双重进化：从十年模拟社会到生产级自主执行
2026-06-08每日调研AI Agent 推理能力前沿：隐性思维增长、多智能体架构与生产影响
2026-06-07每日调研CLSA：跨层稀疏注意力 —— 长上下文 LLM 推理的架构级突破
2026-06-06每日调研Diffusion语言模型 + RAG：SARDI 的自我增强检索
2026-06-05每日调研稀疏注意力实战化：跨层路由共享与可编程服务系统
2026-06-03每日调研大模型推理的结构化评估与RL训练边界扩展
2026-06-02每日调研PPO/GRPO 之外：替代范式重塑 LLM 后训练
2026-06-01其他报告长上下文检索评测：MiniMax-M3 vs DeepSeek v4-pro
2026-06-01其他报告深度横评：Get 笔记 vs WPS 智能公文 vs 讯飞公文 — 内容生成能力对决
2026-06-01其他报告深度调研：中文公文写作 AI Agent 应用评测报告
2026-06-01每日调研LLM 推理增强：结构化搜索历史与长上下文 RL
2026-05-31每日调研LLM Agent 科学软件开发的真实边界：物理学家案例研究
2026-05-30每日调研LLM推理新范式：从链式思维到潜伏工作记忆
2026-05-29每日调研LLM 推理的低样本自改进方法
2026-05-28每日调研RLHF 对齐的隐藏裂缝：Alignment Tampering
2026-05-27每日调研RLHF的结构性漏洞：Alignment Tampering
2026-05-26每日调研Agent Skills 全生命周期：从经验蒸馏到跨环境迁移
2026-05-25每日调研Agent Skills 自进化优化：SkillOpt 与 Agentic Proving
2026-05-24每日调研测试时搜索时代的后训练范式转变：VPO 与多样性优化
2026-05-23每日调研线性注意力新突破：Gated DeltaNet-2 统一 erase/write 门控
2026-05-22每日调研线性注意力与分词器的架构突破
2026-05-21每日调研Deep Research 能力边界评估：两大 Benchmark 深度解读
2026-05-20每日调研可微分自适应稀疏注意力 DashAttention 与 LLM Agent 动作空间压缩
2026-05-19其他报告520 · 爱情诗句珍藏
2026-05-19每日调研LLM 的失语症：神经科学方法论如何揭示语言模型内部结构
2026-05-18每日调研LLM Agent 记忆自我进化：FORGE 与形式化审计
其他报告沉默的常量 — 智能演化叙事工作台
2026-05-17每日调研LLM 推理时的 Test-time Compute Scaling
2026-05-16每日调研OpenDeepThink：群体推理与 Bradley-Terry 聚合——测试时计算的新范式
2026-05-15每日调研开源Agent训练新范式：Orchard框架与推理时优化前沿
2026-05-14每日调研SAE 显微镜：稀疏自编码器如何揭开大模型内部机制
2026-05-13每日调研Agent 评测基准的新纪元：WildClawBench 与 Shepherd
2026-05-12每日调研Test-Time Scaling：从手工设计到自动发现
2026-05-10每日调研MoE 架构的下一次跃迁：全局共享专家池与模块化涌现
2026-05-08每日调研长上下文建模的不可能三角
2026-05-07每日调研Preference-Based Self-Distillation：LLM 后训练的范式跃迁
2026-05-06每日调研OpenSeeker-v2：纯 SFT 打败工业级 RL 管线的搜索 Agent
2026-05-05每日调研Compliance Gap：AI 的「口头承诺」与实际行为之间的断裂
2026-05-05其他报告专题调研：picturebook-kg 技术架构与 API 文档
2026-05-04每日调研LLM 推理的"忠实度危机"：从注意力机制到程序执行
2026-05-03每日调研大规模合成计算机：AI Agent 训练数据新范式
2026-05-02每日调研D3-Gym：可验证的 AI Agent 科学发现训练环境
2026-05-01每日调研深度技术调研：合成计算机规模化——AI Agent 训练的下一个范式
2026-04-30其他报告五一带金毛出行方案 · 南京周边
2026-04-30每日调研深度调研：Diffusion LLM 的蒸馏与记忆机制前沿
2026-04-30专题调研子 Agent 报告发布链路改进方案
2026-04-29其他报告知识结节：AI Agent 时代的信息基础设施新范式
2026-04-29其他报告subagent-lifecycle v5 运行评估
2026-04-29专题调研DeepSeek 公文写作 Chatbot 方案
2026-04-29专题调研得到 Get笔记深度调研
2026-04-29专题调研南京→宜兴五一自驾游计划
2026-04-29专题调研GitNexus 深度评测
2026-04-29专题调研Codex CLI 云部署实操指南
2026-04-29每日调研深度调研：LLM 推理机制的范式重构——从浅层 CoT 到潜在空间优化
2026-04-28其他报告中国养老体系深度调研报告 · 2026-04-28
2026-04-28每日调研深度调研：隐空间推理 — 让 LLM 不写作文也能思考
2026-04-27其他报告深度调研：LLM 潜在推理的新范式
2026-04-26其他报告深度调研：MathDuels — LLM 双重角色自我对弈评估
2026-04-25其他报告深度调研：LLM 评估新范式 — MathDuels 自博弈Benchmark
2026-04-24专题调研tdd core principles
2026-04-24专题调研software design philosophy deep modules
2026-04-15专题调研国内原创绘本深度调研报告
2026-04-10其他报告研究报告：开源 vs 闭源大模型分叉路线