关闭广告

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro1620人阅读



魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。

今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直击隐式 CoT 一直「扶不起来」的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。

SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块:训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。

更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相对 supervised CoT +2.1%、相对 Coconut +8.2%、相对 CODI +4.3%,在更大的 LLaMA(1B/3B/8B)上也能稳定带来 +1.5%~+9.0% 的提升,并且在 8–16 个隐式 token 这种 “前人容易崩” 的设置下依然稳得住。

目前这项研究刚刚中稿顶会 ICLR 2026,论文、代码、模型权重均已开源,欢迎使用!



  • Paper: https://arxiv.org/pdf/2509.20317
  • Code: https://github.com/InternLM/SIM-CoT
  • Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought



图 1:(a) 潜变量不稳定:隐式 token 增多起初能提精度,但训练会变得不稳定,甚至塌缩。(b) 信息丢失:失败模型(5 个隐式 token)在隐式表示中丢失关键运算符信息(如 +、−),导致复杂推理无法进行。(c) 距离偏移:失败模型的 latent 间距离收缩、彼此过于相似,同时 latent 逐渐偏离词表嵌入空间中心。(d) 语义同质化:失败模型的 latent 表征趋同,解码结果分布变窄,输出多为数字;正常模型则能生成更丰富的内容。

从显式 CoT 到隐式 CoT:latent 稳定性与监督对齐的重大难点

复杂推理任务(如数学、符号推理、代码推理)长期以来都依赖显式 Chain-of-Thought(CoT):模型把中间步骤一条条写出来,既能提升正确率,也便于人类检查与纠错。

如今,随着推理需求不断增长,显式 CoT 的两大瓶颈越来越突出:成本方面,长 CoT 会显著拉高 token 开销与时延;效果方面,显式步骤容易被数据格式牵着走,出现「模板化推理」、冗长但无效的「自说自话」。

这些局限性推动研究者转向一种更「省 token」的新范式 —— 隐式 CoT(Implicit CoT)。它不再把推理步骤完整写出来,而是用少量隐式 token /latent 表征在模型内部完成多步推理:理论上既能保留推理能力,又能显著降低推理开销。

但把隐式 CoT 真正做稳、做强,远比想象中难,关键挑战在于:隐式 token 到底学到了什么?以及作者团队如何保证它学到的是「可用的推理」,而不是「投机的捷径」?

一个典型现象是 latent instability(潜变量不稳定):当你尝试增加隐式 token 数量来「scale 推理容量」时,模型往往不是变强,而是训练开始抖动,甚至直接 collapse(塌缩)。塌缩后的隐式 token 会出现明显的 信息丢失 —— 尤其是对符号推理至关重要的算子信息(+、−、×、÷ 等)被抹掉;同时 latent 之间的表示会越来越像,出现语义同质化:不同 token 学到的东西高度重合,最后解码出来的内容范围变窄,常常只剩下数字或非常单一的片段,复杂推理自然就做不下去。

现有隐式 CoT 方法在监督粒度上差异很大:Coconut 基本只做答案级监督,模型被要求「最后答对」,但中间 latent 学什么几乎不受约束;CODI 虽然引入了蒸馏信号,把显式 CoT 的信息压到连续 latent 里,但更多是轨迹 / 整体路径级对齐。

SIM-CoT 的关键突破正是 step-level 监督:训练时用辅助解码器把每个 latent 对齐到对应推理步骤,从根上稳定并丰富 latent 推理空间,同时推理阶段不增加任何开销。



图 2: 框架对比:Coconut(左上)、CODI(右上)与 SIM-CoT(下)。Coconut/CODI 仅在答案或轨迹层面进行粗粒度监督;SIM-CoT 引入解码器将隐式 latent 与逐步推理对齐,在不增加推理开销的前提下提升性能。

监督设计新思路:好的隐式推理应当能被「逐步解码」回显式思维链

为了解决隐式 CoT 在 scale implicit tokens 时容易出现的不稳定与塌缩(latent 语义变得同质、算子信息丢失、复杂推理失效)这一关键难题,作者团队提出一个新的视角:隐式推理的质量,与其「可对齐的逐步语义」成正比。换句话说,如果每个隐式 latent 真的在做第 k 步推理,那么它就应该能被一个轻量的解码器「翻译」回对应的显式步骤(比如产生关键算子、关系、子目标),从而让 latent 不再是黑盒的连续向量,而是具备可控的推理结构。

基于这一动机,作者团队提出 SIM-CoT 的训练框架:在训练阶段引入一个辅助 decoder,把每个隐式 latent 与对应的 step-level 推理进行对齐监督(而不是像 Coconut 只监督答案、或像 CODI 更偏轨迹级 / 整体级的粗粒度对齐)。

这样一来,模型在学习「如何答对」的同时,也被强约束去学习「每一步该想什么」,从根源上抑制语义坍缩;更重要的是,推理阶段直接移除 decoder,保持零额外开销,但作者团队依然可以在分析时把隐式步骤解码出来做中间推理可视化,同时获得更强的性能与更稳定的 token scaling 效果。



SIM-CoT 实验结果

作者团队对 SIM-CoT 带来的收益做了系统评估,结论非常明确:更准、更稳、还更省 token。

(i)GPT-2 上:首次做到「隐式 CoT 反超显式 CoT」,且 token 更省。

在 in-domain 的 GSM8k-Aug 上,SIM-CoT(以 Coconut 为骨干)把准确率从 36.6% 提升到 44.8%(+8.2),同时也超过显式 SFT-CoT 的 42.7%;并且保持隐式推理的低 token 开销(平均 token 远低于 SFT-CoT),论文总结为 2.3× token efficiency。

(ii)Out-of-domain 泛化更稳:整体平均提升显著。

在 GSM-Hard / MultiArith / SVAMP 三个外推数据集上,SIM-CoT(Coconut 骨干)的 out-of-domain 平均准确率从 42.6% 提升到 46.9%(+4.3),说明它并不是「只会背训练域步骤」,而是确实把 latent 空间推理做扎实了。

(iii)在更强的隐式基线与更大模型上依然有增益,并显著提升稳定性。

在 GPT-2 上叠加到 CODI 之上也能继续涨(in-domain +0.6,out-of-domain 平均 +0.3);扩展到 LLaMA 3.2 3B 时依然稳定带来 +1.5(in-domain)/+0.7(out-of-domain 平均) 的提升;论文也报告在 LLaMA-3.1 8B 上对 CODI 提升 +3.0。

(iv)效率不打折:推理阶段无额外开销,还更快。

因为辅助 decoder 只在训练期使用,推理期移除,所以 SIM-CoT 推理效率与其他隐式方法一致;同时在 GPT-2 上相对显式 CoT 仍体现出明显速度优势。







图三:作者团队在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系统验证了 SIM-CoT 的性能提升,结果表明该方法在不同模型规模下均稳定有效。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

演习第2天 东部战区组织实弹射击

央视新闻 浏览 1870

市场关键时点前夕,伦敦金属交易所交易一度中断两小时,铝锌等金属受影响

华尔街见闻官方 浏览 1186

内娱最癫综艺,又出来「作妖」了

娱乐圈笔娱君 浏览 842

周末重磅!特朗普关税突发,中美经贸磋商进展,下周三大事件

看财经show 浏览 2523

新年烫头不想显老10岁?看这篇就够了

黎贝卡的异想世界 浏览 1827

问界M9 2024款开放华为ADS小蓝灯升级服务

网易汽车 浏览 2779

中科大和华为联手破解大语言模型"注意力"背后的神秘规律

科技行者 浏览 1597

向华强说娱乐圈明星美女他看不上眼:极致宠溺背后的事业共生学

互联观察联盟 浏览 1831

年味拉满,好笑戳心,春节档还得看他们!

吐槽电影院 浏览 1369

张勇又回来了

中国企业家杂志 浏览 1829

亏了1800万,分红1.3个亿!网红牙膏,凭啥上市?

蓝鲸新闻 浏览 873

多次被传出轨家暴后,小S公开与许雅钧真实状况

动物奇奇怪怪 浏览 113

撑起500亿票房,国产片几大关键词:高质量动画大片、多维度抗战作品、话题性艺术佳作

环球网资讯 浏览 2088

涉安世半导体 商务部发声:同意荷经济部派员来华磋商

财联社 浏览 9364

浙江稠州商业银行“共享法庭”实践,获评消费者权益保护领航企业

Daily每日财报 浏览 1940

刚刚,全线大反攻!发生了什么?

券商中国 浏览 2645

俄军中将遭汽车炸弹袭击身亡 目击者:没开几米车突然爆炸

红星新闻 浏览 2001

郭德纲相声春晚访谈,透露最新计划

杨仔述 浏览 1903

欧洲企业CEO:中国抗生素卖得比口香糖还便宜 我好气

澎湃新闻 浏览 89

俄称打击乌军多处目标 乌称击退俄进攻

国际在线 浏览 2379

美股、中概股,全线爆发!机构称A股调整是布局良机!

证券时报e公司 浏览 2713
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1