· 大家好,我是 同学小张,日常分享AI知识和实战案例 · 欢迎 点赞 + 关注 👏,持续学习,持续干货输出。 · +v: jasper_8017 一起交流💬,一起进步💪,更有专业资料领取!
随着大型语言模型(LLM)在复杂推理任务中的广泛应用,长思维链(Long Chain-of-Thought, CoT)生成的推理成本问题日益凸显。本文系统梳理了近期7篇针对长思维链压缩的前沿研究工作,重点分析其核心方法、创新点及实验结果,为降低推理成本提供技术参考。
1. LightThinker:动态压缩中间推理步骤论文链接: LightThinker: Thinking Step-by-Step Compression
核心方法- · 动态压缩机制: 在推理过程中插入特殊Token(如
[c] 表示压缩内容),通过注意力掩码设计限制模型对历史Token的依赖,逐步压缩中间步骤。 - · 依赖度指标(Dependency,Dep): 通过测量生成过程中对历史 Token 的依赖程度来量化压缩程度。
如下图,(a)表示传统思维链CoT的思考过程,有两步思考。 (b)表示了 LightThinker 的思考过程:首先基于 Question + Thought1 生成压缩 Token [C T1];然后基于 Question + [C T1] 生成思考过程 Thought2;之后进一步使用 Question + [C T1] + Thought2 生成压缩 Token [C T2];最后,基于 Question + [C T1] + [C T2] 生成 Answer。  实现阶段创新点- · 首次提出基于依赖度的动态压缩策略,实现推理过程与压缩操作的同步进行。
- · 通过重构训练数据(分割输出并插入特殊Token),使模型学习压缩能力。
 实验结果- · 在Bespoke-Stratos-17k数据集上,峰值Token数降低50%,精度损失1-2%,但推理时间未显著减少。

2. TokenSkip:基于重要性的Token剪枝论文链接: TokenSkip: Controllable Chain-of-Thought Compression in LLMs
开源GitHub: https://github.com/hemingkx/TokenSkip 核心方法- · 重要性评估: 利用梯度或注意力分数计算每个Token对推理的贡献度,按重要性排序后剪枝低价值Token。
- · 可控压缩: 通过指定压缩率γ(如40%)实现Token数量的灵活控制。
如下图:TokenSkip 一共可分为三个阶段 - · Token Pruning:根据 Token 的重要性对 CoT 序列进行剪枝。首先计算每个 Token 的语义重要性,然后按重要性值降序排列,根据指定的压缩比率 γ 确定阈值,保留重要性大于等于阈值的 Token。
- · Training:使用剪枝后的 CoT 数据对目标 LLM 进行 SFT。在训练数据中,每个样本包含问题、压缩后的 CoT 和答案。
- · Inference:给定问题和压缩比率 γ,模型按照训练时的格式进行 Inference,自回归地生成输出序列,包括 CoT Token 和答案。
 实现阶段创新点- · 提出Token级剪枝框架,首次将可控压缩率引入推理过程。
TokenSkip实际执行结果示例(直观上感觉是将一些Token删掉了,其实里面最重要的是判断Token的语义重要性):  实验结果- · 在GSM8K数学推理任务中,Token数减少40%,精度损失低于0.4%,但加速效果有限(仅1.2倍)。

3. TALE框架:动态Token预算分配论文链接: Token-Budget-Aware LLM Reasoning
核心方法(1)Token预算估计: 通过零样本提示(TALE-EP)或后训练(TALE-PT)动态分配Token预算,适配不同任务复杂度。 - · TALE-EP(Estimation & Prompting):通过 0-shot prompting 方式估计合理的 Token Budget,并将其纳入 Prompt 中,从而生成更高效的 Reasoning 过程。
  - · TALE-PT(Post-Training):通过 Post-training 将 Token Budget 内化到 LLM 中,使其在没有显式 Token 约束的情况下生成更高效的响应。
 (2)预算内化: 将Token约束融入模型参数,减少显式提示依赖。 实现阶段- · TALE-EP: Prompt工程(无需训练)
创新点- · 首次提出“Token预算”概念,为推理效率提供量化指标。
- · 结合Prompt工程与模型微调,实现预算分配的动态适配。
实验结果- · TALE-PT-SFT在数学任务中减少30% Token,精度提升1-3%;TALE-EP减少20% Token,精度损失约2%。

4. Chain of Draft:强制简洁推理论文链接: Chain of Draft: Thinking Faster by Writing Less
开源GitHub: https://github.com/sileix/chain-of-draft
核心方法- · 长度约束: 限制每个推理步骤的输出长度(如≤5个单词),避免冗余描述。
- · 示例引导: 在Prompt中提供简洁推理示例,引导模型生成紧凑中间步骤。
 实现阶段创新点- · 通过硬性约束迫使模型聚焦关键推理节点,显著减少Token数量。
- · 提出“草稿-修正”两阶段生成框架,兼顾效率与准确性。
实验结果- · Token数减少92.4%,但零样本场景精度下降显著(GSM8K从77%降至58%)。
5. InftyThink:迭代式分段推理论文链接: InftyThink: Breaking the Length Limits
核心方法- · 分段迭代: 将长推理分解为多个短推理片段,每段后插入中间总结。
 - · 周期性总结: 通过“锯齿形”内存模式降低计算复杂度。
 实现阶段创新点- · 突破单次长推理的上下文限制,支持超长序列处理。
- · 重构训练数据(如OpenR1-Math-Inf),适配迭代推理范式。
实验结果- · MATH500任务精度提升3-13%,但总Token数增加,未评估实际加速效果。

6. Sketch-of-Thought:思维草图,认知启发式推理论文链接: Sketch-of-Thought: Efficient LLM Reasoning
核心方法- · 符号化压缩: 借鉴人类专家使用的符号、缩写(如
#Seoul → #South Korea → Won )和领域特定的术语,生成紧凑推理链。 - · 范式路由: 基于轻量级路由模型(DistilBERT)动态选择最优推理范式(概念链、分块符号、专家词典)。
 实现阶段部署方案- · 路由模型部署:DistilBERT实例(2GB内存)
- · 范式数据库:维护领域符号词典(如医学SNOMED CT)
创新点- · 提出三类认知启发范式:概念链、分块符号、专家词典。
(1)概念链(Conceptual Chaining):利用联想记忆网络连接关键概念,以极简的文字表达 Reasoning 过程。例如,回答“首尔使用的货币是什么?”时,SoT 的 Reasoning 过程为:#Seoul → #South Korea → Won。  (2)分块符号主义(Chunked Symbolism):基于工作记忆分块理论,将数学 Reasoning 组织成紧凑的符号表示。例如,计算“一辆汽车以 2.5 m/s² 的加速度加速 10 秒,初始速度为 15 m/s,求最终速度?”时,SoT 的 Reasoning 过程为:a = 2.5 m/s², t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。  (3)专家词典(Expert Lexicons):模仿专家使用的领域特定的缩写和符号,以高效表达复杂信息。例如,回答“STEMI 患者接受 MONA 治疗,但对阿司匹林过敏,这种治疗是否安全?”时,SoT 的 Reasoning 过程为:STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。  - · 实现Token减少76%的同时,数学任务精度不降反升。
实验结果- · 在15个多语言/多模态数据集上,平均精度损失<1%,数学推理精度提升2-5%。

7. Meta-RFT:元强化学习优化论文链接: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
核心方法- · 元强化学习(Meta Reinforcement Learning,MRL) 优化 LLM 在测试时的计算资源利用效率。
- · 元强化微调(Meta Reinforcement Fine-Tuning, MRT) 方法,旨在优化测试时计算。
- · 密集奖励函数: 结合结果奖励与“进展奖励”(推理步骤的概率增量),优化Token效率。
- · 训练框架: 基于STaR(自训练)或在线RL(如PPO)实现元强化微调。
论文中提出了两种实现 MRT 的方法: - · 基于 STaR(Self-Training with Rollouts)的 MRT:通过采样模型的输出,筛选出那些既符合进展奖励又最终成功的轨迹,然后进行监督学习。
- · 基于 RL 的 MRT:直接在训练过程中优化包含进展奖励的目标函数,使用在线强化学习方法(如 PPO 或 GRPO)进行更新。
 实现阶段创新点- · 首次将元强化学习引入推理效率优化,实现Token消耗与精度的均衡。
- · 定义“进展”量化指标,为密集奖励提供理论基础。
实验结果- · Qwen-1.5B模型在相同精度下Token减少50%,8B模型推理加速1.5倍。

8. 对比技术对比与挑战 | | | | LightThinker | | | | TokenSkip | | | | TALE-PT | | | | Chain of Draft | | | | InftyThink | | | | Sketch-of-Thought | | | | Meta-RFT | | | |
成本对比如果觉得本文对你有帮助,麻烦点个赞和关注呗 ~~~
|