分享

长推理(Long Reasoning)成本太高?7大压缩技术帮你省下一半Token!

 小张学AI 2025-05-20 发布于山东
  • · 大家好,我是 同学小张,日常分享AI知识和实战案例

  • · 欢迎 点赞 + 关注 👏,持续学习持续干货输出

  • · +v: jasper_8017 一起交流💬,一起进步💪,更有专业资料领取!



随着大型语言模型(LLM)在复杂推理任务中的广泛应用,长思维链(Long Chain-of-Thought, CoT)生成的推理成本问题日益凸显。本文系统梳理了近期7篇针对长思维链压缩的前沿研究工作,重点分析其核心方法、创新点及实验结果,为降低推理成本提供技术参考。


1. LightThinker:动态压缩中间推理步骤

论文链接: LightThinker: Thinking Step-by-Step Compression

https:///pdf/2502.15589

核心方法

  • · 动态压缩机制: 在推理过程中插入特殊Token(如[c]表示压缩内容),通过注意力掩码设计限制模型对历史Token的依赖,逐步压缩中间步骤。
  • · 依赖度指标(Dependency,Dep): 通过测量生成过程中对历史 Token 的依赖程度来量化压缩程度。

如下图,(a)表示传统思维链CoT的思考过程,有两步思考。
(b)表示了 LightThinker 的思考过程:首先基于 Question + Thought1 生成压缩 Token [C T1];然后基于 Question + [C T1] 生成思考过程 Thought2;之后进一步使用 Question + [C T1] + Thought2 生成压缩 Token [C T2];最后,基于 Question + [C T1] + [C T2] 生成 Answer。

在这里插入图片描述

实现阶段

  • · 微调(Fine-tuning)

创新点

  • · 首次提出基于依赖度的动态压缩策略,实现推理过程与压缩操作的同步进行。
  • · 通过重构训练数据(分割输出并插入特殊Token),使模型学习压缩能力。
在这里插入图片描述

实验结果

  • · 在Bespoke-Stratos-17k数据集上,峰值Token数降低50%,精度损失1-2%,但推理时间未显著减少
在这里插入图片描述

2. TokenSkip:基于重要性的Token剪枝

论文链接: TokenSkip: Controllable Chain-of-Thought Compression in LLMs

https:///pdf/2502.12067

开源GitHub: https://github.com/hemingkx/TokenSkip

核心方法

  • · 重要性评估: 利用梯度或注意力分数计算每个Token对推理的贡献度,按重要性排序后剪枝低价值Token。
  • · 可控压缩: 通过指定压缩率γ(如40%)实现Token数量的灵活控制。

如下图:TokenSkip 一共可分为三个阶段

  • · Token Pruning:根据 Token 的重要性对 CoT 序列进行剪枝。首先计算每个 Token 的语义重要性,然后按重要性值降序排列,根据指定的压缩比率 γ 确定阈值,保留重要性大于等于阈值的 Token。
  • · Training:使用剪枝后的 CoT 数据对目标 LLM 进行 SFT。在训练数据中,每个样本包含问题、压缩后的 CoT 和答案。
  • · Inference:给定问题和压缩比率 γ,模型按照训练时的格式进行 Inference,自回归地生成输出序列,包括 CoT Token 和答案。
在这里插入图片描述

实现阶段

  • · 监督微调(SFT)

创新点

  • · 提出Token级剪枝框架,首次将可控压缩率引入推理过程。
  • · 基于剪枝数据微调模型,平衡压缩率与精度损失。

TokenSkip实际执行结果示例(直观上感觉是将一些Token删掉了,其实里面最重要的是判断Token的语义重要性):

在这里插入图片描述

实验结果

  • · 在GSM8K数学推理任务中,Token数减少40%,精度损失低于0.4%,但加速效果有限(仅1.2倍)。
在这里插入图片描述

3. TALE框架:动态Token预算分配

论文链接: Token-Budget-Aware LLM Reasoning

https:///pdf/2412.18547

核心方法

(1)Token预算估计: 通过零样本提示(TALE-EP)或后训练(TALE-PT)动态分配Token预算,适配不同任务复杂度。

  • · TALE-EP(Estimation & Prompting):通过 0-shot prompting 方式估计合理的 Token Budget,并将其纳入 Prompt 中,从而生成更高效的 Reasoning 过程。
在这里插入图片描述
在这里插入图片描述
  • · TALE-PT(Post-Training):通过 Post-training 将 Token Budget 内化到 LLM 中,使其在没有显式 Token 约束的情况下生成更高效的响应。
在这里插入图片描述

(2)预算内化: 将Token约束融入模型参数,减少显式提示依赖。

实现阶段

  • · 双模式支持:
    • · TALE-EP: Prompt工程(无需训练)
    • · TALE-PT: 后训练微调

创新点

  • · 首次提出“Token预算”概念,为推理效率提供量化指标。
  • · 结合Prompt工程与模型微调,实现预算分配的动态适配。

实验结果

  • · TALE-PT-SFT在数学任务中减少30% Token,精度提升1-3%;TALE-EP减少20% Token,精度损失约2%。
在这里插入图片描述

4. Chain of Draft:强制简洁推理

论文链接: Chain of Draft: Thinking Faster by Writing Less

https:///pdf/2502.18600


开源GitHub: https://github.com/sileix/chain-of-draft

核心方法

  • · 长度约束: 限制每个推理步骤的输出长度(如≤5个单词),避免冗余描述。
  • · 示例引导: 在Prompt中提供简洁推理示例,引导模型生成紧凑中间步骤。
在这里插入图片描述

实现阶段

  • · 纯Prompt工程

创新点

  • · 通过硬性约束迫使模型聚焦关键推理节点,显著减少Token数量。
  • · 提出“草稿-修正”两阶段生成框架,兼顾效率与准确性。

实验结果

  • · Token数减少92.4%,但零样本场景精度下降显著(GSM8K从77%降至58%)。

5. InftyThink:迭代式分段推理

论文链接: InftyThink: Breaking the Length Limits

https:///pdf/2503.06692

核心方法

  • · 分段迭代: 将长推理分解为多个短推理片段,每段后插入中间总结。
在这里插入图片描述
  • · 周期性总结: 通过“锯齿形”内存模式降低计算复杂度。
在这里插入图片描述

实现阶段

  • · 迭代式微调

创新点

  • · 突破单次长推理的上下文限制,支持超长序列处理。
  • · 重构训练数据(如OpenR1-Math-Inf),适配迭代推理范式。

实验结果

  • · MATH500任务精度提升3-13%,但总Token数增加,未评估实际加速效果。
在这里插入图片描述

6. Sketch-of-Thought:思维草图,认知启发式推理

论文链接: Sketch-of-Thought: Efficient LLM Reasoning

https:///pdf/2503.05179

核心方法

  • · 符号化压缩: 借鉴人类专家使用的符号、缩写(如#Seoul → #South Korea → Won)和领域特定的术语,生成紧凑推理链。
  • · 范式路由: 基于轻量级路由模型(DistilBERT)动态选择最优推理范式(概念链、分块符号、专家词典)。
在这里插入图片描述

实现阶段

  • · 联合训练

部署方案

  • · 路由模型部署:DistilBERT实例(2GB内存)
  • · 范式数据库:维护领域符号词典(如医学SNOMED CT)

创新点

  • · 提出三类认知启发范式:概念链、分块符号、专家词典。

(1)概念链(Conceptual Chaining):利用联想记忆网络连接关键概念,以极简的文字表达 Reasoning 过程。例如,回答“首尔使用的货币是什么?”时,SoT 的 Reasoning 过程为:#Seoul → #South Korea → Won。

在这里插入图片描述

(2)分块符号主义(Chunked Symbolism):基于工作记忆分块理论,将数学 Reasoning 组织成紧凑的符号表示。例如,计算“一辆汽车以 2.5 m/s² 的加速度加速 10 秒,初始速度为 15 m/s,求最终速度?”时,SoT 的 Reasoning 过程为:a = 2.5 m/s², t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。

在这里插入图片描述

(3)专家词典(Expert Lexicons):模仿专家使用的领域特定的缩写和符号,以高效表达复杂信息。例如,回答“STEMI 患者接受 MONA 治疗,但对阿司匹林过敏,这种治疗是否安全?”时,SoT 的 Reasoning 过程为:STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。

在这里插入图片描述
  • · 实现Token减少76%的同时,数学任务精度不降反升。

实验结果

  • · 在15个多语言/多模态数据集上,平均精度损失<1%,数学推理精度提升2-5%。
在这里插入图片描述

7. Meta-RFT:元强化学习优化

论文链接: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

https:///pdf/2503.07572

核心方法

  • · 元强化学习(Meta Reinforcement Learning,MRL) 优化 LLM 在测试时的计算资源利用效率。
  • · 元强化微调(Meta Reinforcement Fine-Tuning, MRT) 方法,旨在优化测试时计算。
  • · 密集奖励函数: 结合结果奖励与“进展奖励”(推理步骤的概率增量),优化Token效率。
  • · 训练框架: 基于STaR(自训练)或在线RL(如PPO)实现元强化微调。

论文中提出了两种实现 MRT 的方法:

  • · 基于 STaR(Self-Training with Rollouts)的 MRT:通过采样模型的输出,筛选出那些既符合进展奖励又最终成功的轨迹,然后进行监督学习。
  • · 基于 RL 的 MRT:直接在训练过程中优化包含进展奖励的目标函数,使用在线强化学习方法(如 PPO 或 GRPO)进行更新。
在这里插入图片描述

实现阶段

  • · 强化学习微调

创新点

  • · 首次将元强化学习引入推理效率优化,实现Token消耗与精度的均衡。
  • · 定义“进展”量化指标,为密集奖励提供理论基础。

实验结果

  • · Qwen-1.5B模型在相同精度下Token减少50%,8B模型推理加速1.5倍。
在这里插入图片描述

8. 对比

技术对比与挑战

方法
核心思路
优势
局限性
LightThinker
动态压缩中间步骤
峰值Token显著降低
推理时间未优化
TokenSkip
重要性剪枝
可控压缩率
加速效果有限
TALE-PT
动态Token预算
精度提升
依赖后训练数据
Chain of Draft
强制简洁推理
Token压缩率极高
零样本场景精度损失大
InftyThink
分段迭代推理
支持超长序列
总Token数增加
Sketch-of-Thought
符号化推理
精度无损甚至提升
依赖领域知识
Meta-RFT
元强化学习优化
均衡效率与精度
训练复杂度高

成本对比

方法
是否需要训练
计算成本
部署难度
LightThinker
高(微调)
TokenSkip
中(微调)
TALE-EP
低(Prompt)
Chain of Draft
低(Prompt)
Sketch-of-Thought
高(联合训练)
Meta-RFT
高(RL训练)
极高

如果觉得本文对你有帮助,麻烦点个赞和关注呗 ~~~


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多