【原】长推理（Long Reasoning）成本太高？7大压缩技术帮你省下一半Token！

小张学AI 2025-05-20 发布于山东

展开全文

· 大家好，我是 同学小张，日常分享AI知识和实战案例
· 欢迎 点赞 + 关注 👏，持续学习，持续干货输出。
· +v: jasper_8017 一起交流💬，一起进步💪，更有专业资料领取！

随着大型语言模型（LLM）在复杂推理任务中的广泛应用，长思维链（Long Chain-of-Thought, CoT）生成的推理成本问题日益凸显。本文系统梳理了近期7篇针对长思维链压缩的前沿研究工作，重点分析其核心方法、创新点及实验结果，为降低推理成本提供技术参考。

1. LightThinker：动态压缩中间推理步骤

论文链接: LightThinker: Thinking Step-by-Step Compression
https:///pdf/2502.15589

核心方法

· 动态压缩机制: 在推理过程中插入特殊Token（如[c]表示压缩内容），通过注意力掩码设计限制模型对历史Token的依赖，逐步压缩中间步骤。
· 依赖度指标（Dependency，Dep）: 通过测量生成过程中对历史 Token 的依赖程度来量化压缩程度。

如下图，(a)表示传统思维链CoT的思考过程，有两步思考。
(b)表示了 LightThinker 的思考过程：首先基于 Question + Thought1 生成压缩 Token [C T1]；然后基于 Question + [C T1] 生成思考过程 Thought2；之后进一步使用 Question + [C T1] + Thought2 生成压缩 Token [C T2]；最后，基于 Question + [C T1] + [C T2] 生成 Answer。

实现阶段

· 微调（Fine-tuning）

创新点

· 首次提出基于依赖度的动态压缩策略，实现推理过程与压缩操作的同步进行。
· 通过重构训练数据（分割输出并插入特殊Token），使模型学习压缩能力。

实验结果

· 在Bespoke-Stratos-17k数据集上，峰值Token数降低50%，精度损失1-2%，但推理时间未显著减少。

2. TokenSkip：基于重要性的Token剪枝

论文链接: TokenSkip: Controllable Chain-of-Thought Compression in LLMs
https:///pdf/2502.12067

开源GitHub: https://github.com/hemingkx/TokenSkip

核心方法

· 重要性评估: 利用梯度或注意力分数计算每个Token对推理的贡献度，按重要性排序后剪枝低价值Token。
· 可控压缩: 通过指定压缩率γ（如40%）实现Token数量的灵活控制。

如下图：TokenSkip 一共可分为三个阶段

· Token Pruning：根据 Token 的重要性对 CoT 序列进行剪枝。首先计算每个 Token 的语义重要性，然后按重要性值降序排列，根据指定的压缩比率 γ 确定阈值，保留重要性大于等于阈值的 Token。
· Training：使用剪枝后的 CoT 数据对目标 LLM 进行 SFT。在训练数据中，每个样本包含问题、压缩后的 CoT 和答案。
· Inference：给定问题和压缩比率 γ，模型按照训练时的格式进行 Inference，自回归地生成输出序列，包括 CoT Token 和答案。

实现阶段

· 监督微调（SFT）

创新点

· 提出Token级剪枝框架，首次将可控压缩率引入推理过程。
· 基于剪枝数据微调模型，平衡压缩率与精度损失。

TokenSkip实际执行结果示例（直观上感觉是将一些Token删掉了，其实里面最重要的是判断Token的语义重要性）：

实验结果

· 在GSM8K数学推理任务中，Token数减少40%，精度损失低于0.4%，但加速效果有限（仅1.2倍）。

3. TALE框架：动态Token预算分配

论文链接: Token-Budget-Aware LLM Reasoning
https:///pdf/2412.18547

核心方法

（1）Token预算估计: 通过零样本提示（TALE-EP）或后训练（TALE-PT）动态分配Token预算，适配不同任务复杂度。

· TALE-EP（Estimation & Prompting）：通过 0-shot prompting 方式估计合理的 Token Budget，并将其纳入 Prompt 中，从而生成更高效的 Reasoning 过程。

· TALE-PT（Post-Training）：通过 Post-training 将 Token Budget 内化到 LLM 中，使其在没有显式 Token 约束的情况下生成更高效的响应。

（2）预算内化: 将Token约束融入模型参数，减少显式提示依赖。

实现阶段

· 双模式支持：

· TALE-EP: Prompt工程（无需训练）
· TALE-PT: 后训练微调

创新点

· 首次提出“Token预算”概念，为推理效率提供量化指标。
· 结合Prompt工程与模型微调，实现预算分配的动态适配。

实验结果

· TALE-PT-SFT在数学任务中减少30% Token，精度提升1-3%；TALE-EP减少20% Token，精度损失约2%。

4. Chain of Draft：强制简洁推理

论文链接: Chain of Draft: Thinking Faster by Writing Less
https:///pdf/2502.18600

开源GitHub: https://github.com/sileix/chain-of-draft

核心方法

· 长度约束: 限制每个推理步骤的输出长度（如≤5个单词），避免冗余描述。
· 示例引导: 在Prompt中提供简洁推理示例，引导模型生成紧凑中间步骤。

实现阶段

· 纯Prompt工程

创新点

· 通过硬性约束迫使模型聚焦关键推理节点，显著减少Token数量。
· 提出“草稿-修正”两阶段生成框架，兼顾效率与准确性。

实验结果

· Token数减少92.4%，但零样本场景精度下降显著（GSM8K从77%降至58%）。

5. InftyThink：迭代式分段推理

论文链接: InftyThink: Breaking the Length Limits
https:///pdf/2503.06692

核心方法

· 分段迭代: 将长推理分解为多个短推理片段，每段后插入中间总结。

· 周期性总结: 通过“锯齿形”内存模式降低计算复杂度。

实现阶段

· 迭代式微调

创新点

· 突破单次长推理的上下文限制，支持超长序列处理。
· 重构训练数据（如OpenR1-Math-Inf），适配迭代推理范式。

实验结果

· MATH500任务精度提升3-13%，但总Token数增加，未评估实际加速效果。

6. Sketch-of-Thought：思维草图，认知启发式推理

论文链接: Sketch-of-Thought: Efficient LLM Reasoning
https:///pdf/2503.05179

核心方法

· 符号化压缩: 借鉴人类专家使用的符号、缩写（如#Seoul → #South Korea → Won）和领域特定的术语，生成紧凑推理链。
· 范式路由: 基于轻量级路由模型（DistilBERT）动态选择最优推理范式（概念链、分块符号、专家词典）。

实现阶段

· 联合训练

部署方案

· 路由模型部署：DistilBERT实例（2GB内存）
· 范式数据库：维护领域符号词典（如医学SNOMED CT）

创新点

· 提出三类认知启发范式：概念链、分块符号、专家词典。

（1）概念链（Conceptual Chaining）：利用联想记忆网络连接关键概念，以极简的文字表达 Reasoning 过程。例如，回答“首尔使用的货币是什么？”时，SoT 的 Reasoning 过程为：#Seoul → #South Korea → Won。

（2）分块符号主义（Chunked Symbolism）：基于工作记忆分块理论，将数学 Reasoning 组织成紧凑的符号表示。例如，计算“一辆汽车以 2.5 m/s² 的加速度加速 10 秒，初始速度为 15 m/s，求最终速度？”时，SoT 的 Reasoning 过程为：a = 2.5 m/s², t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。

（3）专家词典（Expert Lexicons）：模仿专家使用的领域特定的缩写和符号，以高效表达复杂信息。例如，回答“STEMI 患者接受 MONA 治疗，但对阿司匹林过敏，这种治疗是否安全？”时，SoT 的 Reasoning 过程为：STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。

· 实现Token减少76%的同时，数学任务精度不降反升。

实验结果

· 在15个多语言/多模态数据集上，平均精度损失<1%，数学推理精度提升2-5%。

7. Meta-RFT：元强化学习优化

论文链接: Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
https:///pdf/2503.07572

核心方法

· 元强化学习（Meta Reinforcement Learning，MRL） 优化 LLM 在测试时的计算资源利用效率。
· 元强化微调（Meta Reinforcement Fine-Tuning, MRT） 方法，旨在优化测试时计算。
· 密集奖励函数: 结合结果奖励与“进展奖励”（推理步骤的概率增量），优化Token效率。
· 训练框架: 基于STaR（自训练）或在线RL（如PPO）实现元强化微调。

论文中提出了两种实现 MRT 的方法：

· 基于 STaR（Self-Training with Rollouts）的 MRT：通过采样模型的输出，筛选出那些既符合进展奖励又最终成功的轨迹，然后进行监督学习。
· 基于 RL 的 MRT：直接在训练过程中优化包含进展奖励的目标函数，使用在线强化学习方法（如 PPO 或 GRPO）进行更新。

实现阶段

· 强化学习微调

创新点

· 首次将元强化学习引入推理效率优化，实现Token消耗与精度的均衡。
· 定义“进展”量化指标，为密集奖励提供理论基础。

实验结果

· Qwen-1.5B模型在相同精度下Token减少50%，8B模型推理加速1.5倍。

8. 对比

技术对比与挑战

方法	核心思路	优势	局限性
LightThinker	动态压缩中间步骤	峰值Token显著降低	推理时间未优化
TokenSkip	重要性剪枝	可控压缩率	加速效果有限
TALE-PT	动态Token预算	精度提升	依赖后训练数据
Chain of Draft	强制简洁推理	Token压缩率极高	零样本场景精度损失大
InftyThink	分段迭代推理	支持超长序列	总Token数增加
Sketch-of-Thought	符号化推理	精度无损甚至提升	依赖领域知识
Meta-RFT	元强化学习优化	均衡效率与精度	训练复杂度高

成本对比

方法	是否需要训练	计算成本	部署难度
LightThinker	高（微调）	高	中
TokenSkip	中（微调）	中	中
TALE-EP	低（Prompt）	低	低
Chain of Draft	低（Prompt）	低	低
Sketch-of-Thought	高（联合训练）	高	高
Meta-RFT	高（RL训练）	极高	高