QwenSeek-2B：用 DeepSeek-V4 思维链蒸馏的 2B 小模型，Apache 2.0 开源

2026 年 5 月初，Hugging Face 上出现了一个名为 QwenSeek-2B 的新模型。它不是大厂出品，而是来自社区开发者的独立项目——用 Qwen3.5-2B 作为学生模型，DeepSeek-V4 的思维链作为教师信号，完成了一次跨模型的蒸馏实验。

发生了什么

核心思路很简单：让一个小模型学会大模型的推理过程。不是简单地模仿输出结果，而是学习”怎么想”——DeepSeek-V4 在回答前生成的思考步骤被用作训练信号，注入到 Qwen3.5-2B 的预训练流程中。

第一，跨模型蒸馏的新路径。 此前的蒸馏工作大多在同一家族内进行（大 Qwen 蒸馏到小 Qwen）。QwenSeek-2B 打破了这个限制：用 DeepSeek 的推理能力来增强 Qwen 架构，证明了思维链知识可以跨架构迁移。

第二，2B 参数门槛极具实用价值。 2B 模型只需要 4-6GB 显存即可运行，意味着它可以在：

第三，Apache 2.0 许可证。 没有商用限制，企业可以直接集成到产品中，无需担心许可证合规问题。

这个实验揭示了一个正在形成的趋势：思维链（CoT）本身正在成为一种可蒸馏的知识资产。

当 DeepSeek-V4 这样的开源模型大量使用标签展示推理过程时，这些数据天然地成为了小型模型的训练素材。未来可能出现更多类似的”跨模型 CoT 蒸馏”项目：

这可能会加速”小模型大能力”的趋势——2B-7B 参数量的模型，通过吸收更大模型的推理过程，在某些任务上逼近更大的竞争对手。

注意：这是社区实验性项目，不是官方发布。稳定性、安全性和长期维护没有保障。生产环境使用前务必自行评估。