Hugging Face 造了个 110M 参数的 DeepSeek-V4 微型克隆体

Hugging Face 做了一个叫 nanowhale 的小模型。110M 参数。不到 DeepSeek-V4 的千分之一。

但别急着跳过——它复刻了 DeepSeek-V4 里几乎所有的关键架构组件：MLA（Multi-Head Latent Attention）、MoE（Mixture of Experts）、Hyper-Connections、MTP（Multi-Token Prediction）、SwiGLU 激活、RoPE + NoPE 位置编码。

换句话说，这是一台 DeepSeek-V4 架构的显微镜。

为什么需要这样一个"玩具模型"

做 LLM 研究最贵的一件事不是训练，是调试。

你改了一个注意力机制的参数，想在 671B 参数模型上跑个 ablation？不现实的。光是加载模型就需要几十张 H100，更别说迭代一轮要几天。

nanowhale 的思路很简单：把 DeepSeek-V4 的架构骨架完整保留，但把所有维度缩到极小。110M 参数意味着你在消费级 GPU 甚至 CPU 上就能跑 inference，几分钟就能训一轮。

这不是用来做 QA 的模型。你不能用它写代码，不能让它做翻译。它的用途只有两个：

架构研究。想试试把 MoE 的 expert 数量从 256 改成 512 会怎样？想验证 MLA 在小参数下是否仍然有效？用 nanowhale。

教育工具。开源社区一直缺一个"带全套现代架构但足够小"的教学模型。GPT-2 太老了，缺少 MoE 和 MLA；现在有了 nanowhale，学生可以在笔记本上跑一遍完整的 DeepSeek-V4 架构训练流程。

架构复刻到什么程度了

nanowhale 的架构映射基本是逐层对应的：

DeepSeek-V4 组件	nanowhale 实现
MLA (128 head, latent dim 128)	MLA (4 head, latent dim 16)
256 MoE experts (top-8 routing)	8 MoE experts (top-2 routing)
Hyper-Connections (residual 替代)	Hyper-Connections (同结构)
MTP (multi-token prediction)	MTP (预测 2 个后续 token)
SwiGLU FFN	SwiGLU FFN
RoPE + NoPE	RoPE + NoPE

比例缩放了，但拓扑结构没变。这意味着在 nanowhale 上观察到的架构行为变化——比如改变 routing 策略对训练稳定性的影响——有大概率可以线性外推到更大规模的模型上。

当然，"大概率"不等于"一定"。scaling law 的非线性特性众所周知，小模型上的发现需要在大模型上重新验证。但作为第一轮筛选工具，够用了。

社区已经怎么玩起来了

nanowhale 刚上 Hugging Face 不到 24 小时，已经有三个衍生方向冒出来：

量化实验。有人在测试 INT4 量化对 MoE routing 精度的影响——这种实验用大模型做成本太高。
架构消融。有人把 Hyper-Connections 换成传统残差，直接对比训练曲线差异。
教学 notebook。两个研究生已经在 Colab 上跑通了从零训练 nanowhale 的完整流程，GPU 时间不超过 2 小时。

我的看法

nanowhale 不会替代任何生产模型。但它在开源社区的定位类似 JAX 在深度学习框架中的位置——不是拿来用的，是拿来理解底层机制的。

如果你在做架构研究，或者想让学生理解 MoE + MLA + MTP 这套组合拳到底在干什么，nanowhale 是目前成本最低的路径。

值得跟的一个问题：Hugging Face 是否计划推出其他前沿架构的 micro clone？如果 Qwen3.6 的 MoE 变体或者 Kimi K2.6 的架构也能被缩到 100M 级别，那开源社区的实验能力会大幅跃升。

主要来源：

为什么需要这样一个"玩具模型"

架构复刻到什么程度了

社区已经怎么玩起来了

我的看法

相关内容

SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

flue：Astro 联合创始人开源的 AI Agent 沙箱框架

LMSYS 万兆参数传输：P2P 权重更新把 1T 模型训练提速到秒级