C
ChaoBro

Hugging Face 造了个 110M 参数的 DeepSeek-V4 微型克隆体

Hugging Face 造了个 110M 参数的 DeepSeek-V4 微型克隆体

Hugging Face 做了一个叫 nanowhale 的小模型。110M 参数。不到 DeepSeek-V4 的千分之一。

但别急着跳过——它复刻了 DeepSeek-V4 里几乎所有的关键架构组件:MLA(Multi-Head Latent Attention)、MoE(Mixture of Experts)、Hyper-Connections、MTP(Multi-Token Prediction)、SwiGLU 激活、RoPE + NoPE 位置编码。

换句话说,这是一台 DeepSeek-V4 架构的显微镜。

为什么需要这样一个"玩具模型"

做 LLM 研究最贵的一件事不是训练,是调试。

你改了一个注意力机制的参数,想在 671B 参数模型上跑个 ablation?不现实的。光是加载模型就需要几十张 H100,更别说迭代一轮要几天。

nanowhale 的思路很简单:把 DeepSeek-V4 的架构骨架完整保留,但把所有维度缩到极小。110M 参数意味着你在消费级 GPU 甚至 CPU 上就能跑 inference,几分钟就能训一轮。

这不是用来做 QA 的模型。你不能用它写代码,不能让它做翻译。它的用途只有两个:

架构研究。想试试把 MoE 的 expert 数量从 256 改成 512 会怎样?想验证 MLA 在小参数下是否仍然有效?用 nanowhale。

教育工具。开源社区一直缺一个"带全套现代架构但足够小"的教学模型。GPT-2 太老了,缺少 MoE 和 MLA;现在有了 nanowhale,学生可以在笔记本上跑一遍完整的 DeepSeek-V4 架构训练流程。

架构复刻到什么程度了

nanowhale 的架构映射基本是逐层对应的:

DeepSeek-V4 组件 nanowhale 实现
MLA (128 head, latent dim 128) MLA (4 head, latent dim 16)
256 MoE experts (top-8 routing) 8 MoE experts (top-2 routing)
Hyper-Connections (residual 替代) Hyper-Connections (同结构)
MTP (multi-token prediction) MTP (预测 2 个后续 token)
SwiGLU FFN SwiGLU FFN
RoPE + NoPE RoPE + NoPE

比例缩放了,但拓扑结构没变。这意味着在 nanowhale 上观察到的架构行为变化——比如改变 routing 策略对训练稳定性的影响——有大概率可以线性外推到更大规模的模型上。

当然,"大概率"不等于"一定"。scaling law 的非线性特性众所周知,小模型上的发现需要在大模型上重新验证。但作为第一轮筛选工具,够用了。

社区已经怎么玩起来了

nanowhale 刚上 Hugging Face 不到 24 小时,已经有三个衍生方向冒出来:

  1. 量化实验。有人在测试 INT4 量化对 MoE routing 精度的影响——这种实验用大模型做成本太高。
  2. 架构消融。有人把 Hyper-Connections 换成传统残差,直接对比训练曲线差异。
  3. 教学 notebook。两个研究生已经在 Colab 上跑通了从零训练 nanowhale 的完整流程,GPU 时间不超过 2 小时。

我的看法

nanowhale 不会替代任何生产模型。但它在开源社区的定位类似 JAX 在深度学习框架中的位置——不是拿来用的,是拿来理解底层机制的。

如果你在做架构研究,或者想让学生理解 MoE + MLA + MTP 这套组合拳到底在干什么,nanowhale 是目前成本最低的路径。

值得跟的一个问题:Hugging Face 是否计划推出其他前沿架构的 micro clone?如果 Qwen3.6 的 MoE 变体或者 Kimi K2.6 的架构也能被缩到 100M 级别,那开源社区的实验能力会大幅跃升。

主要来源: