C
ChaoBro

Ollama 正式支持 DeepSeek-V4-Pro:1M 上下文本地部署,一键接入 Claude Code 和 OpenClaw

Ollama 正式支持 DeepSeek-V4-Pro:1M 上下文本地部署,一键接入 Claude Code 和 OpenClaw

Ollama + DeepSeek-V4-Pro:零配置接入

Ollama 近日宣布原生支持 DeepSeek-V4-Pro,用户可以通过 ollama run deepseek-v4-pro 一键拉取并运行这个前沿 MoE 模型。

关键亮点:零额外配置。这意味着 Claude Code、OpenClaw、CodeX、OpenCode 等主流 Agent 框架可以直接调用 DeepSeek-V4-Pro,无需手动配置 API key 或调整连接参数。

100 万 token 上下文:本地部署的意义

DeepSeek-V4-Pro 拥有 100 万 token 的上下文窗口,这在本地部署的模型中是罕见的。

此前,百万级上下文通常只能通过云端 API 获得。Ollama 的原生支持意味着开发者可以在本地机器上运行具备超长上下文的 MoE 模型——虽然需要足够的显存和 RAM,但至少路径是通的。

对于 Agent 工作流来说,100 万 token 上下文意味着:

  • 可以一次性输入整个代码仓库进行分析
  • 支持超长文档的理解和问答
  • 多轮对话不再丢失早期上下文
  • Agent 可以在单次会话中执行更复杂的任务链

MoE 架构的本地优势

DeepSeek-V4-Pro 采用 Mixture-of-Experts(MoE) 架构。MoE 的核心优势在于:推理时只激活部分专家网络,实际计算量远小于模型的总参数量。

这在本地部署场景下尤为关键:

  • 显存需求可控:虽然总参数巨大,但每次推理只加载部分参数
  • 推理速度有保障:激活参数量少,延迟低于同规模的稠密模型
  • 多模型并行成为可能:在同一台机器上可以同时运行多个 MoE 模型

与 Agent 框架的集成

Ollama 的支持使得 DeepSeek-V4-Pro 可以无缝接入多个 Agent 框架:

Claude Code

通过 Ollama 提供的本地端点,Claude Code 可以将 DeepSeek-V4-Pro 设置为辅助模型,利用其 100 万上下文进行代码分析和文档处理。

OpenClaw

OpenClaw 的多模型路由功能可以直接对接 Ollama,将 DeepSeek-V4-Pro 作为主力推理模型使用。

CodeX / OpenCode

OpenAI 的 Codex 和开源的 OpenCode 同样支持通过 Ollama 端点接入 DeepSeek-V4-Pro。

实际部署建议

硬件要求(参考):

  • 最低配置:24GB 显存(量化版本),适合 8B-32B 子模型
  • 推荐配置:48GB+ 显存(A100/H100 或双 RTX 4090),可运行完整 MoE
  • 内存:建议 128GB+ RAM,用于模型加载和上下文缓存

上手步骤

# 安装 Ollama(如未安装)
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 DeepSeek-V4-Pro
ollama pull deepseek-v4-pro

# 在 Claude Code 中配置
# 在 Claude Code 设置中将模型端点指向 Ollama 的本地 API

对开源生态的影响

Ollama 支持 DeepSeek-V4-Pro 是一个标志性事件:它意味着前沿 MoE 模型的本地部署路径已经打通

过去,开发者只能在「用云端 API 花钱」和「用小型本地模型牺牲质量」之间做选择。现在,DeepSeek-V4-Pro 通过 Ollama 提供了第三条路:本地部署前沿模型,兼顾隐私、成本和性能。

对于中国 AI 生态来说,这也是一个正面信号——国产模型不仅在云端 API 层面具有竞争力,在开源本地部署生态中也获得了主流工具链的一等支持。

总结

Ollama + DeepSeek-V4-Pro 的组合,加上与 Claude Code、OpenClaw 等 Agent 框架的无缝集成,正在重塑本地 AI 开发的格局。对于注重数据隐私、成本控制或需要超长上下文场景的开发者来说,这是 2026 年最值得关注的本地 AI 部署方案之一。