Ollama 正式支持 DeepSeek-V4-Pro：1M 上下文本地部署，一键接入 Claude Code 和 OpenClaw

Ollama + DeepSeek-V4-Pro：零配置接入

Ollama 近日宣布原生支持 DeepSeek-V4-Pro，用户可以通过 ollama run deepseek-v4-pro 一键拉取并运行这个前沿 MoE 模型。

关键亮点：零额外配置。这意味着 Claude Code、OpenClaw、CodeX、OpenCode 等主流 Agent 框架可以直接调用 DeepSeek-V4-Pro，无需手动配置 API key 或调整连接参数。

100 万 token 上下文：本地部署的意义

DeepSeek-V4-Pro 拥有 100 万 token 的上下文窗口，这在本地部署的模型中是罕见的。

此前，百万级上下文通常只能通过云端 API 获得。Ollama 的原生支持意味着开发者可以在本地机器上运行具备超长上下文的 MoE 模型——虽然需要足够的显存和 RAM，但至少路径是通的。

对于 Agent 工作流来说，100 万 token 上下文意味着：

可以一次性输入整个代码仓库进行分析
支持超长文档的理解和问答
多轮对话不再丢失早期上下文
Agent 可以在单次会话中执行更复杂的任务链

MoE 架构的本地优势

DeepSeek-V4-Pro 采用 Mixture-of-Experts（MoE） 架构。MoE 的核心优势在于：推理时只激活部分专家网络，实际计算量远小于模型的总参数量。

这在本地部署场景下尤为关键：

显存需求可控：虽然总参数巨大，但每次推理只加载部分参数
推理速度有保障：激活参数量少，延迟低于同规模的稠密模型
多模型并行成为可能：在同一台机器上可以同时运行多个 MoE 模型

与 Agent 框架的集成

Ollama 的支持使得 DeepSeek-V4-Pro 可以无缝接入多个 Agent 框架：

Claude Code

通过 Ollama 提供的本地端点，Claude Code 可以将 DeepSeek-V4-Pro 设置为辅助模型，利用其 100 万上下文进行代码分析和文档处理。

OpenClaw

OpenClaw 的多模型路由功能可以直接对接 Ollama，将 DeepSeek-V4-Pro 作为主力推理模型使用。

CodeX / OpenCode

OpenAI 的 Codex 和开源的 OpenCode 同样支持通过 Ollama 端点接入 DeepSeek-V4-Pro。

实际部署建议

硬件要求（参考）：

最低配置：24GB 显存（量化版本），适合 8B-32B 子模型
推荐配置：48GB+ 显存（A100/H100 或双 RTX 4090），可运行完整 MoE
内存：建议 128GB+ RAM，用于模型加载和上下文缓存

上手步骤：

# 安装 Ollama（如未安装）
curl -fsSL https://ollama.com/install.sh | sh

# 拉取 DeepSeek-V4-Pro
ollama pull deepseek-v4-pro

# 在 Claude Code 中配置
# 在 Claude Code 设置中将模型端点指向 Ollama 的本地 API

对开源生态的影响

Ollama 支持 DeepSeek-V4-Pro 是一个标志性事件：它意味着前沿 MoE 模型的本地部署路径已经打通。

过去，开发者只能在「用云端 API 花钱」和「用小型本地模型牺牲质量」之间做选择。现在，DeepSeek-V4-Pro 通过 Ollama 提供了第三条路：本地部署前沿模型，兼顾隐私、成本和性能。

对于中国 AI 生态来说，这也是一个正面信号——国产模型不仅在云端 API 层面具有竞争力，在开源本地部署生态中也获得了主流工具链的一等支持。

总结

Ollama + DeepSeek-V4-Pro 的组合，加上与 Claude Code、OpenClaw 等 Agent 框架的无缝集成，正在重塑本地 AI 开发的格局。对于注重数据隐私、成本控制或需要超长上下文场景的开发者来说，这是 2026 年最值得关注的本地 AI 部署方案之一。

Ollama + DeepSeek-V4-Pro：零配置接入

100 万 token 上下文：本地部署的意义

MoE 架构的本地优势

与 Agent 框架的集成

Claude Code

OpenClaw

CodeX / OpenCode

实际部署建议

对开源生态的影响

总结

相关内容

SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

flue：Astro 联合创始人开源的 AI Agent 沙箱框架

LMSYS 万兆参数传输：P2P 权重更新把 1T 模型训练提速到秒级