全网免费 LLM API 聚合：GPT-5/Claude/Gemini/DeepSeek/Qwen 零成本调用方案汇总

痛点

开发者想用最新的大模型做实验、做原型、做 Side Project，但面临一个现实问题：主流模型的 API 都要钱。

OpenAI GPT-5 API：$15/百万输入 token
Anthropic Claude 4：$15/百万输入 token
Google Gemini 2.5 Pro：$7.5/百万输入 token

对于个人开发者、学生、或者只是想"试一下"的技术决策者，这个门槛不低。

解决方案

一个开源项目把所有免费可用的 LLM API 整理到了一起，覆盖以下平台：

平台	免费额度	可用模型	限制
Groq	无明确上限	Llama 4、Mixtral	速率限制
Cerebras	免费 tier	Llama 4、Qwen3	请求量限制
OpenRouter	部分模型免费	GPT-5-mini、Claude Haiku	有限额度
Google AI Studio	15 RPM 免费	Gemini 3 Flash、Gemini 2.5 Pro	速率限制
GitHub Models	免费	Phi-4、Qwen3、Llama 4	速率限制
DeepSeek	新注册送额度	DeepSeek R1、V4	有限 token
Together AI	$25 免费额度	Llama 4、Mixtral	用完即止

可用模型清单

免费可调用的一线模型

模型	免费平台	推荐用途
Gemini 3 Flash	Google AI Studio	快速问答、文本生成
GPT-5-mini	OpenRouter（有限）	通用对话、轻量任务
Claude Haiku	OpenRouter（有限）	快速响应场景
Llama 4 Scout	Groq / GitHub Models	开源替代方案
Qwen3.6 35B	Cerebras / GitHub	中文场景首选
DeepSeek R1	DeepSeek 平台	推理/数学任务
Phi-4-mini	GitHub Models	端侧/低延迟场景

上手步骤

方案一：Google AI Studio（最简单）

# 1. 访问 https://aistudio.google.com
# 2. 用 Google 账号登录
# 3. 获取 API Key（免费）
# 4. 直接调用

curl https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash:generateContent \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{"parts": [{"text": "你好，用中文回答"}]}],
    "generationConfig": {"maxOutputTokens": 1000}
  }'

方案二：Groq（最快响应）

# 1. 注册 https://console.groq.com
# 2. 获取 API Key
# 3. 调用（延迟通常 < 100ms）

curl https://api.groq.com/openai/v1/chat/completions \
  -H "Authorization: Bearer $GROQ_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-4-scout",
    "messages": [{"role": "user", "content": "解释量子计算"}]
  }'

方案三：OpenRouter（一个 Key 调用多模型）

# 1. 注册 https://openrouter.ai
# 2. 获取 API Key
# 3. 用统一接口调用不同模型

curl https://openrouter.ai/api/v1/chat/completions \
  -H "Authorization: Bearer $OPENROUTER_KEY" \
  -d '{
    "model": "openai/gpt-5-mini",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

成本对比

方案	月免费额度	超额成本	适合场景
Google AI Studio	~150万次请求	$7.5/百万 token	个人项目/学习
Groq	充足免费额度	按量付费	低延迟应用
OpenRouter	有限免费	各模型不同	多模型对比测试
GitHub Models	免费	N/A	集成 GitHub 的项目

行动建议

场景	推荐方案
做 Side Project 原型	Google AI Studio + Gemini 3 Flash
需要最低延迟	Groq + Llama 4
对比多个模型效果	OpenRouter（一个接口切换）
中文场景	Qwen3.6 via Cerebras 或 GitHub Models
推理/数学	DeepSeek R1 免费额度

提醒：免费 tier 通常有速率限制，不适合生产环境。但对于原型验证、学习、或者低频应用，这些方案已经足够。

痛点

解决方案

可用模型清单

免费可调用的一线模型

上手步骤

方案一：Google AI Studio（最简单）

方案二：Groq（最快响应）

方案三：OpenRouter（一个 Key 调用多模型）

成本对比

行动建议

Related

SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

flue：Astro 联合创始人开源的 AI Agent 沙箱框架

LMSYS 万兆参数传输：P2P 权重更新把 1T 模型训练提速到秒级