結論
アントグループ(Inclusion AI / Ant Ling)が4月末に2つのモデルをオープンソース化:Ling-2.6-FlashとLing-2.6-1T。どちらもMoEアーキテクチャ、MITライセンス、BF16/FP8/INT4の3つの精度バージョンを提供。同パラメータ規模のモデルと比較して、Lingシリーズの核心的な違いは極めて低いアクティブパラメータと実行指向設計——ベンチマークスコア稼ぎのマシンではなく、Agentワークロードのためにカスタマイズされたもの。
| 次元 | Ling-2.6-Flash | Ling-2.6-1T |
|---|---|---|
| 総パラメータ | 104B | 約1T |
| アクティブパラメータ | 7.4B | 約63B |
| コンテキストウィンドウ | 256K | 256K+ |
| ライセンス | MIT | MIT |
| SWE-Bench Verified | 62 | 67+ |
| BFCL-V4 | 67 | 72+ |
| TAU2-Bench (Telecom) | 93.86 | 95+ |
何が起きたのか
Ling-2.6-Flash:超軽量Agentモデル
- 4月29日、Ling-2.6-Flashの重みが正式にオープンソース化。104B総パラメータ、推論ごとに7.4Bのみアクティブ——コンシューマー向けGPU(単一RTX 4090 INT4量子化)で実行可能。
- Ling 2.0をベースにハイブリッド線形アテンションメカニズムを導入。従来のGQAアテンションをより効率的なハイブリッド方式に置き換え、推論レイテンシを大幅に削減。
- SWE-Bench Verified 62、BFCL-V4 67、TAU2-Telecom 93.86——すべてハードなシナリオ指標。
Ling-2.6-1T:フラッグシップ実行モデル
- Flashに続いてLing-2.6-1Tが同日リリース。約1T総パラメータ、約63Bアクティブパラメータ。
- 核心理念は**「実行優先」**(Execution-First):推論过程中的なトークンの無駄を削減。
アクション
誰が注目すべきか
- Agent開発者:Ling-2.6-Flashの7.4Bアクティブパラメータは低レイテンシーAgent呼び出しに最適
- コスト重視チーム:API呼び出しが多いシナリオではFlashのコスト優位性が顕著
- コンシューマーGPUユーザー:INT4量子化版は単一RTX 4090で104B MoEを実行可能
始め方
# Hugging Faceインストール
pip install transformers accelerate
# Ling-2.6-Flashを読み込む(INT4量子化)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"InclusionAI/Ling-2.6-Flash",
device_map="auto",
torch_dtype="auto"
)
- Hugging Face:
huggingface.co/InclusionAI - ModelScope:
modelscope.cn/organization/AntLingAGI