Ant Group Ling-2.6 シリーズ完全オープンソース:Flashは7.4Bアクティブ、1Tフラッグシップは「実行優先」設計

Ant Group Ling-2.6 シリーズ完全オープンソース:Flashは7.4Bアクティブ、1Tフラッグシップは「実行優先」設計

結論

アントグループ(Inclusion AI / Ant Ling)が4月末に2つのモデルをオープンソース化:Ling-2.6-FlashLing-2.6-1T。どちらもMoEアーキテクチャ、MITライセンス、BF16/FP8/INT4の3つの精度バージョンを提供。同パラメータ規模のモデルと比較して、Lingシリーズの核心的な違いは極めて低いアクティブパラメータ実行指向設計——ベンチマークスコア稼ぎのマシンではなく、Agentワークロードのためにカスタマイズされたもの。

次元Ling-2.6-FlashLing-2.6-1T
総パラメータ104B約1T
アクティブパラメータ7.4B約63B
コンテキストウィンドウ256K256K+
ライセンスMITMIT
SWE-Bench Verified6267+
BFCL-V46772+
TAU2-Bench (Telecom)93.8695+

何が起きたのか

Ling-2.6-Flash:超軽量Agentモデル

  • 4月29日、Ling-2.6-Flashの重みが正式にオープンソース化。104B総パラメータ、推論ごとに7.4Bのみアクティブ——コンシューマー向けGPU(単一RTX 4090 INT4量子化)で実行可能。
  • Ling 2.0をベースにハイブリッド線形アテンションメカニズムを導入。従来のGQAアテンションをより効率的なハイブリッド方式に置き換え、推論レイテンシを大幅に削減。
  • SWE-Bench Verified 62、BFCL-V4 67、TAU2-Telecom 93.86——すべてハードなシナリオ指標。

Ling-2.6-1T:フラッグシップ実行モデル

  • Flashに続いてLing-2.6-1Tが同日リリース。約1T総パラメータ、約63Bアクティブパラメータ。
  • 核心理念は**「実行優先」**(Execution-First):推論过程中的なトークンの無駄を削減。

アクション

誰が注目すべきか

  • Agent開発者:Ling-2.6-Flashの7.4Bアクティブパラメータは低レイテンシーAgent呼び出しに最適
  • コスト重視チーム:API呼び出しが多いシナリオではFlashのコスト優位性が顕著
  • コンシューマーGPUユーザー:INT4量子化版は単一RTX 4090で104B MoEを実行可能

始め方

# Hugging Faceインストール
pip install transformers accelerate

# Ling-2.6-Flashを読み込む(INT4量子化)
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "InclusionAI/Ling-2.6-Flash",
    device_map="auto",
    torch_dtype="auto"
)
  • Hugging Face: huggingface.co/InclusionAI
  • ModelScope: modelscope.cn/organization/AntLingAGI