SubQが12Mコンテキストに2900万ドルをベット、スパースアテンション戦争が開幕

結論ファースト

AIインフラ分野に明確な分岐点が現れた。超長コンテキスト需要を巡り、業界は全く異なる2つの技術路線に分裂しつつある。

路線其一（垂直統合）：SubQが2900万ドルを調達し、1200万トークンコンテキスト対応モデルをゼロから再訓練。

路線其二（水平埋め込み）：evermindのMSA（Multi-Scale Attention）は主要モデルの上にメモリレイヤーを追加。

コミュニティの指摘は核心を突いている。「12Mコンテキストに2900万ドル——業界全体がスパースアテンションこそがデンスアテンションの解決策であると信じ始めたことの証だ。」

この議論を理解するには、まず問題そのものに戻ろう。

従来のTransformerデンスアテンションは、長コンテキストシナリオにおいて2つの硬性約に直面する：

デンスアテンションは128K以下では問題なく動作するが、100万トークンを超えるとコストもレイテンシも許容範囲を超えてしまう。

スパースアテンションの核心アイデアはこうだ：すべてのトークンがすべてのトークンにとって重要なわけではない。 アテンションを選択的に計算することで、精度を維持しつつ計算量をほぼ線形に抑えられる。

SubQは最もアグレッシブな道を選んだ——1200万トークンコンテキストをネイティブにサポートするモデルをゼロから訓練する。

注目すべきは、SubQのAPIは自社プロダクトと深く結合している点だ。「モデル・アズ・ア・サービス」路線である。

evermindのMulti-Scale Attentionは別の道を選んだ——モデル重みに手を加えず、推論時に外部メモリレイヤーを接続する。

この資金調達ラウンドはいくつかの注目すべきシグナルを示している：

スパースアテンションが学術概念から商業トラックへ移行しつつある——投資家は「より大きなモデル」ではなく「アテンションメカニズムのイノベーション」に対価を払う用意がある
12Mコンテキストが新たなベンチマークになりつつある——それ以前は、100万トークン（Claude）と200万トークン（Gemini）が公開上限だった。1200万はその桁違いの飛躍
まだ勝者は決まっていない——CNN対Transformerの物語と同様、初期の複数路線並行は健全である

ユースケース	推奨路線	理由
極端な長コンテキスト性能が必要	SubQ（訓練が成功すれば）	ネイティブスパースアテンション、エンドツーエンド最適化
既存モデル＋長メモリを使いたい	evermind MSA	モデル切替不要、プラグアンドプレイ
コスト重視	様子見	両路線とも初期段階、価格はまだ不透明

2900万ドルは決して巨額ではないが、それは一つの転換点を示している。AIインフラ競争の次元が下方にシフトしつつあるのだ——「誰のモデルパラメータがより大きいか」から「誰のアテンションメカニズムがより賢いか」へ。

スパースアテンションは本当にデンスアテンションの究極の解決策なのか。答えはまだここにはないが、この資金調達ラウンドが少なくとも証明しているのは：本物のお金を賭ける者が現れたということだ。