ByteDance Lance：パラメータ増やしに頼らず、マルチタスクシナジーでマルチモーダル統一モデリングを突破

統一マルチモーダルモデルを作っている人なら皆知っている現実：理解と生成を同じモデルに入れようとすると、両方がお互いを引き下げる。理解タスクは正確な識別を求め、生成タスクは創造的な出力を求める——訓練中、両者は本質的に同じ特徴チャネルを奪い合っている。

ByteDanceの研究チームが5月18日に提出した論文は、少し違うアプローチを提案している。モデル容量の積み上げに頼らず、「テキスト-画像優位」の古い道も歩まない。代わりに、理解パスと生成パスを分離する——コンテキストを共有し、それぞれが仕事をする。

プロジェクト名はLance。

脳を共有し、出力を分離

Lanceのアーキテクチャデザインには直感的な比喩がある——人間が同時に聞いて話すようなもの。聞くことと話すことは同じ脳を使い（共有コンテキストモデリング）、聴覚処理と言語出力の神経経路は分かれている（デカップリングされた能力パス）。

具体的には、Lanceはゼロから訓練され、共有された交差マルチモーダルシーケンス上で動作する双流MoE（ mixture-of-experts）アーキテクチャを採用。すべてのモダリティのトークンがモデルに入って joint context を学習するが、理解タスクと生成タスクはそれぞれ異なるエキスパートパスを通る。

「理解してから生成する」カスケード方式ではない。理解と生成は訓練中に同時に推進され、MoEルーティングによって異なるサブネットワークが異なる能力に集中する。

2つの重要設計

1つ目はモダリティ対応回転位置エンコーディング（modality-aware RoPE）。異なるモダリティのトークン——画像パッチ、ビデオフレーム、テキストトークン——が混ざるとき、標準の位置エンコーディングは相互干渉を引き起こす。Lanceは異なるモダリティのトークンに位置エンコーディング識別子を付け、モデルが「これは視覚信号」か「これはテキスト信号」かを区別できるようにし、異種トークン間の干渉を減らす。

2つ目はステージ別マルチタスク訓練。理解、生成、編集を一気に放り込むのではなく、段階的に推進し、各ステージに明確な能力目標を設定し、適応的データスケジューリングと組み合わせる。まず基礎を固め、 затем強化。

効果はどうか

論文によると、Lanceは画像とビデオ生成において既存のオープンソース統一モデルを大幅に上回り、同時に強力なマルチモーダル理解能力を維持しているという。

Hugging Face Daily Papersで69upvote。爆発的成長ではないが、この方向では重量級の作業と言える。

注目すべきポイント

Lanceのhomepageで具体的な生成サンプルと比較結果が見られるはず。ビデオ生成品質が既存のオープンソースアプローチを明らかにリードしているなら、ByteDanceは統一マルチモーダルモデリングの道で独自の特色を打ち出したことになる。

ただし論文発表から1週間未満で、コミュニティの実際の検証はまだ少ない。MoEアーキテクチャの訓練段階の安定性、推論時のルーティング効率——これらは実際のデプロイ時に初めてわかる。

主要ソース：

Lance論文（ByteDance Research、2026年5月18日）
Hugging Face Daily Papers（69 upvotes）
プロジェクトページ：https://lance-project.github.io/

脳を共有し、出力を分離

2つの重要設計

効果はどうか

注目すべきポイント

関連コンテンツ

Chrome DevTools公式がMCPサーバーを公開：AIプログラミングエージェントがついにブラウザを「見られる」ように

Google I/O 2026：検索の「エージェント化」は単なるアップグレードではなく、根本的な書き換えだ

GoogleのSynthID透かし技術がOpenAI、Nvidiaなどの大手に採用：AIコンテンツのトレーサビリティが標準化の時代へ