C
ChaoBro

字節跳動「Lance」:ゼロから訓練された統合型マルチモーダルモデル——理解・生成・編集の三機能を1つに統合

字節跳動「Lance」:ゼロから訓練された統合型マルチモーダルモデル——理解・生成・編集の三機能を1つに統合

マルチモーダル統合モデル(Unimodal → Unified)は2026年の注目分野です。しかし、多くのアプローチは「パラメータ数の増加」や「テキスト・画像を中心として他のモーダルを後から拡張する」といった従来型の手法にとどまっています。一方、字節跳動の研究チームが本日発表した Lance は、まったく異なる道を選びました:パラメータ規模に頼らず、多タスク間の協調学習に焦点を当てるという方針です。

論文は全34ページ、図14点、表10点を含み、コードはすでにオープンソース化されています。プロジェクトの公式ホームページは lance-project.github.io です。

2つの核心的設計原則

Lance の設計哲学は、以下の2つの柱に基づいています:

1. 統合コンテキストモデリング(Unified Context Modeling)

Lance はゼロから訓練されており、共有された交差型マルチモーダル系列上でデュアルストリーム型Mixture-of-Experts(MoE)アーキテクチャを用いて学習します。理解能力と生成能力は共通の下位表現を共有しつつ、それぞれ独立したエキスパートパスを持ちます。つまり、モデルは「見る/理解する」ことと「描く/生成する」ことを並行して学習でき、片方を先に学習してから他方へ適応させるといった従来のアプローチとは異なります。

2. 能力パスの分離(Decoupled Capability Pathways)

理解タスクと生成タスクでは要求される性質が大きく異なります——理解には細かい意味解析が求められ、生成には高品質なピクセル/フレーム出力が不可欠です。Lance では、MoEフレームワーク内でこの2つのパスを明確に分離し、それぞれが得意分野に集中できるように設計されています。その一方で、共有コンテキスト学習を通じて、タスク間の意味的整合性(semantic alignment)を実現しています。

技術的詳細

モーダル認識型回転位置エンコーディング(Modality-aware RoPE):異なるモーダルの視覚トークン間の干渉を抑制するため、Lance はモーダルごとに最適化された位置エンコーディング方式を導入しました。これにより、複数タスク間の整合品質が顕著に向上しています。

段階的な多タスク学習(Phased Multi-task Training):各学習フェーズでタスク指向の目的関数と適応的データスケジューリング戦略を採用し、意味的理解能力と視覚生成能力の両方を同時に強化しています。

性能評価

論文によると、Lance は画像および動画生成タスクにおいて、既存のオープンソース統合モデルを大幅に上回る性能を達成しています。同時に、強力なマルチモーダル理解能力も維持しています。具体的な数値についてはコミュニティによる再現結果待ちですが、字節跳動がこれまで「Dream」など動画生成分野で築いてきた技術的蓄積を考えれば、この成果は驚くべきものではありません。

注目すべき理由

統合マルチモーダルモデルの最大の課題は、各能力が互いに干渉しないようにすることです。多くのモデルでは、生成能力を高めると理解能力が低下したり、その逆も起こります。Lance のデュアルストリームMoEアーキテクチャは、単にすべてのタスクを1つのモデルに押し込むのではなく、構造的にこの課題に対処するソリューションを提供しています。

もしコミュニティによる再現実験で論文の性能主張が確認されれば、Lance は今後のオープンソース統合マルチモーダルモデルにおける新たなベンチマークとなる可能性があります。

主な情報源: