アリババの HappyHorse 1.0 が 4 月下旬にグレーテストを開始して以来、Artificial Analysis Video Arena のリーダーボードで急速に首位を獲得した。本モデルを複数のシナリオでテストした結果を報告する。
テスト環境
テストは HappyHorse 1.0 を統合した複数のサードパーティプラットフォームで実施。テキストから動画と画像から動画の両モードをカバーした。プロンプトは簡潔な説明から 800 語の複雑な叙事まで多岐にわたる。
人物パフォーマンス:最大の強み
35mm〜85mm の焦点距離における人物生成で、HappyHorse 1.0 は明確な優位性を示した。背景ぼかし効果は自然であり、肌の質感と表情ディテールの保持度が著しく高い。複数のテスターは、本モデルが生成する顔は「一目で偽物と分かる」状態を脱しており、微表情や視線の変化が比較的リアルであると指摘している。
この特性により、以下のアプリケーションに特に適している:
- 人物 MV 制作
- エモーショナルなショート動画
- 人物接写ショット
- 青春アイドルドラマスタイルのコンテンツ
音声・動画同時生成:正確なリップシンク
HappyHorse 1.0 の音声・動画同期機能はテスト中で信頼性の高いパフォーマンスを示した。中英混合の会話シナリオにおいて、リップと音声のマッチング度は高く、環境音の生成も自然であった。この機能は事後のアフレコとリップシンク調整の作業量を大幅に削減し、大量の対話コンテンツを必要とする短ドラマ制作に特に友好的である。
複雑なプロンプト解析:強力だが要求も高い
本モデルは最大 800 語のプロンプトをサポートし、カメラ移動、スタイルの雰囲気、シーン遷移などの詳細な指示を解析できる。ただし、複数のユーザーはプロンプトの品質が出力に与える影響が従来モデルよりも大きいと報告している。記述が不正確な場合、モデルは過学習や期待からの逸脱を起こしやすい。
HappyHorse 1.0 は「特定分野の天才」と理解できる — 特定のシナリオでは優れたパフォーマンスを発揮するが、インプットの品質に対する要求も高い。
課題
大規模シーンにおける人物構図は本モデルの明確な弱点である。人物が広大な背景に配置される場合、人物と環境の融合が不自然になることがあり、一部のテストケースでは過学習の状態が見られた。壮大な叙事シーンを必要とするプロジェクトでは、他のモデルとの併用を推奨する。
Seedance 2.0 との比較
サードパーティの比較テストに基づき、HappyHorse 1.0 が Seedance 2.0 を上回る分野:
- 人物顔の自然さ
- テクスチャディテールと時間的一貫性
- リップシンク精度
- 短時間(3〜5 秒)クリップの鮮明度
Seedance 2.0 は大規模シーン構図と複雑なカメラ移動において依然として一定の優位性を保持している。
価格とコストパフォーマンス
グレーテスト期間中、一部のプラットフォームは無料クレジットや期間限定割引を提供している。APIMart の価格基準では、1 回の生成あたり約 90 クレジットを消費する。出力品質と長さを考慮すると、コストパフォーマンスは現在の動画生成モデルの中で中上位レベルにある。
結論
HappyHorse 1.0 は人物駆動型の叙事動画生成において優れた選択であり、特に短ドラマ、MV、エモーショナルコンテンツ制作に適している。大規模シーンや複雑なカメラ移動が必要な場合は、今後のバージョン最適化を待つか、他のモデルとの併用を検討されたい。
海外短ドラマや輸出向けコンテンツ制作に携わるチームにとって、本モデルの顔生成品質とリップシンク能力は顕著な商業的価値を持つ。