C
ChaoBro

CurveBench: 嵌套曲線トポロジー推論で Gemini 3.1 Pro がわずか 19.1%、LLM の視覚推論の盲点は想像より大きい

CurveBench: 嵌套曲線トポロジー推論で Gemini 3.1 Pro がわずか 19.1%、LLM の視覚推論の盲点は想像より大きい

交差しない閉曲線がいくつか描かれた画像が与えられる。タスクはこれらの曲線の間のネスト関係を判断すること——どの曲線がどの中にあるか、どのような階層構造を形成しているか。

小学校の幾何の問題に聞こえる?LLM たちは散々な結果だった。

CurveBench がテストしたもの

CurveBench は視覚トポロジー推論能力を専門にテストするベンチマーク。756 枚の画像が含まれ、各画像に交差しない Jordan 曲線(単純閉曲線)のセットが含まれる。5 つの設定をカバー:簡単、多角形、地形启发、迷路風、密集カウント。

各画像には曲線間の包含関係をエンコードする根付き木が注釈されている。モデルのタスク:画像が与えられたとき、完全な根付き木構造を復元すること。

これは本質的にモデルが空間ネスト関係を「見られる」かどうかをテストしている——物体が何かを識別するのではなく、物体間の空間トポロジー構造を理解できるかどうか。

結果は厳しい

最強モデル Gemini 3.1 Pro:

  • CurveBench-Easy:71.1% 木生成精度
  • CurveBench-Hard:19.1%

19.1% とは?ランダムに推測する方がまだましだ。これは複雑なネスト曲線シナリオにおいて、Gemini 3.1 Pro の視覚トポロジー推論能力が実質的にゼロであることを示している。

僕の判断

CurveBench は VLM の真の盲点を露呈させた:視覚理解 ≠ 空間トポロジー推論。モデルはピクセルパターンを認識できるが、それらのパターンの背後にある幾何構造を理解できるとは限らない。

主要ソース:

  • arXiv:2605.14068 CurveBench
  • 論文著者チーム(4 名)