CurveBench: 嵌套曲線トポロジー推論で Gemini 3.1 Pro がわずか 19.1%、LLM の視覚推論の盲点は想像より大きい

交差しない閉曲線がいくつか描かれた画像が与えられる。タスクはこれらの曲線の間のネスト関係を判断すること——どの曲線がどの中にあるか、どのような階層構造を形成しているか。

小学校の幾何の問題に聞こえる？LLM たちは散々な結果だった。

CurveBench がテストしたもの

CurveBench は視覚トポロジー推論能力を専門にテストするベンチマーク。756 枚の画像が含まれ、各画像に交差しない Jordan 曲線（単純閉曲線）のセットが含まれる。5 つの設定をカバー：簡単、多角形、地形启发、迷路風、密集カウント。

各画像には曲線間の包含関係をエンコードする根付き木が注釈されている。モデルのタスク：画像が与えられたとき、完全な根付き木構造を復元すること。

これは本質的にモデルが空間ネスト関係を「見られる」かどうかをテストしている——物体が何かを識別するのではなく、物体間の空間トポロジー構造を理解できるかどうか。

最強モデル Gemini 3.1 Pro：

19.1% とは？ランダムに推測する方がまだましだ。これは複雑なネスト曲線シナリオにおいて、Gemini 3.1 Pro の視覚トポロジー推論能力が実質的にゼロであることを示している。

CurveBench は VLM の真の盲点を露呈させた：視覚理解 ≠ 空間トポロジー推論。モデルはピクセルパターンを認識できるが、それらのパターンの背後にある幾何構造を理解できるとは限らない。

主要ソース：