交差しない閉曲線がいくつか描かれた画像が与えられる。タスクはこれらの曲線の間のネスト関係を判断すること——どの曲線がどの中にあるか、どのような階層構造を形成しているか。
小学校の幾何の問題に聞こえる?LLM たちは散々な結果だった。
CurveBench がテストしたもの
CurveBench は視覚トポロジー推論能力を専門にテストするベンチマーク。756 枚の画像が含まれ、各画像に交差しない Jordan 曲線(単純閉曲線)のセットが含まれる。5 つの設定をカバー:簡単、多角形、地形启发、迷路風、密集カウント。
各画像には曲線間の包含関係をエンコードする根付き木が注釈されている。モデルのタスク:画像が与えられたとき、完全な根付き木構造を復元すること。
これは本質的にモデルが空間ネスト関係を「見られる」かどうかをテストしている——物体が何かを識別するのではなく、物体間の空間トポロジー構造を理解できるかどうか。
結果は厳しい
最強モデル Gemini 3.1 Pro:
- CurveBench-Easy:71.1% 木生成精度
- CurveBench-Hard:19.1%
19.1% とは?ランダムに推測する方がまだましだ。これは複雑なネスト曲線シナリオにおいて、Gemini 3.1 Pro の視覚トポロジー推論能力が実質的にゼロであることを示している。
僕の判断
CurveBench は VLM の真の盲点を露呈させた:視覚理解 ≠ 空間トポロジー推論。モデルはピクセルパターンを認識できるが、それらのパターンの背後にある幾何構造を理解できるとは限らない。
主要ソース:
- arXiv:2605.14068 CurveBench
- 論文著者チーム(4 名)