CurveBench：Gemini 3.1 Pro 在嵌套曲线拓扑推理上只拿了 19.1%，LLM 的视觉推理盲区比你想象的大

给一张图，里面有几条互不相交的闭合曲线。你的任务是判断这些曲线之间的嵌套关系——哪条在哪条里面，形成怎样的层次结构。

听起来像小学几何题？LLM 们答得一塌糊涂。

CurveBench 测试了什么

CurveBench 是一个专门测试视觉拓扑推理能力的基准。它包含 756 张图像，每张图像包含一组互不相交的 Jordan 曲线（简单闭合曲线），覆盖五种配置：简单、多边形、地形启发、迷宫式和密集计数。

每张图都标注了一个根树，编码曲线之间的包含关系。模型的任务是：给定一张图，恢复完整的根树结构。

这本质上是在测试模型能不能"看懂"空间嵌套关系——不是识别物体是什么，而是理解物体之间的空间拓扑结构。

最强模型 Gemini 3.1 Pro：

19.1% 什么概念？随机猜都比这高。这说明在复杂的嵌套曲线场景下，Gemini 3.1 Pro 的视觉拓扑推理能力几乎为零。

更讽刺的是，经过 RLVR 风格微调的开源模型 Qwen3-VL-8B，在 CurveBench-Easy 上从 2.8% 提升到 33.3%，在这个评测协议下超过了 GPT-5.4 和 Claude Opus 4.5。注意，33.3% 仍然很低——但比闭着眼睛猜的顶级模型强。

过去两年 VLM 的 benchmark 大部分集中在：能不能识别图中的物体、能不能回答问题、能不能做 OCR。这些测试的都是"是什么"。

CurveBench 测的是"在哪里、怎么嵌套"——精确的空间拓扑推理。这是完全不一样的能力。

一个模型可以准确告诉你"图中有三条曲线"（物体识别），但完全搞不清它们之间的嵌套关系（拓扑推理）。这就是为什么现有的 VLM benchmark 分数很高，但模型在某些看似简单的任务上表现糟糕。

论文做了一个有意思的实验：用 RLVR（Reinforcement Learning from Verifiable Rewards）风格微调 Qwen3-VL-8B。效果从 2.8% 跳到 33.3%。

这说明：

CurveBench 暴露了 VLM 的一个真实盲区：视觉理解 ≠ 空间拓扑推理。模型能识别像素模式，但不一定能理解这些模式背后的几何结构。

这对实际应用有直接影响。如果你的场景需要模型理解空间关系（比如电路图分析、建筑平面图解读、分子结构识别），现有的 VLM 可能远远不够。

33.3% 的 Qwen3-VL-8B 虽然超过了 GPT-5.4，但这更像是"矮子里拔将军"，而不是真正的突破。精确拓扑推理距离"够用"还有很长的路。

主要来源：