给一张图,里面有几条互不相交的闭合曲线。你的任务是判断这些曲线之间的嵌套关系——哪条在哪条里面,形成怎样的层次结构。
听起来像小学几何题?LLM 们答得一塌糊涂。
CurveBench 测试了什么
CurveBench 是一个专门测试视觉拓扑推理能力的基准。它包含 756 张图像,每张图像包含一组互不相交的 Jordan 曲线(简单闭合曲线),覆盖五种配置:简单、多边形、地形启发、迷宫式和密集计数。
每张图都标注了一个根树,编码曲线之间的包含关系。模型的任务是:给定一张图,恢复完整的根树结构。
这本质上是在测试模型能不能"看懂"空间嵌套关系——不是识别物体是什么,而是理解物体之间的空间拓扑结构。
结果挺惨的
最强模型 Gemini 3.1 Pro:
- CurveBench-Easy:71.1% 树生成准确率
- CurveBench-Hard:19.1%
19.1% 什么概念?随机猜都比这高。这说明在复杂的嵌套曲线场景下,Gemini 3.1 Pro 的视觉拓扑推理能力几乎为零。
更讽刺的是,经过 RLVR 风格微调的开源模型 Qwen3-VL-8B,在 CurveBench-Easy 上从 2.8% 提升到 33.3%,在这个评测协议下超过了 GPT-5.4 和 Claude Opus 4.5。注意,33.3% 仍然很低——但比闭着眼睛猜的顶级模型强。
为什么这个基准有意义
过去两年 VLM 的 benchmark 大部分集中在:能不能识别图中的物体、能不能回答问题、能不能做 OCR。这些测试的都是"是什么"。
CurveBench 测的是"在哪里、怎么嵌套"——精确的空间拓扑推理。这是完全不一样的能力。
一个模型可以准确告诉你"图中有三条曲线"(物体识别),但完全搞不清它们之间的嵌套关系(拓扑推理)。这就是为什么现有的 VLM benchmark 分数很高,但模型在某些看似简单的任务上表现糟糕。
RLVR 微调的效果
论文做了一个有意思的实验:用 RLVR(Reinforcement Learning from Verifiable Rewards)风格微调 Qwen3-VL-8B。效果从 2.8% 跳到 33.3%。
这说明:
- 拓扑推理能力是可以通过训练获得的,不是模型架构的硬伤
- 但即使训练后,33.3% 的天花板依然很低——精确拓扑推理确实难
我的判断
CurveBench 暴露了 VLM 的一个真实盲区:视觉理解 ≠ 空间拓扑推理。模型能识别像素模式,但不一定能理解这些模式背后的几何结构。
这对实际应用有直接影响。如果你的场景需要模型理解空间关系(比如电路图分析、建筑平面图解读、分子结构识别),现有的 VLM 可能远远不够。
33.3% 的 Qwen3-VL-8B 虽然超过了 GPT-5.4,但这更像是"矮子里拔将军",而不是真正的突破。精确拓扑推理距离"够用"还有很长的路。
主要来源:
- arXiv:2605.14068 CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves
- 论文作者团队(4 位作者)