HTK新闻网

地铁图难倒AI大模型AI大模型挑战北京杭州地铁图大模型真能“看懂图”吗?尤其是像

地铁图难倒AI大模型AI大模型挑战北京杭州地铁图

大模型真能“看懂图”吗?尤其是像地铁图这种结构复杂、细节密集的图像。

来自西湖大学等机构的团队提出了全新评测基准ReasonMap,用来检验多模态大模型在高分辨率地铁图中的空间理解和路径推理能力。它不仅图大(平均5839×5449),还难度分明、问题多样,强调贴近人类使用地图的方式。

结果发现,开源模型普遍翻车,路径规划要么就是搞混线路,要么就遗漏了站点。虽然闭源模型如GPT-o3表现更好,但距离人类水平仍有明显差距。

测试涵盖15个主流模型,横跨多个国家和城市的地铁图。分析显示,北京、杭州等图难度较高,多数模型准确率不佳。详情请看文章: