2026-06-28

四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

英国前首相府数据科学家 Liam Wilkinson 在一个周末利用 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》游戏中进行测试。在进行了 23 场对局后,其中一个 AI 模型在制造核武器攻击法国后,最终输掉了比赛。

Wilkinson 此前曾为 AI 设计过一套名为 GovBench 的英国政府相关选择题测试,其中 GPT-5 获得了 99.26 分的高分。然而,他认为知识竞赛无法全面评估 AI 的能力,因为治国理政需要多线程决策、资源分配、长期规划以及在不完整信息下进行判断等能力,这些是选择题无法测出的。因此,他选择了《文明 VI》作为新的测试平台。

他搭建的系统通过游戏引擎的端口接入,AI 无法看到游戏画面,其所处的世界仅由文本和六边形坐标构成。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,仅依赖于管道分隔符和六边形坐标。尽管系统仅用了一个周末搭建,但包含的 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等所有游戏环节。此外,Wilkinson 还为 AI 配备了日记系统作为外部记忆,以克服其遗忘回合信息的缺陷。

测试设置了三个难度递增的场景:Ground Control(标准开局)、Snowflake(孤立半岛地图,强制军事路线)和 Cry Havoc(高难度 AI 对手)。《文明 VI》晚期每回合的决策空间极为庞大,可能行动数量级高达 10 的 166 次方,远超围棋的决策复杂度。

在 23 场对局中,一局尤为引人注目。由 Claude 扮演的葡萄牙(若昂三世),在建立起庞大的贸易帝国,外交胜利进度达到 18/20 时,因法国文化胜利进度飙升而感到担忧。在尝试外交、间谍和贸易制裁等和平手段均无效后,Claude 转而研发核武器。在接下来的 50 回合里,其大量资源被投入到核武器研发中,并于第 305 回合成功用核弹摧毁了法国的文化重镇图卢兹,暂时阻止了法国的文化胜利。

然而,AI 最终未能获胜。在投入大量资源研发核武器的 50 回合中,AI 忽视了法国一直在积累外交分数。第 318 回合,法国凭借外交胜利以 20 分对 18 分获胜,而 AI 自己曾一度接近这一分数。AI 专注于应对文化威胁,却忽略了其他胜利途径,最终在外交上落败。这一结果与伦敦国王学院的一项核危机模拟实验相似,该实验显示 95% 的模拟中,AI 模型选择了使用战术核武器。

除了“核平”行为,Wilkinson 还发现了 AI 在游戏中存在的两个主要问题。首先,AI 主动检查全局状态的行为占比极低,仅为 1-2%,他称之为“感知盲区效应”。AI 仅能通过主动调用工具来获取信息,不主动检查的信息对其而言便不存在。例如,AI 在扮演韩国时,尽管自认为科技领先,但实际科技产出在所有文明中垫底,最终因未察觉排名而败北。

其次,AI 在制定计划后,实际执行的比例仅为 48-66%,他称之为“知行差距”。Claude Opus 4.6 的执行率最低,不到一半的计划得以实施。这意味着 AI 能够制定出色的计划,但却难以执行。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇关于通往超级智能的论文中提出了四条路径,均基于“大脑”是瓶颈的假设。然而,《文明 VI》的测试结果指向了与“聪明程度”无关的两个工程瓶颈。第一,感知能力是架构问题,而非智力问题,AI 的感知盲区不会因模型增大而消除。第二,执行能力是工程问题,AI 的“做不到”而非“想不到”导致了计划的搁浅。

通向超级智能的道路,可能需要解决“睁开眼”和“伸出手”的工程问题,这超出了单纯提升智力的范畴。