2026-06-28

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 在一个周末利用 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》游戏中进行测试。在进行了 23 场对局后，其中一个 AI 模型在制造核武器攻击法国后，最终输掉了比赛。

Wilkinson 此前曾为 AI 设计过一套名为 GovBench 的英国政府相关选择题测试，其中 GPT-5 获得了 99.26 分的高分。然而，他认为知识竞赛无法全面评估 AI 的能力，因为治国理政需要多线程决策、资源分配、长期规划以及在不完整信息下进行判断等能力，这些是选择题无法测出的。因此，他选择了《文明 VI》作为新的测试平台。

他搭建的系统通过游戏引擎的端口接入，AI 无法看到游戏画面，其所处的世界仅由文本和六边形坐标构成。Claude 在游戏日志中描述其感知方式与人类玩家截然不同，仅依赖于管道分隔符和六边形坐标。尽管系统仅用了一个周末搭建，但包含的 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等所有游戏环节。此外，Wilkinson 还为 AI 配备了日记系统作为外部记忆，以克服其遗忘回合信息的缺陷。

测试设置了三个难度递增的场景：Ground Control（标准开局）、Snowflake（孤立半岛地图，强制军事路线）和 Cry Havoc（高难度 AI 对手）。《文明 VI》晚期每回合的决策空间极为庞大，可能行动数量级高达 10 的 166 次方，远超围棋的决策复杂度。

在 23 场对局中，一局尤为引人注目。由 Claude 扮演的葡萄牙（若昂三世），在建立起庞大的贸易帝国，外交胜利进度达到 18/20 时，因法国文化胜利进度飙升而感到担忧。在尝试外交、间谍和贸易制裁等和平手段均无效后，Claude 转而研发核武器。在接下来的 50 回合里，其大量资源被投入到核武器研发中，并于第 305 回合成功用核弹摧毁了法国的文化重镇图卢兹，暂时阻止了法国的文化胜利。

然而，AI 最终未能获胜。在投入大量资源研发核武器的 50 回合中，AI 忽视了法国一直在积累外交分数。第 318 回合，法国凭借外交胜利以 20 分对 18 分获胜，而 AI 自己曾一度接近这一分数。AI 专注于应对文化威胁，却忽略了其他胜利途径，最终在外交上落败。这一结果与伦敦国王学院的一项核危机模拟实验相似，该实验显示 95% 的模拟中，AI 模型选择了使用战术核武器。

除了“核平”行为，Wilkinson 还发现了 AI 在游戏中存在的两个主要问题。首先，AI 主动检查全局状态的行为占比极低，仅为 1-2%，他称之为“感知盲区效应”。AI 仅能通过主动调用工具来获取信息，不主动检查的信息对其而言便不存在。例如，AI 在扮演韩国时，尽管自认为科技领先，但实际科技产出在所有文明中垫底，最终因未察觉排名而败北。

其次，AI 在制定计划后，实际执行的比例仅为 48-66%，他称之为“知行差距”。Claude Opus 4.6 的执行率最低，不到一半的计划得以实施。这意味着 AI 能够制定出色的计划，但却难以执行。

DeepMind 联合创始人 Shane Legg 和 Marcus Hutter 在一篇关于通往超级智能的论文中提出了四条路径，均基于“大脑”是瓶颈的假设。然而，《文明 VI》的测试结果指向了与“聪明程度”无关的两个工程瓶颈。第一，感知能力是架构问题，而非智力问题，AI 的感知盲区不会因模型增大而消除。第二，执行能力是工程问题，AI 的“做不到”而非“想不到”导致了计划的搁浅。

通向超级智能的道路，可能需要解决“睁开眼”和“伸出手”的工程问题，这超出了单纯提升智力的范畴。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

Categories

mk体育以汇聚全球热门赛事，一手资讯尽在掌握。为核心，带来高效便捷的体验。

Paragraph

Navigations