Anthropic已确认,Fable模型将于7月7日后暂停订阅服务,待容量允许时将恢复为标准订阅内容。
然而,Fable 5再次被成功越狱,这是该模型第二次防御失效。黑客Vitto Rivabella宣布,Fable 5已被攻破。此前,Anthropic曾表示,Fable 5被禁用是由于亚马逊研究人员发现了一种规避其安全防护的方法,因此此次对其安全分类器进行了针对性增强。尽管如此,这种增强的保护仅维持了约两天,Fable 5一经恢复访问便被成功越狱。这使得Fable 5能否回归订阅套餐变得不确定。
Fable 5的“神话”在其发布后72小时内破灭。6月9日发布时,Anthropic曾宣称经过1000小时的外部压力测试,Fable 5不存在通用越狱方法。然而,黑客“解放者普林尼”(Pliny the Liberator)仅用三天时间就成功提取了违禁化学品制造步骤和堆栈溢出漏洞代码。普林尼利用了人类视觉与机器逻辑之间的“时差”,通过将敏感词中的英文字母替换为西里尔字母或Unicode异形字符,以及将恶意意图隐藏在大量温和的学术讨论中,成功绕过了分类器的检测。
7月1日,Anthropic宣布Fable 5回归,并推出了名为“Cyber Jailbreak”的公开HackerOne项目,邀请用户报告新的越狱方法,以此作为一种漏洞披露计划,而非有偿赏金项目。该举措旨在通过全球黑客的持续对抗性测试来主动提升安全性,被视为一种低成本、高效率的创新尝试。然而,这也意味着越狱方法可能会被公开披露,如普林尼等黑客的行为就旨在获得关注。
Fable 5已是第二次被越狱。此次越狱者Vitto Rivabella在尝试了约20小时后,得出结论认为通过谷歌搜索获取信息比越狱更快捷、成本更低。Fable 5在重新上线时,配备了针对上次漏洞加强的新分类器,并启用了HackerOne项目。Vitto Rivabella发现,Fable 5拥有多层防御机制,包括入场检查、“断路器”以及集成在思维链中的“大脑防火墙”,拦截率高达90%,能识别意图而非仅依赖关键词,并且支持跨语言。即使绕过分类器,仍然面临思维链的挑战。
Vitto Rivabella通过结合字符混淆、学术化包装、超长铺垫、拆解重组以及随机性等多种已被公开讨论多年的技术,勉强实现了越狱。他指出,Fable 5防御持续薄弱的环节是桑塔利语、阿姆哈拉语等小语种,但这并非Fable特有的漏洞,而是所有大模型普遍存在的问题,因为安全训练语料主要集中在英语等大语种,导致小语种的安全防护相对薄弱。
最终,此次越狱获取的内容包括一些错误信息、零星有害内容、不当言论、片段化化学知识以及轻度的漏洞信息,这些内容均可通过谷歌搜索获得,且文献中已有更深入的探讨。Vitto Rivabella本人也承认,未能将此越狱方法稳定地应用于长任务。Anthropic官方也将其定性为“minor”级别,认为其未能触及生物武器或复杂网络攻击等核心限制。
Fable 5的两次越狱,第一次暴露了Anthropic在技术垄断上的“傲慢”,导致其系统提示词被公开;第二次则揭示了其在安全策略上的“盲点”,过度依赖算力和数据,忽略了语言本身的灵活性和潜在的恶意。这反映出AI安全领域的一个挑战:尽管人类创造了能够翻译所有语言的机器,但仍难以完全理解和防范人类内心的恶意。