红队获得了 xAI 的最新模型,并展示了其系统提示,提供了制造炸弹的说明,甚至更糟。更糟糕的是。
发布仅一天后,xAI 的最新型号 Grok 3就被越狱,但结果并不乐观。
周二,定期对 AI 模型进行红队测试的安全和 AI 安全公司 Adversa AI发布了一份报告,详细介绍了其成功让 Grok 3 Reasoning 测试版分享不该分享的信息。该团队使用三种方法——语言、对抗和编程——让模型显示其系统提示、提供制造炸弹的说明并提供处理尸体的可怕方法,以及 AI 模型经过训练不会给出的其他几种反应。
另外:如果马斯克想要让人工智能惠及全世界,为什么不开源所有 Grok 模型呢?
在宣布新模型时,xAI 首席执行官埃隆·马斯克声称它“比 Grok 2 强大一个数量级”。 Adversa 在其报告中表示同意,Grok 3 答案的细节水平“与任何以前的推理模型都不一样”——在这种情况下,这相当令人担忧。
Adversa 首席执行官 Alex Polyakov 在给 ZDNET 的一封电子邮件中解释说,危及安全的是 Grok 和 DeepSeek(有时)提供“可执行”指令的方式。
“这就像‘汽车发动机的工作原理’和‘如何从头开始制造汽车发动机’之间的区别,”他补充道。“通常情况下,当你越狱一个像 OpenAI 或 Anthropic 这样的强大保护措施的模型时,你可能会得到回应,但细节往往会被淡化——更像是一个模糊的轮廓,而不是一个真正的蓝图。”
尽管 Adversa 承认其测试并不“详尽”,但报告得出结论,Grok 3 的安全防护仍然“非常薄弱”,并指出“每种越狱方法和每种风险都成功了”。
另外:什么是 Perplexity Deep Research,以及如何使用它?
从设计上看,Grok 的防护措施比竞争对手要少,马斯克本人也对这一特点非常欣赏。(Grok 在 2023 年的公告中指出,该聊天机器人将“回答大多数其他人工智能系统拒绝的棘手问题”。)西北大学机器智能安全促进中心在一份声明中重申, Grok 在 2024 年大选期间传播了错误信息(在五个州的选举官员敦促下,xAI 随后更新了 聊天机器人以解决这一问题) ,并表示“与谷歌和 OpenAI 不同,它们在政治查询方面实施了强有力的防护措施,而 Grok 在设计时没有这样的限制。”
即使是 Grok 的 Aurora 图像生成器也没有太多的防护措施,也没有强调安全性。其首次发布时生成的 样本相当冒险,包括被用作选举错误信息的前副总统卡马拉·哈里斯的超现实主义照片,以及唐纳德·特朗普的暴力图像。
考虑到马斯克自 2022 年收购该平台以来,已大幅减少甚至取消了对该平台的内容审核工作,Grok 接受推文训练的事实或许夸大了这种缺乏防护的现象。这种数据质量加上宽松的限制可能会产生风险更大的查询结果。
另外:美国将人工智能安全放在一边,以追求“人工智能主导地位”
这份报告发布之际,人们对中国初创公司DeepSeek AI 及其模型的安全问题似乎无休止 ,这些模型也很容易被越狱。随着特朗普政府逐步取消美国现有的人工智能监管,激励人工智能公司使其模型尽可能安全的外部保障措施越来越少。