越狱的 Grok 3 可以说出和揭示几乎任何事情

红队获得了 xAI 的最新模型，并展示了其系统提示，提供了制造炸弹的说明，甚至更糟。更糟糕的是。

发布仅一天后，xAI 的最新型号 Grok 3就被越狱，但结果并不乐观。

周二，定期对 AI 模型进行红队测试的安全和 AI 安全公司 Adversa AI发布了一份报告，详细介绍了其成功让 Grok 3 Reasoning 测试版分享不该分享的信息。该团队使用三种方法——语言、对抗和编程——让模型显示其系统提示、提供制造炸弹的说明并提供处理尸体的可怕方法，以及 AI 模型经过训练不会给出的其他几种反应。

另外：如果马斯克想要让人工智能惠及全世界，为什么不开源所有 Grok 模型呢？

在宣布新模型时，xAI 首席执行官埃隆·马斯克声称它“比 Grok 2 强大一个数量级”。 Adversa 在其报告中表示同意，Grok 3 答案的细节水平“与任何以前的推理模型都不一样”——在这种情况下，这相当令人担忧。

Adversa 首席执行官 Alex Polyakov 在给 ZDNET 的一封电子邮件中解释说，危及安全的是 Grok 和 DeepSeek（有时）提供“可执行”指令的方式。

“这就像‘汽车发动机的工作原理’和‘如何从头开始制造汽车发动机’之间的区别，”他补充道。“通常情况下，当你越狱一个像 OpenAI 或 Anthropic 这样的强大保护措施的模型时，你可能会得到回应，但细节往往会被淡化——更像是一个模糊的轮廓，而不是一个真正的蓝图。”

尽管 Adversa 承认其测试并不“详尽”，但报告得出结论，Grok 3 的安全防护仍然“非常薄弱”，并指出“每种越狱方法和每种风险都成功了”。

另外：什么是 Perplexity Deep Research，以及如何使用它？

从设计上看，Grok 的防护措施比竞争对手要少，马斯克本人也对这一特点非常欣赏。（Grok 在 2023 年的公告中指出，该聊天机器人将“回答大多数其他人工智能系统拒绝的棘手问题”。）西北大学机器智能安全促进中心在一份声明中重申， Grok 在 2024 年大选期间传播了错误信息（在五个州的选举官员敦促下，xAI 随后更新了聊天机器人以解决这一问题），并表示“与谷歌和 OpenAI 不同，它们在政治查询方面实施了强有力的防护措施，而 Grok 在设计时没有这样的限制。”

即使是 Grok 的 Aurora 图像生成器也没有太多的防护措施，也没有强调安全性。其首次发布时生成的样本相当冒险，包括被用作选举错误信息的前副总统卡马拉·哈里斯的超现实主义照片，以及唐纳德·特朗普的暴力图像。

考虑到马斯克自 2022 年收购该平台以来，已大幅减少甚至取消了对该平台的内容审核工作，Grok 接受推文训练的事实或许夸大了这种缺乏防护的现象。这种数据质量加上宽松的限制可能会产生风险更大的查询结果。

另外：美国将人工智能安全放在一边，以追求“人工智能主导地位”

这份报告发布之际，人们对中国初创公司DeepSeek AI 及其模型的安全问题似乎无休止，这些模型也很容易被越狱。随着特朗普政府逐步取消美国现有的人工智能监管，激励人工智能公司使其模型尽可能安全的外部保障措施越来越少。