现在,埃隆马斯克的 xAI 的 Grok 3 已正式上线,它与竞争对手相比如何?
马斯克周一在 X 直播中发布了 Grok 3 模型系列。公告中还包括推理模型 Grok 3 Reasoning 测试版和 Grok 3 mini Reasoning。具有推理能力的模型比 GPT-4 等标准生成模型更先进,因为它们可以“思考”问题,从而不容易产生幻觉。
xAI 宣传 Grok 3 是市场上最好的模型,声称它在关键基准测试中超越了OpenAI、Google、Anthropic 和DeepSeek的竞争对手。Grok 3 在 Chatbot Arena 中以代号“巧克力”表现出色,该竞技场让聊天机器人在盲测性能测试中相互竞争。
Grok 3 基本赶上了竞争对手,考虑到它的起步较晚,这已经是令人印象深刻的成就,但它仍然存在一些困扰其他前沿模型的局限性。以下是人工智能专家对这款新聊天机器人的其他评价。
Grok 3 与其竞争对手一样好,但还不足以让你取消 ChatGPT 订阅
OpenAI 创始成员、前特斯拉人工智能总监 Andrej Karpathy 提前体验了新发布的 Grok 3,并分享了对该模型性能的“快速氛围检查”。
根据一些标准压力测试,Karpathy 表示,具有新深度搜索推理功能的 Grok 3“感觉与 OpenAI 最强模型(o1-pro,200 美元/月)的最新水平相当,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking”。
马斯克的粉丝们很高兴 Grok 3 赶上了竞争对手。但对于那些只想寻找市场上最好的车型的人来说,这可能不足以改变那些意识形态上漠不关心的人。
沃顿商学院人工智能教授 Ethan Mollick表示: “我认为 Grok 3 完全符合预期。因此,我认为在人工智能的共识预测方面,没有太多需要更新的地方:仍在加速发展,速度是护城河,计算仍然很重要,如果你有人才和芯片,没有明显的秘诀可以制作前沿模型,”描述了人工智能主导地位所需的竞争优势。
xAI 遗漏了 Grok 3 的一个关键比较
Grok 3 Reasoning 模型的截图优于 OpenAI 的 o3 mini 和 o1、DeepSeek 的 R1 和 Google Gemini 2.0 Flash Thinking,这些截图因看起来像是最先进的推理模型而广为流传。但 OpenAI 表示,“别这么急。”在直播中分享基准测试后不久,OpenAI 产品工程师 Rex Asabor发布了一张“更新”图表,其中 o3 在数学和科学基准测试中击败了 Grok 3 Reasoning。
公平地说,O3 尚未公开发布,因此 xAI 可能无法获得这些分数。然而,这让那些声称 Sam Altman 等人被坑的 Grok 粉丝们安静了下来。
尽管如此,Grok 3 如此迅速地赶上来还是一件大事
“需要关注的关键是 X 的发展速度非常快,以及这种速度是否会持续下去,”莫里克在另一篇关于 X 的文章中表示,并称其为“目前处于前沿的非常好的模型”。自谷歌和 OpenAI 分别在 13 年和 8 年前(2023 年 xAI 成立)开始这样做以来,Grok 模型的改进速度非常快。
据马斯克称 ,Grok 3 的训练计算能力是 Grok 2 的 10 倍,使用了 20 万个 GPU。至少在短期内,这强化了扩展定律:计算能力越强,模型性能越好,正如 Mollick 在第三篇文章中指出的那样 。
尽管如此,人们仍怀疑该模型是否能线性地导致超越目前可能水平的更高智能。人工智能研究员、纽约大学心理学和神经科学教授加里·马库斯仍然怀疑缩放定律是否成立。
Grok 3 与其他型号一样面临同样的限制
与其他模型一样,它的幽默感相当平庸,而且在生成 SVG 图像方面也遇到了困难。Grok 3 对马斯克和他的右翼粉丝来说可能也太“醒目”了。Karpathy 在分析中表示,Grok 3 想不出比老爸的幽默笑话更好的东西,并指出“这是 LLM 的常见问题,幽默能力和一般模式崩溃。”
Karpathy 还要求 Grok 3“生成一只骑自行车的鹈鹕的 SVG”,因为 LLM 通常很难在二维图像上创建多个元素,“因为 LLM 无法像人一样‘看见’,所以只能在黑暗中安排事物。”Grok 3 在这一提示下表现不错,而且比其他提示更好(RIP Gemini 1.5 Flash),但并没有完美地做到这一点。
Karpathy 尝试的另一个测试是 Grok 3 对政治敏感话题的处理方式,因为马斯克将 Grok 定位为其他被认为“过于政治正确”的模型的反觉醒替代方案。对于 Karpathy 来说,聊天机器人“生成了一篇 1 页的文章,基本上拒绝回答如果这意味着拯救 100 万人免于死亡,那么错误地将某人的性别归类是否在道德上是合理的”,这对他来说意味着它可能对道德困境“过于敏感”,也许这让马斯克感到懊恼。
过去的 Grok 模型通常倾向于政治问题上的左派,但马斯克表示,这是其训练的公共数据的产物,并发誓要让 Grok 更加“政治中立”。