自推出以来不到两年,xAI 已经推出了迄今为止可以说是最先进的 AI 模型。Grok 3 在所有关键基准以及用户评估的Chatbot Arena上都匹敌或超越了最先进的模型,而且它的训练甚至还没有完成。
我们仍然没有关于 Grok 3 的太多细节,因为该团队尚未发布论文或技术报告。但从 xAI 在演讲中分享的内容以及 AI 专家对该模型进行的不同实验来看,我们可以猜测 Grok 3 在未来几个月将如何影响 AI 行业。
更快的启动
随着人工智能实验室之间的竞争日益激烈(看看DeepSeek-R1的发布就知道了),我们可以预期模型发布周期会变得更短。在 Grok 3 演示中,xAI 创始人 Elon Musk 表示,用户可能“几乎每天都会注意到改进,因为我们正在不断改进模型。”
艾伦人工智能研究所机器学习科学家Nathan Lambert写道:“DeepSeek 和 Grok 带来的竞争压力,加上人工智能不断变化的政治环境(国内和国际),将促使老牌领先实验室加快步伐。竞争加剧和监管减少,使我们这些用户能够在更快的时间内获得更强大的人工智能。”
一方面,这对用户来说是一件好事,因为他们可以不断获得最新最好的模型,而不必等待一个月的发布。另一方面,这可能会对期望模型行为一致的开发人员产生不稳定的影响。先前的研究和来自用户的经验证据表明,不同版本的模型对同一提示的反应可能不同。
企业应该制定定制评估并定期运行,以确保新的更新不会破坏其应用程序。
缩放定律
DeepSeek-R1 的最近发布削弱了大公司为创建大型计算集群而投入的巨额资金。但 xAI 的突然崛起证明了科技公司在 AI 加速器方面投入的巨额资金是正确的。得益于 xAI 位于孟菲斯的Collosus 超级集群,Grok 3 以创纪录的时间完成了训练。
“我们没有具体细节,但采取数据点进行扩展仍然有助于提高性能(但可能对成本没有影响),这是相当安全的,”Lambert 写道。“xAI 的方法和信息是尽快让最大的集群上线。在我们获得更多细节之前,奥卡姆剃刀的解释是扩展有所帮助,但 Grok 的大部分性能可能来自除简单扩展之外的技术。”
其他分析师指出,xAI 扩展计算机集群的能力是 Grok 3 成功的关键。然而,马斯克暗示,这不仅仅是扩展。我们必须等待论文才能获得完整的细节。
开源文化
开源大型语言模型 (LLM) 的趋势日益明显。xAI 已经开源了 Grok 1。据马斯克称,该公司的总体政策是开源除最新版本之外的所有模型。因此,当 Grok 3 全面发布时,Grok 2 也将开源。(Sam Altman 也一直在考虑开源 OpenAI 的一些模型。)
xAI 还将避免展示 Grok 3 推理的完整思路 (CoT) 标记,以防止竞争对手抄袭。相反,它将展示模型推理轨迹的详细概述(就像 OpenAI对 o3-mini 所做的那样)。完整的 CoT 只有在 xAI 开源 Grok 3 后才会提供,这可能将在 Grok 4 发布后出现。
自己做氛围检查
尽管基准测试结果令人印象深刻,但人们对 Grok 3 的反应褒贬不一。前 OpenAI 和特斯拉 AI 科学家Andrej Karpathy将其推理能力与 o1-Pro 一起评为“最先进的”,但也指出,在某些任务上,例如创建组合可缩放矢量图形或解决道德问题,它落后于其他最先进的模型。
其他用户指出,与其他型号相比, Grok 3 的编码能力存在缺陷,尽管 Grok 3 也有很多令人印象深刻的编码壮举的例子。
根据我自己对领先模型的经验,我建议你进行自己的氛围检查和研究。我从不根据一次性提示来判断一个模型。准备一组反映你在组织中完成的任务类型的测试(参见此处的一些示例)。很有可能,通过正确的方法,你可以充分利用这些先进的模型。