解析 Grok 3：可能重新定义行业的 AI 模型

自推出以来不到两年，xAI 已经推出了迄今为止可以说是最先进的 AI 模型。Grok 3 在所有关键基准以及用户评估的Chatbot Arena上都匹敌或超越了最先进的模型，而且它的训练甚至还没有完成。

我们仍然没有关于 Grok 3 的太多细节，因为该团队尚未发布论文或技术报告。但从 xAI 在演讲中分享的内容以及 AI 专家对该模型进行的不同实验来看，我们可以猜测 Grok 3 在未来几个月将如何影响 AI 行业。

更快的启动

随着人工智能实验室之间的竞争日益激烈（看看DeepSeek-R1的发布就知道了），我们可以预期模型发布周期会变得更短。在 Grok 3 演示中，xAI 创始人 Elon Musk 表示，用户可能“几乎每天都会注意到改进，因为我们正在不断改进模型。”

艾伦人工智能研究所机器学习科学家Nathan Lambert写道：“DeepSeek 和 Grok 带来的竞争压力，加上人工智能不断变化的政治环境（国内和国际），将促使老牌领先实验室加快步伐。竞争加剧和监管减少，使我们这些用户能够在更快的时间内获得更强大的人工智能。”

一方面，这对用户来说是一件好事，因为他们可以不断获得最新最好的模型，而不必等待一个月的发布。另一方面，这可能会对期望模型行为一致的开发人员产生不稳定的影响。先前的研究和来自用户的经验证据表明，不同版本的模型对同一提示的反应可能不同。

企业应该制定定制评估并定期运行，以确保新的更新不会破坏其应用程序。

DeepSeek-R1 的最近发布削弱了大公司为创建大型计算集群而投入的巨额资金。但 xAI 的突然崛起证明了科技公司在 AI 加速器方面投入的巨额资金是正确的。得益于 xAI 位于孟菲斯的Collosus 超级集群，Grok 3 以创纪录的时间完成了训练。

“我们没有具体细节，但采取数据点进行扩展仍然有助于提高性能（但可能对成本没有影响），这是相当安全的，”Lambert 写道。“xAI 的方法和信息是尽快让最大的集群上线。在我们获得更多细节之前，奥卡姆剃刀的解释是扩展有所帮助，但 Grok 的大部分性能可能来自除简单扩展之外的技术。”

其他分析师指出，xAI 扩展计算机集群的能力是 Grok 3 成功的关键。然而，马斯克暗示，这不仅仅是扩展。我们必须等待论文才能获得完整的细节。

开源大型语言模型 (LLM) 的趋势日益明显。xAI 已经开源了 Grok 1。据马斯克称，该公司的总体政策是开源除最新版本之外的所有模型。因此，当 Grok 3 全面发布时，Grok 2 也将开源。（Sam Altman 也一直在考虑开源 OpenAI 的一些模型。）

xAI 还将避免展示 Grok 3 推理的完整思路 (CoT) 标记，以防止竞争对手抄袭。相反，它将展示模型推理轨迹的详细概述（就像 OpenAI对 o3-mini 所做的那样）。完整的 CoT 只有在 xAI 开源 Grok 3 后才会提供，这可能将在 Grok 4 发布后出现。

尽管基准测试结果令人印象深刻，但人们对 Grok 3 的反应褒贬不一。前 OpenAI 和特斯拉 AI 科学家Andrej Karpathy将其推理能力与 o1-Pro 一起评为“最先进的”，但也指出，在某些任务上，例如创建组合可缩放矢量图形或解决道德问题，它落后于其他最先进的模型。

其他用户指出，与其他型号相比， Grok 3 的编码能力存在缺陷，尽管 Grok 3 也有很多令人印象深刻的编码壮举的例子。

根据我自己对领先模型的经验，我建议你进行自己的氛围检查和研究。我从不根据一次性提示来判断一个模型。准备一组反映你在组织中完成的任务类型的测试（参见此处的一些示例）。很有可能，通过正确的方法，你可以充分利用这些先进的模型。

通过 VB Daily 每日洞察业务用例

如果您想给老板留下深刻印象，VB Daily 可以满足您的需求。我们为您提供公司在生成式 AI 方面所做工作的内幕消息，从监管变化到实际部署，以便您分享见解，实现投资回报率最大化。