推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp7.com
Posted in

Grok 3:功能、访问、O1 和 R1 比较等

了解 xAI 的最新 AI 模型 Grok 3,并比较它与 OpenAI 的 o1 和 DeepSeek 的 R1 相比如何。

在上周发起收购 OpenAI 的竞标后,埃隆·马斯克通过他的公司 xAI 发布了Grok 3 ,称其为“目前世界上最强大的人工智能”。如果现场演示的基准测试结果成立,那么他可能是对的。

Grok 3 进入了不断发展的推理模型领域,与OpenAI 的 o1和DeepSeek 的 R1展开竞争。与 ChatGPT 等直接生成答案的通用模型不同,推理模型展示了其思维过程,在得出结论之前逐步分解问题。

然而,xAI 似乎将 Grok 3 定位为推理模型和通用 AI。关闭思考模式(稍后会详细介绍)时,它的功能类似于 GPT-4o 或 Claude 3.5 Sonnet——速度快、对话性强,专为一般任务而构建。但激活思考模式会将其转变为推理模型。

如果您没有时间听完 Grok 3 的一小时现场演示,请不要担心 – 我会消除干扰并为您分解要点。

并且,在学习了基础知识之后,您还需要观看我们关于 Grok 3 的视频,以了解它在推理、深度搜索功能和编码辅助方面与其他顶级 AI 模型进行测试时的表现如何:

什么是 Grok 3?

Grok 3 是 xAI 的最新 AI 模型,定位为 OpenAI 的 o1 和 DeepSeek 的 R1 的直接竞争对手。xAI 团队声称它比 Grok 2 强大 10 到 15 倍,并且根据演示中提供的基准,它实际上可能与市场上最好的模型相媲美。

推理模型有何不同?

如果您使用过 ChatGPT、Claude 或 Gemini,那么您就会熟悉大多数 AI 模型的工作方式:您提出一个问题,它们会生成一个答案,就这样。

Grok 3 等推理模型采用了不同的方法。它们不会立即给出答案,而是逐步分解问题,展示中间思路,甚至在给出最终答案之前完善输出。这使得它们在数学、编码和现实世界问题解决等任务中特别有用。

Grok 3 迷你

并非每个任务都需要 Grok 3 的全面推理。Grok 3 mini 针对速度和更低的计算使用率进行了优化,同时仍保留了 Grok 3 的推理能力。

对于想要在使用 API 时优化代币使用支出的开发人员来说,Grok 3 mini 特别有用。

我们还可以切换到 Grok 3 Mini,以便在聊天界面获得更快的响应。根据基准测试,它不会处理太多问题。

Grok 3 思考模式

思考模式是一种可选设置,可激活 Grok 3 的多步骤推理过程。它不会直接跳到答案,而是将问题分解为更小的步骤,评估不同的解决方案,并在输出最终结果之前完善其响应。

此模式对于解决复杂问题、数学证明、编码挑战和基于逻辑的任务特别有用。它模仿人类的结构化思维,非常适合推理质量比速度更重要的情况。

据我所知,xAI 将 Grok 3 定位为推理模型和通用模型。当关闭思考模式时,它的行为更像 GPT-4o 或Claude 3.5 Sonnet — 快速、对话性强且针对一般用途进行了优化。但当激活思考模式时,它会切换到推理模式,逐步分解复杂问题。

从基准测试来看,这种混合方法变得更加清晰。xAI 不仅将 Grok 3 与 OpenAI 的 O1 或 DeepSeek R1 等推理模型进行了比较,还将其与 GPT-4o、DeepSeek-V3 和 Claude 3.5 Sonnet 等通用模型进行了测试。这表明他们希望它在两个类别中都具有竞争力,而不是仅限于一个类别。

Grok 3 大脑模式

大脑模式是 Grok 3 的高性能设置,可分配额外的计算资源来处理艰巨的任务。

启用后,Grok 3 处理查询所需的时间更长,但可提供更高的准确性、更深入的洞察和更详细的响应。此模式特别适用于科学研究、多层 AI 任务和高度复杂的问题解决场景,在这些场景中,标准推理可能不够用。

Grok 3 深度搜索

DeepSearch 是 xAI 的内置研究工具,允许 Grok 3 在生成答案之前浏览网页、验证来源并综合实时信息。

与依赖预训练数据的标准 AI 模型不同,DeepSearch 会收集新鲜信息,因此非常适合新闻、市场趋势、技术研究和事实核查。此模式将 Grok 3 定位为 Gemini 的 Deep Research 和OpenAI 的 Deep Research的竞争对手。

Grok 3 是如何开发的?

Grok 3 建立在重大基础设施升级、新训练技术和大规模计算能力提升的基础上。与在相对有限的硬件上进行训练的前辈不同,xAI 现在已经构建了世界上最大的 AI 训练集群之一来支持 Grok 3 的开发。

Colossus:xAI 的定制超级计算机

训练大规模 AI 模型的最大挑战之一是计算可用性。为了解决这个问题,xAI 构建了自己的超级计算机集群 Colossus(您可以在上图中看到仓库)。

一期仅用122天就建成,部署了10万块H100 GPU,成为全球最大的AI训练集群之一。

在第二阶段,xAI 又在 92 天内将计算能力翻了一番。该基础设施允许持续训练,这意味着随着越来越多的用户与其互动,Grok 3 仍在实时改进。

从 Grok 0 到 Grok 3

Grok 1 于 2023 年 11 月发布,虽然它很有个性,但远不及 GPT-4o 或 Claude 3.5 Sonnet 的水平。几个月后,Grok 2 也发布了,虽然有了很大的改进,但仍然落后于顶级模型。

然而,Grok 3 标志着一次更大的飞跃。该团队声称,Grok 3 比 Grok 2 强大 10-15 倍,这要归功于模型改进和训练计算的大幅增加。

Grok 3 基准

xAI 声称 Grok 3 是迄今为止最强大的 AI 模型之一,其现场演示的基准测试表明它实际上可能与最好的模型相媲美。让我们将结果细分为数学、科学和编码,看看它与 GPT-4o、Claude 3.5 Sonnet、Gemini-2 Pro 和 DeepSeek-V3 以及其他推理模型(如 O1 和 DeepSeek-R1)相比如何。

与通用模型相比的表现

第一组基准测试将 Grok 3 和 Grok 3 Mini 与其他通用模型进行了比较。

Grok 3 在所有类别中都遥遥领先,但数学、科学和编码仅代表通用模型用例的一小部分——人们还依靠它来编写、分析报告、提供客户支持等。

看看 Grok 3 在 MMLU(涵盖 57 个学科的广泛知识)、BBH(复杂推理和抽象问题解决)或 TruthfulQA(回答模糊或有争议问题的准确性)等基准测试中的表现会很有趣,以更全面地了解其实际能力。

针对推理模型的表现

当 Grok 3 的推理能力得到充分利用时(即开启思考模式和大脑模式),模型的性能会显著提升。第二组基准测试将 Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 与其他高级推理模型(包括 O1、DeepSeek-R1 和Gemini-2 Flash Thinking)进行了比较。

Grok 3 的推理能力将其数学成绩提升至 93-96,比其通才模式 (52) 有了巨大的飞跃。

科学和编码分数也显著提高,超越了o1、DeepSeek-R1和Gemini-2 Flash Thinking。

Grok 3 mini Reasoning 在推理任务中的表现与完整版 Grok 3 相当(甚至更好——我不得不承认,那些颜色层的图表有点令人困惑),这意味着即使是较小的变体在复杂问题解决中仍然具有竞争力。

如何访问 Grok 3?

xAI 正在逐步推出 Grok 3,预计未来几个月内将有更广泛的可用性。我们将能够在基于聊天的界面和通过 API 使用 Grok 3。

基于聊天的界面

该模型目前已集成到 X(以前称为 Twitter)中,可供 Premium+ 订阅者使用。用户可以直接在平台内与其聊天,就像以前的 Grok 版本一样。您可以在左侧菜单中找到 Grok 按钮:

除了 X,xAI 还推出了grok.com,这是一个独立的网络界面,用户可以在社交媒体平台之外与模型进行交互。欧盟和英国目前还无法通过该网站访问 Grok。

还有专门的移动应用程序,但仅适用于 iOS。

Grok 3 API

截至本文发表时,Grok 3 尚未通过 API 发布,但可能很快就会推出。请关注模型页面以获取最新更新。

结论

Grok 3 无疑是 xAI 迄今为止最雄心勃勃的版本,但我还在等待看它在自己的演示基准之外的表现如何。目前,它看起来像一个可靠的推理模型,在多步骤问题解决方面可与 OpenAI 和 DeepSeek 相媲美。

这种混合方法(可以在快速对话式回复和思考模式的深度推理之间切换)在理论上是合理的。但我想看看它在数学、编码和科学之外的实际推广效果如何,特别是在写作、总结和现实世界研究等任务中。