Grok 获得了令人印象深刻的升级 - 并且显然未经检查的 AI 图像生成

随着更先进的编码、数学和写作性能，图像生成也出现在平台上（无论好坏）。

埃隆·马斯克 (Elon Musk) 是 OpenAI 2015 年成立时的投资者，但此后他不仅断绝了与该公司的关系，还批评了该公司的政治正确性和安全性。因此，马斯克推出了自己的人工智能聊天机器人Grok，该机器人刚刚进行了相当大的升级。

周二，马斯克创办的人工智能公司 xAI宣布发布 Grok-2 的早期预览版，Grok-2 是其前沿大型语言模型 (LLM)，具有高级聊天、编码和推理功能。此次发布还包括 Grok-2 mini，顾名思义，它是 Grok-2 的轻量级版本。

在此版本发布之前，Grok-2 的早期版本已在大型模型系统组织 (LMSYS) 聊天机器人竞技场中以匿名名称“sus-column-r”进行了测试，这是许多 AI 公司在推出新模型之前所采用的做法。

在这个众包平台上，用户可以通过与两个模型并排聊天并比较他们的回答来评估 LLM，而无需知道模型的名称，因此结果真正显示了它们的能力。当与 OpenAI 的GPT-4o和Google 的 Gemini 1.5 Pro等行业领先模型相比时，Grok-2 不负众望，在“总体”类别中排名第三，与 GPT-4o 并列，如下所示。

如果您像我一样访问了Chatbot Arena 排行榜并惊讶地发现结果并不相同，那么 LMSYS 透露它会在 Twitter (X) 上发布早期结果，并附有“Grok 2 的官方更新即将推出..！”

Chatbot Arena 的其他一些值得注意的结果包括 Grok-2 在数学和编码类别中的熟练程度（在这两个类别中均排名第二）和 Hard Prompts（排名第四）。如果您想在 Arena 中测试它，请访问网站，单击 Arena 并排，然后输入示例提示。

该公司还评估了 Grok-2 在流行的 LLM 性能基准测试中的表现，包括大规模多任务语言理解 (MMLU) 和 MATH 基准测试。结果优于其前身 Grok 1.5，并且可与 GPT-4o、Claude 3 Opus、Llama 3 等行业领先模型相媲美。

除了先进的文本性能之外，Grok 2 还允许用户通过与 Black Forest Labs 的 FLUX.1 图像生成模型合作来生成高质量的图像。

尽管市场上的许多图像生成器都严格限制创建涉及名人和政客等公众人物的图像，但 Grok-2 却没有，因为许多 beta 测试人员已经在该平台上疯狂生成了政客在挑衅性场景中的图像。下面，我列出了其中一种不那么挑衅的生成方式。

呈现的图像质量高且逼真，但平台上似乎没有任何披露表明图像是如何生成的，这是许多社交媒体平台为确保用户安全而采取的另一种方法。

Grok-2 和 Grok-2 mini 正在面向 X 至 X Premium 和 Premium+ 用户推出测试版。这些高级 X 计划的月费分别为 8 美元和 16 美元，并包含其他福利，例如蓝色勾号、有限或无广告、回复优先级、身份验证等。这两种型号将于本月晚些时候通过新的企业 API 平台向开发人员发布。