伊隆·马斯克的最新 AI 聊天机器人在一个关键领域超越了 ChatGPT

埃隆·马斯克的 xAI 初创公司向公众开放Grok 背后的 AI 模型后近两周，其 AI 聊天机器人即将得到升级。

该公司周四发布了Grok-1.5，并声称其最新模型可以理解更长的文档、处理更复杂的提示并执行更高级的推理。

虽然 Grok-1.5 似乎比原来的 1.0 有了进步，在编码和数学技能方面有所改进，但其公告帖显示，它在一些基准测试中仍然落后于谷歌的 Gemini Pro 1.5 AI、OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 Opus，但在一项关键的 HumanEval 测试中优于 OpenAI。

Grok-1.5 在HumanEval基准测试中的得分高于 GPT-4 ，该基准测试包含 164 个未包含在 AI 模型训练数据中的具有挑战性的编程问题。GPT-4 的得分为 67%，Gemini Pro 1.5 的得分为 71.9%，而 Grok-1.5 的得分为 74.1%。

Grok-1.5 在MMLU测试中的得分为 81.3% ，涵盖了从初级到高级的 57 个科目的知识，表现接近 Google Gemini 的得分（83.7%）。

在MATH测试中，它的得分为 50.6%，接近 GPT-4 的 52.9% ，MATH 测试是一项涵盖小学到高中数学竞赛问题的基准。

马斯克在周五的社交媒体帖子中表示，Grok 1.5 将于下周在 Twitter X 上推出。

X 的拥有者对下一代 Grok 寄予厚望，他写道，Grok-1.5 之后的下一步将在“所有指标”上超越目前可用的 AI。他在帖子中写道，Grok 2“目前正在训练中”。

Grok AI 目前仅适用于每月支付 16 美元或更高金额的 X Premium+ 订阅的用户。

本月初，马斯克起诉了xAI 的竞争对手 OpenAI，并请求法院判决迫使 OpenAI 公开其 AI 背后的研究和技术。