埃隆·马斯克的 xAI 初创公司向公众开放Grok 背后的 AI 模型后近两周,其 AI 聊天机器人即将得到升级。
该公司周四发布了Grok-1.5,并声称其最新模型可以理解更长的文档、处理更复杂的提示并执行更高级的推理。
虽然 Grok-1.5 似乎比原来的 1.0 有了进步,在编码和数学技能方面有所改进,但其公告帖显示,它在一些基准测试中仍然落后于谷歌的 Gemini Pro 1.5 AI、OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 Opus,但在一项关键的 HumanEval 测试中优于 OpenAI。
Grok-1.5 在HumanEval基准测试中的得分高于 GPT-4 ,该基准测试包含 164 个未包含在 AI 模型训练数据中的具有挑战性的编程问题。GPT-4 的得分为 67%,Gemini Pro 1.5 的得分为 71.9%,而 Grok-1.5 的得分为 74.1%。
Grok-1.5 在MMLU测试中的得分为 81.3% ,涵盖了从初级到高级的 57 个科目的知识,表现接近 Google Gemini 的得分(83.7%)。
在MATH测试中,它的得分为 50.6%,接近 GPT-4 的 52.9% ,MATH 测试是一项涵盖小学到高中数学竞赛问题的基准。
马斯克在周五的社交媒体帖子中表示,Grok 1.5 将于下周在 Twitter X 上推出。
X 的拥有者对下一代 Grok 寄予厚望,他写道,Grok-1.5 之后的下一步将在“所有指标”上超越目前可用的 AI。他在帖子中写道,Grok 2“目前正在训练中”。
Grok AI 目前仅适用于每月支付 16 美元或更高金额的 X Premium+ 订阅的用户。
本月初,马斯克起诉了xAI 的竞争对手 OpenAI,并请求法院判决迫使 OpenAI 公开其 AI 背后的研究和技术。