埃隆·马斯克的 X.ai 宣布推出其 AI 模型 Grok-1.5 的最新版本,该模型拥有更强大的推理能力,上下文长度高达 128,000 个词符。新模型将于未来几天在 X 平台上推出,有望在编码、数学相关任务和长上下文理解方面有所改进。
Grok-1.5 是 Grok-1 的后继者,X.ai 两周前刚刚发布了 Grok-1 的模型权重。新模型以前代模型为基础,在推理和解决问题的能力上有了显著提升。
在测试中,Grok-1.5 在 MATH 基准测试中取得了 50.6% 的成绩,在 GSM8K 基准测试中取得了 90% 的成绩,证明了其能够熟练处理从小学到高中的各种竞赛数学问题。此外,该模型在 HumanEval 基准测试中取得了 74.1% 的成绩,展示了其代码生成和解决问题的能力。
Grok-1.5 的一大亮点是能够在其上下文窗口内处理多达 128K 个 token 的长上下文。这意味着内存容量的显著提升,使模型能够利用更长文档中的信息并处理更复杂的提示,同时保持其指令跟踪能力。在 Needle In A Haystack (NIAH) 评估中,Grok-1.5 展示了对多达 128K 个 token 的上下文中嵌入文本的强大检索能力,实现了完美的检索结果。
该训练堆栈基于基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架构建,使 X.ai 团队能够以最小的努力对想法进行原型设计并大规模训练新架构。自定义训练编排器可确保训练作业的最大可靠性和正常运行时间,并自动检测有问题的节点并将其从训练作业中剔除。检查点、数据加载和训练作业重启也经过了优化,以最大限度地减少发生故障时的停机时间。
Grok-1.5 很快将向早期测试人员开放,X.ai 期待收到反馈以帮助改进模型。随着公司逐步向更广泛的受众推出 Grok-1.5,未来几天将推出几项新功能。