x.AI 推出其首个多模式模型 Grok-1.5 Vision

埃隆·马斯克的 x.AI 研究实验室宣布了其首个多模态模型 Grok-1.5 Vision（Grok-1.5V）的预览版。对于这家刚刚成立 9 个月的初创公司来说，这无疑是一次了不起的进步。其大型语言模型的升级版拥有增强的功能，特别是在理解和与物理世界交互方面。

Grok 1.5V 可以处理各种视觉信息，包括文档、图表、图表和照片。它在多学科推理和理解物理世界中的空间关系方面表现出色，在 x.AI 的新 RealWorldQA 基准测试中超越了同类产品。

在一篇博客文章中，这家初创公司展示了 Grok-1.5V 的各种应用。从根据绘画编写工作代码到根据营养标签照片计算卡路里，从儿童绘画中想出睡前故事，解释模因，将表格转换为 CSV 格式，甚至提供有关家庭维护问题（如甲板上的腐烂木材）的建议，该模型展示了非凡的多功能性和实用性。

x.AI 在宣布预览版时发表的博客文章中表示：“提升我们的多模态理解和生成能力是构建能够理解宇宙的有益 AGI 的重要步骤。”该研究实验室对向社区发布 RealWorldQA 表示兴奋，并计划随着多模态模型的改进而对其进行扩展。

RealWorldQA 的推出彰显了 x.AI 致力于推进 AI 对物理世界的理解，这是开发有用的现实世界 AI 助手的关键一步。基准测试 (下载链接) 包含 760 多张带有问答对的图像。虽然基准测试中的许多示例对于人类来说似乎相对容易，但它们通常对前沿模型构成挑战，凸显了 Grok-1.5V 成就的重要性。

本周早些时候，Meta 还发布了OpenEQA基准测试，旨在评估 AI 模型对物理空间的理解。该基准测试包括 1,600 多个有关现实世界环境的问题，测试模型识别物体、空间推理和应用常识知识的能力。Grok-1.5V 在这个基准测试中的表现将会很有趣，尤其是考虑到它所宣称的理解物理世界的能力。

x.AI 强调提高多模态理解和生成能力以构建有益的 AGI 的重要性。他们计划在未来几个月内对包括图像、音频和视频在内的各种模态做出重大改进。该公司表示，Grok-1.5V 将很快向早期测试人员和现有 Grok 用户推出。