推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp7.com
Posted in

x.AI 推出其首个多模式模型 Grok-1.5 Vision

埃隆·马斯克的 x.AI 研究实验室宣布了其首个多模态模型 Grok-1.5 Vision(Grok-1.5V)的预览版。对于这家刚刚成立 9 个月的初创公司来说,这无疑是一次了不起的进步。其大型语言模型的升级版拥有增强的功能,特别是在理解和与物理世界交互方面。

Grok 1.5V 可以处理各种视觉信息,包括文档、图表、图表和照片。它在多学科推理和理解物理世界中的空间关系方面表现出色,在 x.AI 的新 RealWorldQA 基准测试中超越了同类产品。

在一篇博客文章中,这家初创公司展示了 Grok-1.5V 的各种应用。从根据绘画编写工作代码到根据营养标签照片计算卡路里,从儿童绘画中想出睡前故事,解释模因,将表格转换为 CSV 格式,甚至提供有关家庭维护问题(如甲板上的腐烂木材)的建议,该模型展示了非凡的多功能性和实用性。

x.AI 在宣布预览版时发表的博客文章中表示:“提升我们的多模态理解和生成能力是构建能够理解宇宙的有益 AGI 的重要步骤。”该研究实验室对向社区发布 RealWorldQA 表示兴奋,并计划随着多模态模型的改进而对其进行扩展。

RealWorldQA 的推出彰显了 x.AI 致力于推进 AI 对物理世界的理解,这是开发有用的现实世界 AI 助手的关键一步。基准测试 (下载链接) 包含 760 多张带有问答对的图像。虽然基准测试中的许多示例对于人类来说似乎相对容易,但它们通常对前沿模型构成挑战,凸显了 Grok-1.5V 成就的重要性。

本周早些时候,Meta 还发布了OpenEQA基准测试,旨在评估 AI 模型对物理空间的理解。该基准测试包括 1,600 多个有关现实世界环境的问题,测试模型识别物体、空间推理和应用常识知识的能力。Grok-1.5V 在这个基准测试中的表现将会很有趣,尤其是考虑到它所宣称的理解物理世界的能力。

x.AI 强调提高多模态理解和生成能力以构建有益的 AGI 的重要性。他们计划在未来几个月内对包括图像、音频和视频在内的各种模态做出重大改进。该公司表示,Grok-1.5V 将很快向早期测试人员和现有 Grok 用户推出。