埃隆·马斯克的人工智能公司xAI推出了 Grok 聊天机器人的两个新版本——Grok-2 和 Grok-2 Mini,进一步推进了该公司雄心勃勃的人工智能路线图。尽管成立仅一年多,但 xAI 已取得了显著进展,于 2023 年 11 月发布了 Grok-1,随后在今年早些时候 4 月发布了多模式 Grok-1.5V。Grok-2 的推出,以其升级的性能和新功能,标志着该公司快速发展轨迹的又一次重大飞跃。
Grok-2 是旗舰模型,在最近的基准测试中表现出了竞争力。早期版本在 LMSYS 聊天机器人领域以“sus-column-r”进行测试,总体排名第三,在编码、硬提示和数学任务方面表现尤为出色。
xAI 表示,Grok-2 在 LMSYS 排行榜上的整体 Elo 得分优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。在流行的学术基准测试中,该模型的性能与 GPT-4o、Claude 3.5、Llama 3 和 Gemini 1.5 等其他前沿模型基本一致。
Grok-2 mini 是一款体型较小但功能强大的版本,旨在平衡速度和回答质量。这两种型号现在都已在 X 社交平台上向 Grok 用户提供,并计划于本月晚些时候发布企业 API。
新款 Grok 型号的一大新特点是其图像生成功能,由 Black Forest Lab 的Flux 1型号提供支持。用户可以通过帖子或 DM 直接在 X 上生成和分享图像。
然而,这项新功能引发了有关社交媒体内容真实性的重要问题。目前,对于可以生成哪些内容的限制似乎非常有限,用户已经在创建带有政治人物肖像的图像。
此外,X 上没有视觉指示器来表明图像是由 AI 生成的,这可能会导致错误信息或虚假陈述的问题。
此外,似乎不支持在生成的图像中添加数字水印技术和嵌入内容凭证。
为了捍卫 xAI,值得注意的是,Flux 1是一个开源模型,因此无论它是否集成到 Grok 中,用户都可以使用这些功能。该公司可以辩称,它重视言论和表达自由,这些原则一直是埃隆·马斯克对 X 愿景的核心。
然而,这种情况将几个重要问题推到了围绕人工智能生成内容的责任和义务的人工智能伦理辩论的最前沿。如果创建了不适当或非法的内容,谁应该承担责任——个人、模型提供者和/或平台?人工智能工具是否应该被设计为审查某些语言或限制特定类型内容的创建,或者这是否侵犯了个人自由?
这些都是复杂的问题。在这些技术变得更加强大和普及之前,人工智能行业和整个社会都应该谨慎地讨论和解决这些问题。
值得注意的是,xAI 分享了有关 Grok-2 和 Grok-2 mini 的最低限度的技术细节。上下文长度和模型大小等关键信息仍未披露。这使得正确评估和排名这些新模型的功能和潜在局限性变得具有挑战性。
这两种型号现在都可供 X Premium 和 Premium+ 用户使用,并计划于本月晚些时候发布企业 API。由于这是测试版,因此可能会有进一步的改进和更详细的技术信息。
还有一件事,目前还不清楚 Grok-2 是否是一种多模态模型。虽然它的前身 Grok-1.5V 可以处理各种视觉输入,包括文档、图表和照片,但 xAI 并未具体说明 Grok-2 是否保留了这些能力。该公司之前曾吹捧 Grok-1.5V 在其 RealWorldQA 基准测试中的表现,展示了其在多学科推理和理解空间关系方面的实力。但 Grok-2 的公告中显然没有提到这些基准测试。
我们已经联系 Elon Musk 和 xAI 团队,以澄清 Grok-2 的多模式状态。