推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp7.com
Posted in

Grok 获得了令人印象深刻的升级 – 并且显然未经检查的 AI 图像生成

随着更先进的编码、数学和写作性能,图像生成也出现在平台上(无论好坏)。

埃隆·马斯克 (Elon Musk) 是 OpenAI 2015 年成立时的投资者,但此后他不仅断绝了与该公司的关系,还批评了该公司的政治正确性安全性。因此,马斯克推出了自己的人工智能聊天机器人Grok,该机器人刚刚进行了相当大的升级。 

周二,马斯克创办的人工智能公司 xAI宣布发布 Grok-2 的早期预览版,Grok-2 是其前沿大型语言模型 (LLM),具有高级聊天、编码和推理功能。此次发布还包括 Grok-2 mini,顾名思义,它是 Grok-2 的轻量级版本。 

在此版本发布之前,Grok-2 的早期版本已在大型模型系统组织 (LMSYS) 聊天机器人竞技场中以匿名名称“sus-column-r”进行了测试,这是许多 AI 公司在推出新模型之前所采用的做法。 

在这个众包平台上,用户可以通过与两个模型并排聊天并比较他们的回答来评估 LLM,而无需知道模型的名称,因此结果真正显示了它们的能力。当与 OpenAI 的GPT-4oGoogle 的 Gemini 1.5 Pro等行业领先模型相比时,Grok-2 不负众望,在“总体”类别中排名第三,与 GPT-4o 并列,如下所示。 

如果您像我一样访问了Chatbot Arena 排行榜并惊讶地发现结果并不相同,那么 LMSYS 透露它会在 Twitter (X) 上发布早期结果,并附有“Grok 2 的官方更新即将推出..!”

Chatbot Arena 的其他一些值得注意的结果包括 Grok-2 在数学和编码类别中的熟练程度(在这两个类别中均排名第二)和 Hard Prompts(排名第四)。如果您想在 Arena 中测试它,请访问网站,单击 Arena 并排,然后输入示例提示。 

该公司还评估了 Grok-2 在流行的 LLM 性能基准测试中的表现,包括大规模多任务语言理解 (MMLU) 和 MATH 基准测试。结果优于其前身 Grok 1.5,并且可与 GPT-4o、Claude 3 Opus、Llama 3 等行业领先模型相媲美。  

除了先进的文本性能之外,Grok 2 还允许用户通过与 Black Forest Labs 的 FLUX.1 图像生成模型合作来生成高质量的图像。

尽管市场上的 许多图像生成器都严格限制创建涉及名人和政客等公众人物的图像,但 Grok-2 却没有,因为许多 beta 测试人员已经在该平台上疯狂生成了政客在挑衅性场景中的图像。下面,我列出了其中一种不那么挑衅的生成方式。

呈现的图像质量高且逼真,但平台上似乎没有任何披露表明图像是如何生成的,这是许多社交媒体平台为确保用户安全而采取的另一种方法。 

Grok-2 和 Grok-2 mini 正在面向 X 至 X Premium 和 Premium+ 用户推出测试版。这些高级 X 计划的月费分别为 8 美元和 16 美元,并包含其他福利,例如蓝色勾号、有限或无广告、回复优先级、身份验证等。这两种型号将于本月晚些时候通过新的企业 API 平台向开发人员发布。