推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp7.com
Posted in

X 的 Grok 在我的 AI 编码测试中表现出奇地好

Grok 能理解代码吗?基本上可以。深入了解一下整个故事,找出 Grok 无法完全理解的一个挑战。

当 X 首次推出其聊天机器人时,它是付费的。但 尽管TANSTAAFL  ,X 最近还是 向世界开放了 Grok。所以我决定对它进行编程测试。

我一直对 Grok 很感兴趣,因为它的名字。Grok 是由罗伯特·海因莱因 (Robert Heinlein) 创造的,他是我最喜欢的科幻小说作家之一。我完全相信海因莱因改变了我年轻的大脑。

我的父母严格控制我接触的媒体,根据他们认为健康有益的标准。但他们允许我自由阅读当地图书馆里能找到的任何有限的科幻小说——因为“科学”这个词意味着它必须具有教育意义。

我们不去过多地批判海因莱因,我们只能说,他对社会规范的态度非常开放。他写的故事很有感染力,在叙事中融入了精彩的科学主题,并且经常在书中注入深刻的社会评论。

他还 创造了“grok”这个词 ,这是一个含义广泛的火星词。它首次出现在《异乡异客》中,可以解释为“我理解”,这种理解存在于深层、根本的层面上。因此,这是一个非常适合人工智能聊天机器人的名字。

除了…

当我问 Grok 它使用什么 LLM(大型语言模型)时,它决定告诉我,它受到了《银河系漫游指南》的智慧和叛逆精神的启发。虽然《银河系漫游指南》确实有智慧,也有叛逆精神,但它没有包含“grok”这个词。

接下来,让我们深入研究我的编程测试。

这是一项编码测试,要求 AI 了解 PHP 编程以及如何构建 WordPress 插件。它实际上源于我妻子的真实请求,她需要一个工具来随机化和排序姓名,但要有点变化。

她每个月都会在自己的电子商务网站上运行一个参与设备,随机选择一组名称。问题是,如果她的一些用户提交了多个项目,他们就会获得多个条目。因此,随机器必须管理多个名称,但也要将它们分开,这样它们就不会在结果中并排出现。

最后,代码必须提供一个良好、清晰的用户界面,以便她只需粘贴名称、单击按钮并取回她的列表即可。

我把这个任务交给 Grok,它成功了。界面布局清晰,功能齐全。最重要的是,它完成了代码应该做的事情,成功地随机化并分离了名字。我认为这次测试成功了。

我的第二次测试解决了用户首先向我报告的一个问题。我推出的代码旨在测试用户输入的数字是否为有效的美元和美分货币。我的错误是代码只允许整数,因此您可以捐赠 5 美元,但不能捐赠 5.25 美元。

Grok 成功重写了正则表达式代码。它几乎要成功了,但我不得不认为它失败了,因为它生成的代码不允许像 .5 这样的数字,而这是有效的货币金额。它允许 0.5,但并不是每个用户都会选择在美分值前面加上一个零。

它还使用了一种相当低效的机制来进行双重转换,并且不能正确处理不能转换成数字的字符串。

到目前为止,我们一胜一负。

第三个测试需要了解 WordPress 框架和 API,因为我要求 AI 查找的错误是一个微妙的错误,它是由于对 WordPress API 要求的误解而导致的。

我测试的许多 LLM 都答错了问题(我花了好几个小时调试它)。但 Grok 理解了这个问题,并给了我一个功能正确且有用的答案。

这使得我们取得了两胜一负的成绩,Grok 领先于 之前测试的近一半其他 LLM。让我们看看它在第四次也是最后一次测试中的表现如何。

这是一项艰难的测试,因为它要求人工智能能够了解 Mac 上一款容量相当小的垂直脚本工具 Keyboard Maestro。它还要求人工智能能够同时为三个不同的环境编写代码:Keyboard Maestro、Chrome 和 AppleScript。

目前,只有运行 GPT-4 及以上 LLM 的 Google Gemini 和 ChatGPT 通过了此测试。甚至 ChatGPT 3.5 也失败了。

但是我们有一个新的人工智能可以处理这种级别的编码挑战:Grok。这使得 Grok 赢得了四场比赛中的三场,这使它领先于所有其他不基于 ChatGPT LLM 的人工智能。

总体而言,Grok 表现不俗。如果它只允许使用不带前导零的货币值,那么它就能获得满分。自从它取代 Twitter 以来,我对 X 所做的所有改变并不确定,但 Grok 似乎是一个相当强大的聊天机器人,至少在编程能力方面是如此。