欢迎关注首发公众号:博知社
<hr/>特斯拉 AI 主管 Andrej Karpathy(安德烈·卡帕斯)第一时间体验到了马斯克 XAI 出品的新一代模型 Grok 3 ,他的评价还蛮高的。以下是全文翻译:
我(安德烈·卡帕斯)今天早些时候获得了Grok 3的提前体验权限,因此我可能是最早进行快速体验的少数人之一。
思考能力
✅ 首先,Grok3 的思考模型(“Thinking”按钮)显然达到了接近目前最先进模型的水准,并且在我测试《卡坦岛》相关问题中表现非常出色:
“创建一个网页,展示一个六边形网格,就像《卡坦岛》游戏中的那样。每个六边形网格都编号为1..N,其中N是六边形图块的总数。使其具有通用性,以便可以通过滑块更改‘环’的数量。例如,在《卡坦岛》中,半径为3个六边形。请使用单个HTML页面。”
很少有模型能够可靠地完成这个任务。顶级的 OpenAI 思考模型(例如o1-pro,每月200美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都无法完成。
❌ 它没有解决我的“表情符号谜题”问题,即使我提供了 Rust 代码形式的强提示,它也无法解码隐藏在 Unicode 变体选择器中的消息。DeepSeek-R1 曾经部分解码了这条消息,是目前为止我见过的最接近的进展。
❓ 它解决了我提供的几个井字棋棋盘,并且思考链非常清晰(许多最先进的模型在这些问题上经常失败!)。于是我增加了难度,要求它生成3个“棘手”的井字棋棋盘,但它失败了(生成了毫无意义的棋盘/文本),不过o1 pro 也失败了。
✅ 我上传了GPT-2 论文。我问了一些简单的查找问题,所有问题都回答得很好。然后我要求它估算训练 GPT-2 所需的训练浮点运算次数,且不允许搜索。这个问题很棘手,因为论文中没有明确提到 token 数量,因此需要部分估算和部分计算,考验了查找、知识和数学能力。例如,40GB的文本≈400亿字符≈400亿字节(假设为ASCII)≈100亿token(假设每个token约4字节),在约10个epoch的训练中≈1000亿token的训练量,模型参数为15亿,每个参数/token需要2+4=6次浮点运算,因此总浮点运算次数约为1e21次。Grok 3和4o都未能完成这个任务,但Grok 3在开启思考模式后成功解决了问题,而o1 pro(GPT思考模型)则失败了。
我喜欢这个模型在被要求时会尝试解决黎曼猜想,这一点与 DeepSeek-R1 类似,而许多其他模型(如o1-pro、Claude、Gemini 2.0 Flash Thinking)会立即放弃,并简单地表示这是一个未解决的难题。我最终不得不停止它,因为我觉得有点对不起它,但它表现出了勇气,谁知道呢,也许有一天它会成功……
总体印象是,Grok 3的能力大约与o1-pro相当,并且略高于DeepSeek-R1,当然我们还需要实际的评估来验证。
深度搜索
这是一个非常有趣的功能,似乎结合了OpenAI/Perplexity所称的“深度研究”与思考能力。不过它被称为“深度搜索”(叹气)。它可以高质量地回答各种研究类/查找类问题,例如我尝试的几个问题,这些问题是我从Perplexity的搜索历史中偷来的,结果如下:
- • ✅ “苹果即将发布的新品有什么消息?有传言吗?”
- • ✅ “为什么Palantir的股票最近飙升?”
- • ✅ 《白莲花度假村》第三季在哪里拍摄?是原班人马吗?”
- • ✅ “Bryan Johnson用什么牙膏?”
- • ❌ 《单身即地狱》第四季的演员现在在做什么?”
- • ❌ “Simon Willison提到他在使用什么语音转文字程序?”
❌ 我也发现了一些问题。例如,模型似乎默认不喜欢引用X作为来源,尽管你可以明确要求它这样做。有几次我发现它生成了不存在的URL。还有几次它说了一些我认为不正确的事实,并且没有提供引用(可能这些引用根本不存在)。例如,它告诉我《单身即地狱》第四季的“Kim Jeong-su仍在与Kim Min-seol约会”,这肯定是不对的吧?当我要求它创建一份关于主要LLM实验室及其总资金和员工数量估计的报告时,它列出了12个主要实验室,但没有包括自己(xAI)。
我对深度搜索的总体印象是,它大约与Perplexity的深度研究功能相当(这已经很棒了!),但还没有达到OpenAI最近发布的“深度研究”的水平,后者感觉更彻底和可靠(尽管也不完美,例如它也不正确地排除了xAI作为“主要LLM实验室”之一……)。
随机LLM“陷阱”
我还尝试了一些有趣/随机的LLM“陷阱”问题,这些问题对人类来说很简单,但对LLM来说却很困难,因此我很好奇Grok 3在哪些问题上有所进展。
✅ Grok 3知道“strawberry”中有3个“r”,但它也告诉我“LOLLAPALOOZA”中只有3个“L”。开启思考模式后解决了这个问题。
✅ Grok 3告诉我9.11 > 9.9(其他LLM也经常犯这个错误),但开启思考模式后解决了这个问题。
✅ 即使没有开启思考模式,一些简单的谜题也能解决,例如“Sally(一个女孩)有3个兄弟。每个兄弟有2个姐妹。Sally有多少个姐妹?”例如,GPT4o回答2(错误)。
❌ 遗憾的是,模型的幽默感似乎没有明显改善。这是LLM在幽默能力和模式崩溃方面的常见问题,例如,ChatGPT在1008次生成笑话的请求中,90%都是重复相同的25个笑话。即使提示更详细,远离简单的双关语领域(例如给我一个单口相声),我也不确定它的幽默感是否达到了最先进的水平。例如生成的笑话:“为什么鸡加入乐队?因为它有鼓槌,想成为一只‘鸡’星!”在快速测试中,开启思考模式并没有帮助,可能还让情况变得更糟。
❌ 模型似乎对“复杂的伦理问题”过于敏感,例如生成了一篇长达一页的文章,基本上拒绝回答如果为了拯救100万人而错误地称呼某人的性别是否在伦理上是合理的。
❌ Simon Willison的“生成一只鹈鹕骑自行车的SVG图像”。这个问题考验了LLM在二维网格上布局多个元素的能力,这非常困难,因为LLM无法像人类一样“看到”图像,所以它是在黑暗中用文本排列元素。标记为失败,因为这些鹈鹕虽然不错,但仍然有些问题(见图像和对比)。Claude生成的图像最好,但我怀疑他们在训练中专门针对SVG能力进行了优化。
总结
在约2小时的快速体验中,Grok 3 + 思考模式感觉大约处于OpenAI最强模型(o1-pro,每月200美元)的最先进水平,并且略优于DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到xAI团队大约一年前从零开始,这种达到最先进水平的速度是前所未有的。但也请注意,模型是随机的,每次可能会给出略微不同的答案,而且现在还非常早期,我们需要等待未来几天/几周的更多评估。早期的LM竞技场结果看起来确实非常鼓舞人心。目前,向xAI团队表示热烈祝贺,他们显然拥有巨大的速度和动力,我很高兴将Grok 3加入我的“LLM委员会”,并期待它未来的表现。
|
|