人不在硅谷,没空看直播,还没体验到,转一个:
【入我隘(AI)门,无论你是降临派、幸存派、拯救派!】
省流:总体水平略超Deepseek-R1,与OAI最好的相当。从中也可以看出,R1是多么牛逼!
【不花钱的,R1仍然是第一!】
今天早些时候,我获得了对Grok 3的早期访问权限,我想我是最早一批能够快速进行测试的人之一。
思考
✅ 首先,Grok 3显然拥有一种接近前沿的思维模型("Think"按钮),并且在我的《卡坦岛 settlers of Catan》问题上表现得非常出色:
"创建一个桌面游戏网页,展示一个六边形网格,像《卡坦岛》游戏中的那样。每个六边形网格从1到N编号,其中N是六边形瓦片的总数。做成通用的,这样就可以通过滑块改变‘环’的数量。例如,在卡坦岛中,半径是3个六边形。请制作一个单一的HTML页面。"
很少有模型能够可靠地解决这个问题。OpenAI的顶级思维模型(例如o1-pro,每月$200)也能做到,但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude都做不到。
❌ 它没有解决我的“表情符号谜题”问题,我给了一个带有消息的笑脸,消息被隐藏在Unicode变体选择器中,即便我给出了一个强烈的提示,提供了Rust代码来解码它。我看到的最进展来自DeepSeek-R1,它曾部分解码了这个消息。
❓ 它解决了我给它的一些井字棋(tic tac toe)问题,并且推理过程相当干净/清晰(许多前沿模型通常无法正确处理这些!)。于是我提高了难度,要求它生成3个“棘手”的井字棋板,它失败了(生成了无意义的棋盘/文本),但o1 pro也失败了。
✅ 我上传了GPT-2的论文。我问了一些简单的查找问题,都解决得很好。然后我要求它估算训练GPT-2所需的浮点运算次数,而不进行搜索。这很棘手,因为词元数量没有明确说明,所以它必须部分估算、部分计算,涉及到查找、知识和数学的结合。一个例子是40GB的文本 ~= 40B字符 ~= 40B字节(假设ASCII) ~= 10B词元(假设每个词元约4字节),经过约10轮训练 ~= 100B词元的训练过程,参数量为1.5B,且每个参数每个词元需要2+4=6次浮点运算,总共就是100e9 X 1.5e9 X 6 ~= 1e21 FLOPs。Grok 3和4o都没能解决这个任务,但Grok 3在思考模式下能完美解决,而o1 pro(GPT思维模型)则失败了。
我喜欢这个模型能在被要求时尝试解决黎曼猜想,这与DeepSeek-R1类似,但与许多其他模型不同,后者会立刻放弃(如o1-pro、Claude、Gemini 2.0 Flash Thinking),并直接表示这是一个伟大的未解之谜。我最终不得不停止它,因为我有点不忍心,但它表现出勇气,谁知道呢,也许有一天……
总的来说,我的印象是,它大概在o1-pro的能力范围内,领先于DeepSeek-R1,当然,我们还需要实际的真实评估来确认。
深度搜索
这是一个非常不错的功能,似乎结合了类似OpenAI/Perplexity所称的“深度研究”(Deep Research)与思维模型。只不过它叫做“深度搜索”(Deep Search),(唉)。它能够生成针对各种研究性/查找性问题的高质量回答,类似于你在互联网上的文章中可能找到的答案。例如,我尝试了几个问题,它们来自我最近在Perplexity上的搜索记录,结果如下:
- ✅ "即将发布的苹果产品有什么消息吗?"
- ✅ "为什么Palantir的股票最近在上涨?"
- ✅ "《白莲花》第三季在哪里拍摄,是否与第一、二季是同一制作团队?"
- ✅ "Bryan Johnson用什么牙膏?"
- ❌ "《单身战争》第四季演员现在怎么样?"
- ❌ "Simon Willison提到过他用的语音转文字程序是什么?"
❌ 我发现这里有一些尖锐的问题。例如,模型似乎默认不喜欢引用X作为来源,尽管你可以明确要求它这样做。有几次我发现它编造了不存在的URL。有几次它说出了一些我认为是错误的事实,但没有提供出处(可能是因为找不到)。例如,它告诉我“金正秀仍然和金敏瑟约会”,这是《单身战争》第四季的演员,显然完全错误吧?而当我要求它生成一份关于主要LLM实验室及其总资金和员工数量的报告时,它列出了12个主要实验室,但没有列出它自己(xAI)。
我对DeepSearch的印象是,它大约在Perplexity DeepResearch功能的水平(这已经很好了!),但尚未达到OpenAI最近发布的“深度研究”水平,后者依然感觉更全面、更可靠(尽管仍然不完美,例如,当我试图用它时,它也错误地排除了xAI作为“主要LLM实验室”……)。
随机LLM“陷阱”
我还尝试了一些有趣的随机LLM陷阱问题。这些陷阱是对人类来说容易的,但对LLM来说很难的查询,我想知道Grok 3在这些方面的表现如何。
✅ Grok 3知道“草莓”中有3个“r”,但它也告诉我LOLLAPALOOZA中只有3个"L"。开启思考模式能解决这个问题。
✅ Grok 3告诉我9.11 > 9.9(这在其他LLM中也很常见),但开启思考模式后能解决。
✅ 一些简单的谜题,即使没有开启思考模式,也能正确解决,例如:“萨莉(一个女孩)有3个兄弟,每个兄弟有2个姐妹。萨莉有几个姐妹?”GPT-4o给出的答案是2(错误)。
❌ 遗憾的是,模型的幽默感似乎没有明显提升。这是LLM普遍存在的问题,幽默能力和模式崩溃,著名的例子是,向ChatGPT请求笑话时,90%(1,008次输出)都是同样的25个笑话。即使通过更详细的提示要求生成(例如,给我一个脱口秀笑话),我也不确定它是否达到了前沿的幽默水平。举个例子,它生成的笑话是:“为什么鸡加入了乐队?因为它有鼓槌,并且想成为一名‘啄’星!”在快速测试中,思考模式并没有帮助,反而可能让它更差了。
❌ 模型似乎还是对“复杂伦理问题”过于敏感。例如,它生成了一篇一页长的文章,基本上拒绝回答是否可以在某种情况下错误性别某人,以此来拯救100万人。
❌ Simon Willison的“生成一个骑自行车的鹈鹕SVG”。这考验了LLM在2D网格上安排多个元素的能力,这非常困难,因为LLM无法像人类一样“看到”事物,它是在“黑暗中”进行排列的。标记为失败,因为这些鹈鹕做得还不错,但仍有一些问题(见图片和比较)。Claude的做得最好,但我猜它们可能在训练时特别针对SVG能力进行了优化。
总结
通过今天早晨约两小时的快速测试,我认为Grok 3 + 思考模式大致处于OpenAI最强模型(o1-pro,每月$200)附近,稍微超越了DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到该团队大约一年前才开始从零起步,这样的进展速度非常惊人,几乎前所未有。也请记住一些警告——模型是随机的,每次可能会给出略有不同的答案,目前仍处于早期阶段,所以我们还需要等待更多的评估,持续几天或几周的时间。尽管如此,初步的语言模型领域结果看起来非常鼓舞人心。至于xAI团队,祝贺他们,他们显然具备了巨大的速度和动能,我很期待将Grok 3添加到我的“LLM委员会”中,看看它未来的表现。
|
|