dccb2005 LV
发表于 2025-4-22 18:57:31
国外大模型巨头Anthropic终于推出了可以推理的大模型Claude 3.7 Sonnet,最大的亮点是业界首个混合推理模型。
https://www.zhihu.com/video/1877611020979159040
什么是混合推理模型?简单来说,就是模型即可以以常规方式快速回答,又可以深度思考后给出答案。Claude 3.7 Sonnet集普通大语言模型和推理模型于一体,可以这样说,Claude 3.7 Sonnet相当于DeepSeek V3和DeepSeek R1的混合体。这是一种全新的设计理念,也符合人类的大脑能力,因为我们可以使用同一个大脑进行快速反应和深度思考。(盲猜就是后训练的RL区分了两种模式)
具体来说,Claude 3.7 Sonnet通过'thinking'参数来控制两种模式。在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下,它会在回答前进行自我反思,从而在数学、物理、指令遵循、编码以及许多其他任务上表现更优。同时Anthropic发现,在这两种模式下,模型的提示方式基本相似。从API接口可以看到,这里会有一个thinking参数,当enabled后,模型就使用扩展思考模式(如果模型能自助判断是否开启就更完美了,可能避免简单问题的过度思考):- curl https://api.anthropic.com/v1/messages \
- --header "x-api-key: $ANTHROPIC_API_KEY" \
- --header "anthropic-version: 2023-06-01" \
- --header "content-type: application/json" \
- --data \
- '{
- "model": "claude-3-7-sonnet-20250219",
- "max_tokens": 20000,
- "thinking": {
- "type": "enabled",
- "budget_tokens": 16000
- },
- "messages": [
- {
- "role": "user",
- "content": "Are there an infinite number of prime numbers such that n mod 4 == 3?"
- }
- ]
- }'
复制代码 而且通过 API 用户还可以控制思考的预算(budget_tokens):这里可以设置 Claude 思考不超过 N 个 tokens,N 的值最高可达其输出限制的 128K token。
Claude 3.7 Sonnet的推理也符合test-time compute scaling law,这意味着增加思考的tokens可以提升性能,但也更慢。所以通过控制预算能够在速度(和成本)与回答质量之间进行权衡。
注意,Claude 3.7 Sonnet的思考过程也是用户可见的。
另外,Claude 3.7 Sonnet的推理模式开发中,减少了对数学和计算机科学竞赛问题的优化,而是将重点转向了更能反映企业实际使用大语言模型的现实任务,这点和OpenAI的o1有很大的区别。
特别地,Claude 3.7 Sonnet 在 SWE-bench Verified 和TAU-bench 上均超过o3-mini和DeepSeek R1实现了最先进的性能,SWE-bench Verified基准评估了 AI 模型解决现实世界软件问题的能力(这个大幅度超过其他同类模型,真的太强了),而 TAU-bench 是一个测试 AI 代理在复杂现实任务中与用户和工具交互的框架。这说明Claude 3.7 Sonnet更擅长解决现实问题。
Claude 3.7 Sonnet的更多评测结果如下所示,可以看到在开启扩展思考模式下,部分指标已经超过o3-mini以及DeepSeek R1,但是不强于Grok 3。不过在数学竞赛评测集上,效果要比o3-mini和DeepSeek R1差一些,这可能是前面所提到的:Claude 3.7 Sonnet训练过程中刻意减少了对数学竞赛问题的优化。
这里GPQA有两个结果,第二个结果是通过parallel test-time compute scaling来得到的,简单来说就是先同样的提示词采样多个回答,然后用一个打分模型选择最好的。和majority vote的区别是这里用一个学习过的打分模型来选择,而majority vote则选择出现次数最大的那个答案。实验看起来用打分模型比简单的majority vote要好。采样同算力的256个回答,限制最大64K的思考tokens,使用基于打分模型的parallel test-time compute scaling,Claude 3.7 Sonnet在GPQA上得分84.8%。
而且,Claude可以同时进行多种不同的扩展思维过程,这使得它能够考虑更多解决问题的方法,从而更频繁地得出正确答案。不过,在最新部署的模型中,尚不支持parallel test-time compute scaling功能。
除此之外,Anthropic还推出了首个代理编码工具Claude Code。Claude Code,能够搜索和阅读代码、编辑文件、编写和运行测试、提交代码并将其推送到 GitHub,以及使用命令行工具。在早期测试中,Claude Code 可以一次性完成了通常需要 45 分钟以上手动工作的任务,显著减少了开发时间和开销。感觉这个工具可能是Claude 3.7 Sonnet 最大的亮点。
https://www.zhihu.com/video/1877611122233860096
补充一点,Claude 3.7 Sonnet的agent能力很强,它能够迭代调用函数、响应环境变化,并持续执行任务,直到完成开放式的任务。在《宝可梦》游戏中,Claude 3.7 Sonnet 提升很大,能成功击败三位宝可梦道馆馆主(游戏中的 Boss)并赢得了他们的徽章。
Claude在2027年的目标是成为pioneers:在解决具有挑战性的问题上取得了突破性进展,这些问题原本需要团队数年时间才能完成。虽然不是AGI,但是能实现这个目标也可能可怕。
|
|