如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？

发表于 2025-4-22 18:17:37

高强度使用了好几天了，感觉这个模型就像个患有高功能阿斯伯格的青春期小男孩，啥都会点，但无法集中注意力在当前问题上，完全不受约束。
从优点看，生成代码时一次就能运行（能跑通不报错，但不一定满足你的要求）的比率有所增加，如果开启reasoning模式，成本也不贵。其思考结果提升多少很难量化，就我的使用场景来看不一定比普通模式强。我平时使用时通常会根据答案问很多额外的问题，而在reasoning模式则阅读其思考过程就可以省掉很多额外交流，让整个对话的主题保持在主线上，不至于几个回合后它和我都忘了正在讨论啥。
缺点也很明显，就Sonnet来说，其3.5第一版是比较均衡的，新版3.5则明显表现地更偏重代码输出，到了3.7更加明显。随便问个问题代码刷刷就给了一堆，这个还好，可以通过提示词抑制。但最糟糕的是在尝试对现有代码进行重构时的表现。
3.7似乎对特定的编码方式有着强烈的执念，如果你要修改的代码符合某些特征，那么它在处理这些代码的时候就会大概率无视你的重点去修改代码将其修改为它认为最合理的状态，喧宾夺主。这个行为模式在cursor中表现得尤为严重，因为除非你花大力气修改你的cursorrule文件，并在提示词上下足功夫，否则其每次的改动幅度都会远超你的预期，很可能把项目搞乱。
3.7的自我否定也极为激进，当它完成一段代码后，如果你提出质疑，很大概率它不会进行小幅的调整来完善代码，而是更可能完全推翻此前的算法，换一种完全不同的方式来完成任务（以及生成新的bug），你再质疑，它再自我否定，完全是反复横跳的节奏。（几次后切换回最初的方法和错误）。
有时对方法的重构会莫名其妙地修改方法的接口规范，哪怕在提示词中明确要求不允许修改方法的传入参数和返回逻辑。这一点让人无法接受，完全是浪费用户的时间。
这些行为，基本上就是高功能阿斯伯格，倔强得像头驴，聪明且顽固，只要我觉得不要你觉得。我作为用户只觉得过拟合成了常态，使用过程中如果不念经敲木鱼血压根本控制不住。
<hr/>总而言之，目前所有的AI厂家似乎在性能提升上都遇到了某个屏障，毕竟在ChatGPT时代我们第一次见到了人工智障的实现、在GPT4身上第一次看到了某种智能，这两次都可以说是代际差异的提升，而此后的提升似乎都是在各种测评表上评分数据的疯狂上涨，实际的绝对提升好像已经停滞了一样。当然，推理成本的下降非常明显且极其重要，但绝对能力是否已经达到当前AI的上限真不好说。
也许，要到了AI真的能进行强推理后才会有下一次飞跃吧？
<hr/>然而从全网的反馈看，感觉都快吹成神迹了……而且很多是第一天就出了巨长无比的文章。你们都是有提前内部测试资格的吗？
很多人说直接创建app的功能多么地强大，拜托自己想一些测试用例试一试好不好啊，尝试修改一下需求好不好？
不过好在Sonnet本身的编程能力在同侪中还是领先的，尤其是比那个纯粹拉了依托的GPT4.5要好不少，那个是真的又贵又拉。

发表于 2025-4-22 18:32:11

看有些人吹牛逼不用懂代码也能写项目啦，我用 trae + claude 3.7 试了一下，写个网页 TODO List 的项目，项目创建成功但碰到个 bug，未完成+过期项目没法按要求显示成红色，我和 claude 3.7 沟通半天解决不了，总说已有这个状态的显示了，还是得我自己看设计器，发现对过期未完成项目它同时加了 pending 和 expired 两个样式，然后 expired 的显示被 pending 覆盖掉了：

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-1.jpg

还是要我自己看 html 以后明确给它指出它才能发现问题在哪里，虽然我也的确没写一行代码，但没少给它 review：

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-2.jpg

这么个模板级别的项目，碰到个小 bug，光靠同它沟通是没法解决的，还得你自己看代码，前面说好的不需要懂代码呢？

--

发表于 2025-4-22 18:45:00

实测了下，这里分享下结果。
虽然我不喜欢Dario Amodei这个人，讨厌他的傲慢和偏见，但不得不承认，日常工作还是离不开claude的，claude最强的地方在于它的代码能力。
说句实话，你看chatbot arena上，claude 3.5 sonnet仅排在19，似乎不太行的样子

即使你把Category切换到coding，排名也不太靠前。
但经常用Cursor和copilot的朋友都知道，claude 3.5 sonnet实际上比o1-mini, gpt-4o都更加顺手，很难量化这种感觉，但总感觉claude 3.5 sonnet更懂你的需求。
而claude 3.7 sonnet更是锦上添花。
据claude称，claude 3.7 sonnet是结合了快思考和慢思考的混合模型

目前claude 3.7 sonnet也在Cursor上架了。不过，在Cursor上看，这两个模型是分开的

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-3.jpg

也就说，其实用户是可以指定Claude 3.7 Sonnet是使用快思考还是慢思考模式的。
到底Claude 3.7 Sonnet比3.5版本好多少呢？这里就拿我之前做过的一个demo试试吧。
claude 3.5 sonnet中我最喜欢的功能就是「抄一个app」，
虽然我的工作不涉及前端，但克隆app确实我最喜欢用来测试AI的案例之一。
这是我随手截图的Spotify页面

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-4.jpg

在用claude 3.5 Sonnet 时，我试过让claude克隆这个app，这是当时的结果，勉强完成任务吧。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-5.jpg

claude 3.5 Sonnet 结果

而用claude 3.7 sonnet再试，基本上克隆效果更好了，左边的菜单栏，中间的playlist，右边的详情页等等，都复制过来了。当然，专辑封面由于没有具体图片的地址，没法复制过来。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-6.jpg

claude 3.7 Sonnet结果

而且Claude 3.7 Sonnet 价格和Claude 3.5 Sonnet一样，输入每百万token 3美刀，输出每百万token 15美刀。
对AI编程爱好者而言，确实是好消息。

发表于 2025-4-22 18:57:31

国外大模型巨头Anthropic终于推出了可以推理的大模型Claude 3.7 Sonnet，最大的亮点是业界首个混合推理模型。

https://www.zhihu.com/video/1877611020979159040
什么是混合推理模型？简单来说，就是模型即可以以常规方式快速回答，又可以深度思考后给出答案。Claude 3.7 Sonnet集普通大语言模型和推理模型于一体，可以这样说，Claude 3.7 Sonnet相当于DeepSeek V3和DeepSeek R1的混合体。这是一种全新的设计理念，也符合人类的大脑能力，因为我们可以使用同一个大脑进行快速反应和深度思考。（盲猜就是后训练的RL区分了两种模式）
具体来说，Claude 3.7 Sonnet通过&#39;thinking&#39;参数来控制两种模式。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下，它会在回答前进行自我反思，从而在数学、物理、指令遵循、编码以及许多其他任务上表现更优。同时Anthropic发现，在这两种模式下，模型的提示方式基本相似。从API接口可以看到，这里会有一个thinking参数，当enabled后，模型就使用扩展思考模式（如果模型能自助判断是否开启就更完美了，可能避免简单问题的过度思考）：

curl https://api.anthropic.com/v1/messages \
--header &#34;x-api-key: $ANTHROPIC_API_KEY&#34; \
--header &#34;anthropic-version: 2023-06-01&#34; \
--header &#34;content-type: application/json&#34; \
--data \
&#39;{
&#34;model&#34;: &#34;claude-3-7-sonnet-20250219&#34;,
&#34;max_tokens&#34;: 20000,
&#34;thinking&#34;: {
&#34;type&#34;: &#34;enabled&#34;,
&#34;budget_tokens&#34;: 16000
},
&#34;messages&#34;: [
{
&#34;role&#34;: &#34;user&#34;,
&#34;content&#34;: &#34;Are there an infinite number of prime numbers such that n mod 4 == 3?&#34;
}
]
}&#39;

复制代码

而且通过 API 用户还可以控制思考的预算（budget_tokens）：这里可以设置 Claude 思考不超过 N 个 tokens，N 的值最高可达其输出限制的 128K token。
Claude 3.7 Sonnet的推理也符合test-time compute scaling law，这意味着增加思考的tokens可以提升性能，但也更慢。所以通过控制预算能够在速度（和成本）与回答质量之间进行权衡。

注意，Claude 3.7 Sonnet的思考过程也是用户可见的。
另外，Claude 3.7 Sonnet的推理模式开发中，减少了对数学和计算机科学竞赛问题的优化，而是将重点转向了更能反映企业实际使用大语言模型的现实任务，这点和OpenAI的o1有很大的区别。
特别地，Claude 3.7 Sonnet 在 SWE-bench Verified 和TAU-bench 上均超过o3-mini和DeepSeek R1实现了最先进的性能，SWE-bench Verified基准评估了 AI 模型解决现实世界软件问题的能力（这个大幅度超过其他同类模型，真的太强了），而 TAU-bench 是一个测试 AI 代理在复杂现实任务中与用户和工具交互的框架。这说明Claude 3.7 Sonnet更擅长解决现实问题。

Claude 3.7 Sonnet的更多评测结果如下所示，可以看到在开启扩展思考模式下，部分指标已经超过o3-mini以及DeepSeek R1，但是不强于Grok 3。不过在数学竞赛评测集上，效果要比o3-mini和DeepSeek R1差一些，这可能是前面所提到的：Claude 3.7 Sonnet训练过程中刻意减少了对数学竞赛问题的优化。

这里GPQA有两个结果，第二个结果是通过parallel test-time compute scaling来得到的，简单来说就是先同样的提示词采样多个回答，然后用一个打分模型选择最好的。和majority vote的区别是这里用一个学习过的打分模型来选择，而majority vote则选择出现次数最大的那个答案。实验看起来用打分模型比简单的majority vote要好。采样同算力的256个回答，限制最大64K的思考tokens，使用基于打分模型的parallel test-time compute scaling，Claude 3.7 Sonnet在GPQA上得分84.8%。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-7.jpg

而且，Claude可以同时进行多种不同的扩展思维过程，这使得它能够考虑更多解决问题的方法，从而更频繁地得出正确答案。不过，在最新部署的模型中，尚不支持parallel test-time compute scaling功能。
除此之外，Anthropic还推出了首个代理编码工具Claude Code。Claude Code，能够搜索和阅读代码、编辑文件、编写和运行测试、提交代码并将其推送到 GitHub，以及使用命令行工具。在早期测试中，Claude Code 可以一次性完成了通常需要 45 分钟以上手动工作的任务，显著减少了开发时间和开销。感觉这个工具可能是Claude 3.7 Sonnet 最大的亮点。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-8.jpg

https://www.zhihu.com/video/1877611122233860096
补充一点，Claude 3.7 Sonnet的agent能力很强，它能够迭代调用函数、响应环境变化，并持续执行任务，直到完成开放式的任务。在《宝可梦》游戏中，Claude 3.7 Sonnet 提升很大，能成功击败三位宝可梦道馆馆主（游戏中的 Boss）并赢得了他们的徽章。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-9.jpg

Claude在2027年的目标是成为pioneers：在解决具有挑战性的问题上取得了突破性进展，这些问题原本需要团队数年时间才能完成。虽然不是AGI，但是能实现这个目标也可能可怕。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？-10.jpg

发表于 2025-4-22 19:08:45

神经一样的名字，神一样的表现。
(A社和DeepSeek是目前唯二专注于AGI核心智力的。)
Anthropic是十年老血栓，Claude 3.7是人能想出来名字么？我猜他们很后悔，没把Sonnet 3.5 New，叫做3.6，上次就&#34;中风&#34;过一次，现在又来一次。
应该是2025年春季模型的中流砥柱了。他们可以苟到6月份(目测是6月15左右)。
表现方面主要是两张图，一张是代码，一张是Agent (他们要抓超梦！) AIME和Math对A社没有什么意义。

在这张代码性能相关图上，SWE-bench，几乎所有模型都碰到49%的智力空气墙，感觉被神秘力量挡住了。 Claude 3.7突破了这道空气墙，达到62.3 / 70.3%，如果实战与官报相符，那么这算引领了世界。 ——目前我观察到Claude 3.7在UI设计、物理模拟，自动跑角色的行为智力上都达到了很高的成就。

第二张图，是Claude玩Pokémon，我在&#34;想法&#34;里已经介绍过了。这就是一套Agent测试系统。Amanda Askell (苏格兰女战神)说: 抓住超梦，就是达成了AGI！(火箭队行为)
他们这里没有使用Agent这个词，而是用了Model，我不知道他们是如何给Claude设定目标的。如果给Claude设定一个&#34;抓住超梦&#34;的最终目标，让它自由行动，它现在已经拿到了电系徽章，那这已经算ASI了。(当然，现在是不可能的)
可以看出Claude 3.7比3.6有了长足的进步，已经拿到了三个道馆徽章。道馆里通常都是有迷宫的，脑子好的人都能掉坑里。
A社真不是嘴上说说要做Agent，实打实地在推进自主行动性实验。

如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？

本周热门