GPT4o1的性能如何？

对比4和4o的话

发表于 2025-4-8 11:14:30

大家好，我是运营黑客。
最近，OpenAI 不知是不是被 DeepSeek、Anthropic Google 推出的一个又一个 AI 工具刺激到了。
继前两天，将天花板级多模态生图能力融入到 GPT-4o之后。今天凌晨，又对 GPT-4o 进行了一波全方位的升级。
升级后的 GPT-4o 对指令的理解更精准、代码能力更强，在大模型跑分上甚至全面超越 GPT-4.5。

升级后的 GPT-4o 有哪些不同？

✅ 更善于遵循用户指令，哪怕一个 Prompt 中有多个需求；
✅ 提升了处理复杂技术和编码能力
✅ 提高直觉和创造力
✅ 减少了过多表情符号输出的问题
在 Chatbot Arena 最新的大模型竞技场上，今天刚刚发布的 ChatGPT-4o-latest（2025-03-26）直接冲到第二名。

超越 OpenAI 之前的最强模型 GPT-4.5-Preview（1398 分）。
要知道，新版的 GPT-4o 仍然是一个对话类的通用大模型，而非拥有更强思维链的推理模型。
✅ 与 1 月份的 GPT-4o 版本相比，进步显著（提升 30 分）；
✅ 在编码、复杂问题处理中，并列第一；
✅ 并且，它的 API 价格仅为 GPT-4.5 的 1/10。

怎么才能用上最新版 GPT-4o？

目前，可以确定的渠道是付费的 ChatGPT 的 Plus、Pro 和 Team 用户。
至于 OpenAI 曾经许诺的免费用户体验机会，因为最近的绘图功能太火，被官方推迟。

不过，貌似有些账号收到了类似灰度体验的资格。

除此之外，在可以免费薅 OpenAI 羊毛的官方 Playground 上，最新模型还没有更新上来，这几天大家可以关注一下。

OK，今天的分享先到这里。
本文首发自同名公众号【运营黑客】

发表于 2025-4-8 11:26:37

同志们好呀，我是五竹。
刚夸完谷歌Gemini的AI绘画模型的“靠嘴P图的能力”：谷歌出大招！赶紧用Gemini给我女神焕了个肤，它是真敢换~，GPT4o就赶超了！
是的，GPT4o全面升级了它的AI绘画能力。怎么夸它呢？就这么说吧，Gemini的那套可以直接放弃了，甚至90%的AI绘画平台都要废了。
GPT4o之前就支持输出文字和图片，但图片质量只能说一般，唯一的优势就是它是多模态，对语义和上下问的理解是其它模型无法比拟的。
而这次绘画能力的全面升级，让它不再有短板。
海报设计、封面设计、信息图、真人动漫化、AI写真、AI换衣、以图生图.....你能叫上来的场景或者功能GPT4o这次都给你包圆了！
1.先来个开胃菜，让GPT4o创作一张图片。

创作一张图片，比例4:3，一个20最的中国女孩，坐在沙发上，穿着短牛仔和紧身背心，精致的五官，非常好看

复制代码

说不上惊艳，只能说之前的效果太屎了，所以进步很大。尤其是手指的处理，堪称完美。
2.接着给她来个换装

装换的不错，但五官还是发生了变化，只是看上去神似，算是目前的缺陷。
再来一个更厉害的，随便从小红书找了一个妹子和一件婚纱。电商模特是不是就有了~

3.再来试试“以图生图”的功能。

从人物服装、发型甚至是姿势，对图片的理解非常到位。
4.真人动漫化。到现在拼多多上靠卖这种服务赚小钱的大有人在。

顺手带个墨镜

最让我意外的是连小红书上的这种图文都可以转，包括文字！！以后再做小红书二创就简单多了。
之前为了搞定这种二创，费劲巴拉的搭建了一个coze智能体，效果还不稳定。现在好了，一句话搞定！

5.动漫变真人。

6.曾风靡一时的老照片修复技术，一度被称为最有温度的AI技能。

7.真的是做到了靠嘴P图。一句话清空照片里的所有人物。

8.给自己设计一个宣传海报。

最后，奉上《DeepSeek的入门手册》《DeepSeek20个PDF》+《DeepSeek手册》文件完整版）
最后，奉上《DeepSeek的入门手册》《DeepSeek20个PDF》+《DeepSeek手册》文件完整版）
未来淘汰你的可能不是AI，当一定是掌握了AI的人

发表于 2025-4-8 11:38:12

先纠正一下楼主的问题，GPT-4o是O社在今年5月13日发布的模型，OpenAI o1-preview是O社在今年9月12日发布的模型。从命名上来看，o1应该是有意独立出一个新的模型系列，和GPT系列相对独立的发展。
从楼主发文的时间来看，问的应该是OpenAI o1的性能。不过既然也提到了GPT-4o，那我们两个模型的性能一起来讨论一下吧。
GPT-4o系列模型

OpenAI的官网中GPT-4o的简介如下：

GPT-4o（“o”代表“omni”）是目前最先进的GPT模型。它支持多模态输入，具备与GPT-4 Turbo相同的高智力水平，但效率更高——生成速度是原来的两倍，成本降低了50%。此外，GPT-4o在视觉处理和非英语语言处理方面比其他模型更为出色。

目前可用的GPT-4o API包括5月13号、8月6号、9月3号三个版本，这三个版本在LMSYS竞争场排行榜的排名如下：

图1：LMSYS竞技场总榜（2024/11/12快照）

从图中可以看到，其中05-13和08-06的版本分别位于第5和第12位，而发布于09-03的latest版本高居榜首。
OpenAI o1系列模型

OpenAI的官网中o1的简介如下：

o1系列的大型语言模型通过强化学习进行训练，能够执行复杂的推理任务。o1模型在回答前会先“思考”，通过生成一条内部思维链来理清推理过程，再向用户进行响应。

目前可用的o1系列模型有o1-preview和o1-mini，从图1中展示的LMSYS竞技场排名来看，o1-preview和o1-mini分别排在第2位和第3位。
值得一提的是目前公开发布的o1仍然是一个preview的版本，推理能力并没有完全展示，多模态能力还没有开放，所以o1完全体的能力还是非常值得期待的。

4o-Latest VS o1-preview

从总榜上看我们已经知道chatGPT-4o-Latest和o1-preview分别是AI大模型性能盲测总排行榜的状元和榜眼，从总分上来看差距很小，实力在伯仲之间，而待o1变身为完全体时大有超越4o-Latest的可能。
那么OpenAI发布这两个实力相当的模型版本你争我夺的意义是什么呢？
我们再一起来看看这两个大模型各门功课的考分，从图2中可以看到，除了Multi-Turn（多轮对话）和 Longer Query（长文本查询）这两门之外，其它六门功课的考分o1-preview均高于4o-Latest。

图2：chatGPT-4o-Latest和o1-preview的各单项得分（2024/11/12快照）

由于LMSYS这榜单上的科目本来就更有利于衡量模型理工科方面的能力，光靠这几个指标可能对于大部分用户来说不能很直观地展示出这两个模型的差别。
就我自己的个人使用体会来看，在两个模型都是全能学霸的基础上，o1更像一个数理化大神，4o-Latest更像一个文史哲大师。所以如果接下来各大模型厂商都陆续推出一文一理两大模型也不会让人感觉意外。
4o-Latest 和 o1-preview 的适用场景

在两者性能差距不大的基础上，两者不同的优劣势决定了各种不同的适用场景。
和OpenAI官方介绍的一样，4o系列性能强大且推理速度快+成本低，可以很好的满足各种日常需求。因为其文史哲大师的附加属性，尤其能满足问答助手、文学创作、社会人文话题探讨这些文科相关的高端任务。
例如，一个基于GPT-4o搭建的学习助手可以和准备资格考试的用户进行互动式问答，不仅可以不断提示用户通过自己的思考获得答案，还能通过生动的例子或分步骤指导深入理解复杂概念。如果用户在某些知识点上遇到困难，助手会自动检测知识盲区，并动态调整学习计划，提供更详细的讲解、直观的图示或针对性的练习题。此外，它还能帮用户分析整理繁多的学习材料，总结核心内容，并突出需要重点关注的关键点，从而大大提高学习效率。
而由于大“语言”模型生来就是文科偏强，所以要成为数理化大师需要付出更多的努力。o1系列采用了内部思维链技术，在OpenAI所有模型中，推理生成的结果最精确，推理时花费的时间和资源最多的。所以比较适合用于处理不需要快速响应、却需要准确结果的科学研究、复杂计算、工程研发类的中低端任务，
例如，一个基于o1的辅助编程助手在用户编写一个复杂的多模块系统时，可以帮忙分析整个项目结构，自动生成符合当前代码风格的函数或类，同时尽可能实现与现有代码的无缝集成；当用户调试代码时，它可以快速定位潜在的错误点，分析调试信息并生成修复建议，甚至提供替代实现以提升性能；当用户卡在某段逻辑的实现上时，它可以根据代码上下文生成具体的实现，并能解释其背后的实现原理。
此外，我们也可以期待一下等o1的preview后缀去掉后，是否可以胜任这些领域的高端任务。

在AI进入高速发展期两年后的今天，各行各业都开始诞生出使用AI工具降本增效的需求，各行各业都开始寻找懂AI知识，有AI系统落地经验的人才。作为人类智能的模仿，AI产品有和很多和人类相似的地方，而计算机体系和人脑结构差别很大，要了解和洞悉AI为自己所用并没有那么容易。
刚接触AI领域的小白用户即便是像我这样计算机科班出身的人，要理解这些模型的原理、上手这些模型的应用，以及在利用这些模型的开放接口搭建自己的应用时，都会遇到各种困难和疑惑。
为了更好更快地完成自己的AI产品转型，我选择了知乎知学堂的「AI解决方案专家」课程作为我入门的导师。该课程包含国内外知名大厂AI专家的讲解，由浅入深地阐述国内外大模型的技术原理，并详细讲解了知名商用案例的落地过程，为想进入AI领域的小白量身打造。传送门放在下方：
从我个人的学习体验来说，最大的收获是和我自己摸索着把零碎的知识点编织成相比，这个课程大大节省了我自己找材料打地基的效率。基础快速并有效地巩固了，在上面加盖楼房就又快又安心。在今年年中的时候，我也顺利完成了由金融产品经理至AI产品经理的转型。
另外，听完课后，课程还向完成学习的学员提供免费的学习资料，记得从老师那里领取。

小结

在目前这个通用大模型高速发展的时代，OpenAI率先开启了文理分科制度，并培养出了世界范围内的文理科状元，不知道此举是否会引领整个行业开展文理分科的趋势。无论你是想学AI工具提升工作学习效率的入门用户，还是有志于进一步深入AI模型构建自己的AI产品的进阶用户，理解模型的特点和适用场景都会有助于你做出更合适的选择，掌握这些模型的特性将为你的学习和实践带来意想不到的收益。

发表于 2025-4-8 11:47:48

新出的是OpenAI o1系列，不再属于GPT系列，可能是这两边的发展不太一样，就单看GPT-4o和OpenAI o1系列相比较，只能说是各有千秋，并不是OpenAI o1系列就比GPT-4o强。
在科学、编码、数学和类似领域的复杂问题上，OpenAI o1系列效果可能GPT-4o要好一些，但在浏览网页获取信息以及上传文件和图片等许多常见情况，GPT-4o 的效果还是要好一些。
并且目前发布的OpenAI o1系列只支持文本，暂时不能做到GPT-4o的多模态。
总的来说，在推理能力较强的领域，OpenAI o1系列会比 GPT-4o 更受欢迎，但在以语言为中心的领域，OpenAI o1系列并不比 GPT-4o 更受欢迎。
<hr/>国内已经有平台接入OpenAI o1系列了，大家可以去试试！（新注册的用户可以和客服联系，申请免费试用哦）
科学对话

发表于 2025-4-8 12:00:47

一周就30次，用完了等一周，这间隔就太难受了
<hr/>根据最新消息，openai已将 o1-mini的速率限制提高了7倍，从每周 50条消息提高到每天 50 条消息。o1-preview的服务成本更高，速率限制从每周30 条消息增加到每周 50 条消息。
普号也可以体验o1-mini了！
https://zhuanlan.zhihu.com/p/719901820

GPT4o1的性能如何？

本周热门