我觉得DeepSeek带来的贡献有三层:
第一层,也是最直观的一层,就是给了中文互联网用户一次ChatGPT时刻,让所有没有体验过ChatGPT级别智力的用户一次精神上的极大冲击。
第二层,这层稍微隐晦一些,其实这一次R1完全暴露其思维链CoT的操作,让一些具备思考能力但欠缺高人指点的人,像海绵般的疯狂从中吸收养分快速成长。
第三层,是对于整个AI届的第二次冲击,第一次是ChatGPT带来的力大飞砖的震撼,第二次,也就是这一次DeepSeek带来的性能以及开源养分,让整个AI届在OpenAI大手的覆盖下重新焕发了动力。
第一层贡献
可以看到,前两层都是针对于个体的,再细化点,就是针对普通中文互联网用户的,ChatGPT出来的两年内,中国涌现了非常多的AI大模型,Qwen,文心一言,Kimi,豆包,Yi等等,不下几十个。有大厂做的,也有年轻的创业公司,发的产品非常多。
但是,用惯了ChatGPT后,你会发现这些大模型好用是好用,但就是永远差那么一点儿,非常不得劲,但你也不知道是什么。
DeepSeek的出现补齐了这点儿东西,就是它对于中文的理解远超其他模型,你可以看下知乎用户分享的和DS的对话。
DS对于中文的排列组合已经到了随心所欲的水平。
很难想象这种文字功底是怎么训练出来的。
这种极高的中文操纵水平,ChatGPT做不到,其他的大模型也做不到,所以我说这是第一层冲击,全体中文互联网用户的集体冲击。
除了DS,其他的所有中文回答都是“正确”这个层次,远远到不了随心所欲这个级别。
第二层贡献
第二个层次主要归功于DeepSeek R1这个模型,也就是可以媲美OpenAI o1满血版的推理模型,你如果仔细观察过DeepSeek R1的话,会发现输出其实包括了两部分内容,其中灰色部分是R1的思考过程,最下面的黑色部分是结果。
比如过年这几天由于DeepSeek官网被挤爆而爆火的轨迹流动,就提供了R1的API服务,大致效果跟官网差不多,特别是最关键的思考过程。
但如果你能掌握一点儿代码知识的话,其实也很简单,核心的调用代码就这点儿。你会发现DeepSeek是真的可以作为你的左膀右臂。
这也是我认为DeepSeek这类型AI突破带来的非常重要的贡献,那就是让大家真正的见识到了AI的潜力,AI+其它行业,可能不只是加入新鲜元素,而是彻底的行业变革。
而如果想要参与到这股隐隐的变革中,最重要的就是了解AI大模型的底层技术原理,知学堂提供的这门免费公开课就是做的这件事,底层的原理决定你对于AI大模型上下限的认知以及从它可能会衍生出来的业务以及应用,非常推荐大家去试听一下。
调用API的代码很简单,只需要替换第三行的API密钥即可。- import requests
- # 配置API密钥和端点
- api_key = "" # 替换成你的API密钥
- url = "https://api.siliconflow.com/v1/chat/completions"
- headers = {
- "Authorization": f"Bearer {api_key}",
- "Content-Type": "application/json"
- }
- # 构建思维链请求
- data = {
- "model": "deepseek-ai/DeepSeek-R1",
- "messages": [
- {
- "role": "user",
- "content": "选择大学专业时,发现所有专业都存在大量劝退,如何在其中筛选出哪些是有用的,哪些是牢骚?"
- }
- ],
- "temperature": 0.5,
- "max_tokens": 1000
- }
- # 发送请求
- response = requests.post(url, json=data, headers=headers)
- # 处理响应
- if response.status_code == 200:
- result = response.json()
- print("思维链推理结果:")
- print(result['choices'][0]['message']['content'])
- else:
- print("请求失败,状态码:", response.status_code)
- print(response.text)
复制代码 你发现没,回答和结果就是单纯的爽文,其实思考过程才是最有价值的地方,可以说是买椟还珠了。
这波DeepSeek的爆火+开源属性,可以说是让DeepSeek R1无处不在了,几乎所有的大的云计算平台都上线了DeepSeek的API以及在线体验。
大模型基本上是一法通万法,没有一个大模型是平地而起的,大多都是基于已有的计算机算法和基础的原理,建议大家要搞懂这部分内容。
很多时候你会发现R1的思考过程远远多于结果,这跟现实其实是很匹配的,那就是脑袋里想了半天,最后说出来的话只有几个字或者几句话。
但是面对同样的问题,一个有阅历有见识的人,和一个乳臭未干的人,这两个人的思考过程会天壤之别。
逻辑思维高手的思考过程,会涵盖平时生活中很难学到的技巧:系统化地分析问题、拆解复杂任务,并逐步推导出答案。
打一个简单的比方,如果你碰到一个复杂问题,是不是不知道该如何下手,R1会像经验丰富的专家那样:
- 先理清头绪:把大问题拆成小模块,像拼图一样重新排列
- 多角度验证:主动给自己挑刺,思考“如果换个条件会怎样”
- 动态调整:找到漏洞就修补,结论越来越扎实
比如你是一个互联网运营,老板给了你这么一个任务:假如你现在就是滴滴出行的活动运营,老板让你在2018的七夕节做一次以传播为目的的活动,希望曝光达到10W人次,活动预算2万元,要求简单可行,能在14天后,也就是七夕节当天上线。 请为本次活动出一个活动策划方案。 我把这个问题交给并不会“思考”的ChatGPT 4o模型,它给出的是这样一份回答,可以看到,非常的呆板,自己并不能从中收获到具体的知识,也就是思考过程是隐身的,这就是无效输出。
我要是老板,我就会问让你解释下这个方案,为什么这么安排,有什么依据?
这就是知其然而不知其所以然,对于绝大多数的事情,光知道答案没用,因为题型一变不会的人多了去了。
但如果你启动DeepSeek R1模型的话,你会收获这么一份超级详细的思考方法,红色下划线部分就是R1对于问题的理解和拆解过程,你会发现这个思考方式非常的有条理,且非常容易内化成自己的知识。
绿色部分更是绝,它会对自己提出的方案进行评估和反思,如果不合适会在思考阶段直接否掉。
其实这就暗合了“头脑风暴brainstorming”的过程,大胆的提出想法然后谨慎的毙掉不靠谱的。
更绝的是,你其实可以通过分析R1的思考过程来进一步的提升逻辑能力。
有点儿套娃是不是?
其实操作很简单,就是把R1的思考过程扔给R1,Prompt:分析这个思考过程,将主要的思考路线以及背后的原理拆解出来
然后你就得到了一份思考方式的拆解,就这个原理拆解和应用,是不是老板为什么也没得事了?
这就是R1的「显性思维过程」带来的巨大好处。
看多了你就会发现,其实结果也没那么重要,它只不过是针对特定问题的特定解,而思考过程不一样,它是真的可以从整体上提升你大脑神经元反应速度和广度的神奇玩意。
这也是我成年后除了深度阅读之外提升思维能力的惊喜发现。更重要的是,这基本上是博士级别的的思考过程。对于包括我的大多数人来说,博士级别的思考过程是一个非常难得的学习机会,尤其是在现实生活中,这种深度的思维训练并不常见。通过观察模型的思考步骤,你可以学到如何从多个角度看待问题、如何验证假设、以及如何优化解决方案。 最后,如果没找到R1的开关,看下面这个图,你得激活深度思考(R1)才行。
第三层贡献
它的出现最慌的就是OpenAI,R1爆火后OpenAI赶紧免费让用户使用o3-mini,甚至在周日还发布了Deep Research 功能。
要知道,老外一般周六日是不上班的,更别说搞发布了。
并且o3-mini这个功能绝对在以前不可能开放给免费用户。
DeepSeek R1最牛的地方就在于不仅思考过程全开放,且开源,直接将OpenAI的最大护城河给硬生生的撞开了。
更是让所有AI相关的产业进行了大反思。
硬件厂反思自己的产能有没有可能笑话不了,AI厂在反思自己为什么没有想到这一点,还要不要继续拾OpenAI牙慧,小厂更是看到了希望,原来不用那么多的资源也可以做AI,甚至可以实现像DeepSeek这样的神话。
对于DeepSeek这种划时代东西的考量,最终还是要落脚到具体的人身上,如果能让自己得到前两层的贡献,那就已经是最大的收获了。
特别是从来没接受过高人指导的迷途人,更应该和DS多交流,答案是其次的,更重要的是它的思考方式。 |
|