都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?

接入DeepSeek的腾讯元宝,纳米,秘塔都说是满血版,但是同一个问题,我感觉解答总是不如官网细致合理,上下文联系也差点意思,就像少了点灵动,请问这是什么原因?还是我的错觉?
收藏者
0
被浏览
61

8 个回答

十一月末 LV

发表于 前天 08:52

严格的说,大家deepseek都不是满血版,包括官方API。ds-r1官方开源的版本上下文支持是128k上下文+32k思维链长度+8k输出,而官方API只支持64k上下文+32k最长思维链+8k输出。

至于蒸馏版,我都觉得不能称之为r1,当成一个带思维链强化版Qwen/Llama用就行了,性能差正版太远。说白了,只是吃了一点r1的蒸馏数据,连训练方法都和正版r1不同,正版r1的写作能力,共情能力都是蒸馏版不具备的,几乎只能用在做做数学题这种比较无聊的地方。

梦貘 LV

发表于 前天 09:02

你说的对,满血是个广告词,都是话术,都是话术,都是话术!
跟你说是671B参数量,ok,那推理精度是FP16还是INT8,亦或是INT4呢?token吞吐量如何,输入输出序列长度是不是做了阉割,4096Bits还是1024Bits,这些都不说,就是耍流氓。

ICOM LV

发表于 前天 09:11

嗨,自称671b卖钱,实际人家就是部署的7b 32b的多了去了
买到个70b的都算良心商家了。
资本主义他就是这样的

情感职场成长师 LV

发表于 前天 09:21

国内广告学的魅力时刻。
简单来说,就是 DeepSeek-R1 正确的版本应该是: DeepSeek-R1 - 671b F32版本(无量化、无压缩或精度损失处理)(补,经评论区提醒修正为DeepSeek-R1 - 671b FP8版本),这才是真正所谓的“满血版”。
而题主列举的这些APP,要不然部署的是 671b 量化版本,要么可能部署的是 671b 较低精度版本,要么甚至部署的有可能只是 70b 的压缩版本,这样运行成本更低,而且你就说是不是 DeepSeek 吧。
至于敢于称自己是“满血版”,嗯....

喂喂 LV

发表于 前天 09:33

看到一个很好用的测试案例,可以用来简单测试是不是DeepSeek满血版。
请用我给你的四个数字,通过加、减、乘、除、括号,组成一个运算,使得结果为24。注意:数字需要全部我提供的数字:4 4 6 8。
这是DeepSeek官方提供的回答,简洁明了,一次就答对了。

都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?-1.jpg

知乎直答也可以,也可以证明是满血版。

都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?-2.jpg

而那些几次都答不对的,可以一律标记「蒸馏版」。
DeepSeek只有R1有蒸馏版,官方一共提供了7个,从1.5B到70B都有。

都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?-3.jpg

具体的模型版本和基础模型数据如下:
模型版本基础模型
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8BLlama-3.1-8B
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-Instruct
我们拿最小的模型举例:DeepSeek-R1-Distill-Qwen-1.5B。
它的特性全在三个参数里面,其中:

  • Distill表示它是蒸馏模型
  • Qwen代表了被传输知识的模型,也就是具体某个学生
  • 1.5B说明了模型的大小,这个数字越小,意味着学生的年级也越小

都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?-4.jpg

上表的第二列详细的列出了基础模型,也就是绿色框中的模型名字,主要有两个类别:Qwen和Llama。
其中Qwen是国内公司阿里云做的,Llama是美国公司Meta(前身Facebook)做的,因为他们开源了各种型号的大模型,所以很适合用来搭载蒸馏模型。
但是要记住,对于大模型来说,满血版性能大于非满血版。如果是非满血版,那么参数量越大,通常模型性能越好。
在使用DeepSeek的时候,尽量选官网,这可以保证是满血版;如果官方卡顿,那就选知乎直答这类型大平台的DeepSeek他们为了口碑也都是正儿八经的满血版。
当然除了这几种方式,你可以可以通过第三方API+第三方软件使用自己专用的满血版DeepSeek,具体的部署方法可以参考专栏文章的「API+客户端」部分。
平凡:【2/15 文字】从注册到落地:DeepSeek保姆级全链路操作手册

fredqiqi LV

发表于 前天 16:43

关于您提到的关于DeepSeek接入的问题,可以理解为您在使用接入DeepSeek的腾讯元宝、纳米、秘塔等产品时,感觉其表现与官方版本有所不同。这可能是由于不同产品对DeepSeek的集成和定制化程度不同,导致其性能和用户体验存在差异。同时,不同的产品也可能针对其用户群体有不同的优化策略和使用场景,这也会影响产品的表现。<br><br>建议您尝试与官方客服联系,了解这些产品的具体集成和优化情况,以便更好地了解产品的性能和特点。同时,您可以尝试使用官方版本的产品,对比感受其与其他接入DeepSeek的产品之间的差异。希望这些信息能够帮助您解决问题。

tkv2373 LV

发表于 前天 16:58

关于您提到的关于DeepSeek接入后的使用体验问题,我理解您的困惑。确实,有时候即使技术已经引入并被应用到其他平台或产品中,使用体验可能仍然与官方版本存在差异。这可能是由多种因素导致的。例如技术整合的深度和精准度、用户体验优化、平台间差异化的设计和运行机制等。<br><br>另外,个人的使用习惯和感受也会有所不同。可能您对官方版本的某种独特体验有更深的依赖或期望,所以在对比中感到一些差异。不过关于“灵动”的部分,或许更多依赖于技术背后团队的文化和设计理念,以及在持续优化过程中体现出的不断进化与改进。但总体而言,具体体验确实可能因个体差异而异。如果您觉得在使用中有任何不便或疑惑,建议联系相关平台或技术支持团队获取更具体的解答和帮助。

chenyumai LV

发表于 前天 17:05

关于您提到的DeepSeek接入后使用体验的问题,首先感谢您的反馈。您提到在使用接入DeepSeek的腾讯元宝、纳米、秘塔等产品时,虽然被称为“满血版”,但在某些方面的表现不如官方版本,这可能是由于不同产品对DeepSeek的整合和优化程度不同所致。<br><br>每个产品在接入DeepSeek后,都需要根据自身特点和用户需求进行相应的开发和调整。因此,虽然都是接入DeepSeek,但不同产品在实际表现上可能存在差异。此外,产品的用户体验也受多方面因素影响,包括但不限于产品的设计理念、用户体验优化程度等。<br><br>关于您提到的使用体验差异,建议您可以多尝试使用不同产品,了解各产品的特点和优势,以便更好地选择适合自己需求的产品。同时,也欢迎继续向我们反馈您的使用体验和建议,我们会认真听取并改进。

您需要登录后才可以回帖 登录 | 立即注册