三某人 LV
发表于 2025-4-7 19:33:55
DeepSeek蒸馏模型是一种基于DeepSeek基础模型,利用知识蒸馏技术得到的模型。
先来说说什么是知识蒸馏。这就好比有一个知识非常渊博的“老师”(也就是基础的大模型),它知道很多东西,但是它太庞大、太复杂了,运行起来比较耗费资源和时间。于是,我们就弄出一个相对小一些、简单一些的“学生”模型。然后让“老师”把自己的知识传授给“学生”,这个传授知识的过程就是知识蒸馏。“学生”学到了“老师”的大部分知识,而且因为它本身规模小,运行起来就更高效、更快速,也更省资源。
DeepSeek蒸馏模型就是这么来的。DeepSeek原本的大模型就像是那个知识渊博的“老师”,通过知识蒸馏技术,把它的知识传授给一个小一点的模型,这个小模型就是DeepSeek蒸馏模型。它能保留DeepSeek基础模型的大部分能力,还能在计算资源有限的设备上更轻松地运行,比如一些移动设备或者普通的服务器,这样就可以让更多的人使用到类似DeepSeek的能力,做各种任务,像文本生成、问答、对话等等。 |
|