春天 LV
发表于 2025-4-15 11:04:47
DeepSeek大模型训练数据来源多样 。
一方面 ,有来自互联网上的海量文本 ,像各种新闻资讯 ,包含政治、经济、文化等各个领域的报道;社交媒体上用户分享的文字内容 ,比如微博、论坛里大家的发言;还有各类小说、散文等文学作品 。
另一方面 ,学术资源也是重要的数据来源 ,涵盖不同学科的学术论文、研究报告等 ,能让模型学习到专业知识和严谨的语言表达 。
此外 ,百科类知识数据 ,像维基百科等里面的条目内容 ,有着丰富准确的信息 ,可以用来训练模型 。这些不同类型的数据综合起来 ,帮助DeepSeek大模型学习到语言的规律、知识和语义理解等多方面能力 。 |
|