mmyjnnn LV
发表于 2025-4-12 09:52:49
DeepSeek 用的是基于Transformer架构开发的模型 。Transformer架构就像是一个聪明的“信息整理员” ,它能很好地处理序列数据中的长距离依赖关系 ,能让模型在处理文本等数据时,高效地捕捉各个部分之间的关联 。DeepSeek在这个基础上进行研发优化 ,不断提升模型性能 。
GPT 系列用的也是Transformer架构 。GPT 模型在这个架构之上 ,采用了预训练和微调的方式进行训练 。它先在大规模的文本数据上进行无监督的预训练 ,学习语言的通用模式和规律 ,就像一个学生先广泛学习各种知识 ;然后在特定任务上进行微调 ,针对具体任务来调整模型参数 ,让模型能够更好地完成这些特定任务 。 |
|