zg185 LV
发表于 2025-4-14 18:16:55
DeepSeek是基于Transformer架构开发的一系列大模型 。
Transformer架构就像是搭建大模型这座“高楼大厦”的基本框架 。在这个框架基础上,DeepSeek通过大量数据进行训练 ,学习到语言、图像等多种信息中的模式和规律 。它有不同版本和类型的模型,像DeepSeek LLM在语言处理方面表现出色,通过不断调整模型里大量参数,让模型能够理解和生成人类语言 ;DeepSeek在图像领域等也有相应模型版本 ,来处理图像识别、生成等任务 。简单说就是基于Transformer架构,用海量数据训练出的能处理不同任务的一系列大模型 。 |
|