AI大模型为什么堆CPU和Gpu不用最新的npu?

AI大模型对Cpu和GPU需求这么大,intel推出的NPU是专门用于Ai计算的,现在的大模型为什么不使用npu而要使用堆cpu和gpu的方式?
收藏者
0
被浏览
82

6 个回答

88h8 LV

发表于 2025-3-31 13:11:35

(1) CUDA生态完备,大厂有路径依赖,等你完善NPU黄花菜都凉了
(2) 英伟达加入tensor core之后基本可以看作个大号NPU,但是更灵活。省电这种嘛,目前还没到考虑这一步的时候。

acff00 LV

发表于 2025-3-31 13:22:48

NPU生态相对封闭,通常只有厂商才可以推进更新和迭代(虽然部分厂商已经逐步推出NPU可编程,但是生态还比较小)。
NPU有限的更新迭代速度,比较难跟得上日新月异的大模型算法迭代,或者说NPU具体相对滞后性。
CPU和GPU灵活的开发者可编程生态,可以快速更新迭代,再说现在CPU、GPU也推出很强的算力架构。如端侧ARM SME技术、CUDA Tensorcore等。

以上观点供参考。

轩辕 LV

发表于 2025-3-31 13:33:32

NPU集成至今没多久,且之前CPU集成的NPU太弱,导致软件适配完全没跟上. 目前AMD的XDNA NPU连Linux都还不支持.

木木 LV

发表于 2025-3-31 13:42:26

引言:大语言模型计算基础设施的演进

随着大语言模型(LLM)的快速发展与广泛应用,高性能计算硬件已成为支撑LLM训练与推理的关键基础设施。目前市场上主要有三类处理器用于加速LLM相关任务:GPU(图形处理单元)、NPU(神经处理单元)和LPU(语言处理单元)。本文将深入分析这三类AI芯片的架构特点、技术原理及在LLM应用中的优劣势,并结合市场上的代表性产品进行对比,为读者建立一个全面的LLM基础设施硬件视角,帮助开发者和企业做出更明智的硬件选择。

AI大模型为什么堆CPU和Gpu不用最新的npu?-1.jpg


处理器架构对比

处理器架构与设计理念:三种不同的计算范式

GPU:通用并行计算的中坚力量

GPU最初为图形渲染而设计,后扩展为通用计算加速器。其核心特点是包含数千个小型计算核心(如NVIDIA的CUDA核心),约80%以上为算术逻辑单元(ALU),特别适合高吞吐量的浮点运算和矩阵计算。
GPU的架构主要包含以下关键组件:

  • 流式多处理器(SM):GPU的核心计算单元,以NVIDIA H100为例拥有114个SM,每个SM包含128个FP32 CUDA核心、寄存器、共享内存和缓存
  • 显存(VRAM):采用HBM3高带宽内存,H100配备80GB内存,通过5个HBM3堆栈和10个512位内存控制器实现3.35TB/s的带宽
  • Tensor核心:第四代Tensor核心,每个SM配备4个(H100总共456个),专用于加速AI和科学计算的矩阵运算
GPU的设计理念是通过大规模并行处理提升计算能力,采用SIMD(单指令多数据)架构,能同时对大量数据执行相同操作。这种架构与LLM训练中的矩阵运算高度匹配,使GPU成为目前LLM训练的主流硬件选择。
市场代表产品

  • NVIDIA H100:拥有16896个CUDA核心,80GB HBM3显存,提供1000 TFLOPS的FP8性能,是目前LLM训练的首选硬件
  • AMD MI300X:拥有304个计算单元,192GB HBM3显存,适合大规模LLM训练和推理
  • Intel Gaudi 3:专为AI工作负载优化的GPU,支持BF16和FP8精度,性价比较高
NPU:专为神经网络优化的高效处理器

NPU专为AI和神经网络计算设计,针对矩阵乘法、激活函数等神经网络核心操作进行了硬件级优化。NPU采用"数据驱动并行计算"的方式,模仿生物神经元和突触的工作模式。其架构包括:

  • 神经元处理单元:基本计算单元,由多个权重和激活函数组成,专为神经网络计算优化
  • 突触互联:优化的数据传输通路,减少内存访问延迟,提高数据流效率
  • 片上缓存:采用3D Cube架构,提升数据访问效率,降低功耗
以华为昇腾NPU为例,其达芬奇架构采用3D Cube设计针对矩阵运算做加速,在单位功耗下可实现比传统CPU和GPU数量级的性能提升,特别适合边缘计算场景。
市场代表产品

  • 华为昇腾910:提供256 TFLOPS的AI计算能力,功耗仅310W,能效比领先
  • 谷歌TPU v5p:专为大规模AI训练设计,每个Pod提供9 exaFLOPS算力,适合大型语言模型训练
  • 高通Cloud AI 100:边缘AI推理加速器,每瓦性能是GPU的10倍,适合移动设备部署LLM
LPU:专注语言模型的新兴高性能处理器

LPU采用张量流处理架构(TSP),专注于序列处理和推理加速。以Groq LPU为例,其创新特点包括:

  • 230MB片上SRAM:采用高效内存架构,片上内存带宽高达80TB/s(约为传统GPU HBM带宽的10倍)
  • 确定性执行引擎:采用VLIW架构,可精确预知执行时间和顺序,显著优化序列处理性能
  • 可编程流水线架构:通过高效的片上内存和确定性执行,实现高吞吐量的数据处理
LPU的内存分为L0缓存、L1工作区和L2参数库,通过优化的内存层级和访问模式,实现了极低的延迟和高吞吐量,特别适合LLM的推理任务。
市场代表产品

  • Groq LPU:每秒可生成500个推理令牌,延迟低至毫秒级,是目前LLM推理速度最快的处理器之一
  • Cerebras CS-2:拥有850,000个AI优化核心,2.6万亿晶体管,适合大规模语言模型训练
  • Tenstorrent Grayskull:基于张量处理的AI芯片,支持稀疏计算,能效比高
LLM应用中的性能对比:训练与推理的不同需求

训练能力对比:GPU的主场优势

GPU优势

  • 强大的并行计算能力,能同时处理大量矩阵运算和向量运算,加速模型训练
  • NVIDIA H100提供1000 TFLOPS的FP8性能,适合大规模语言模型训练
  • 高内存带宽(H100达3.35TB/s)满足大规模参数更新需求,减少训练瓶颈
  • 成熟的软件生态(CUDA、cuDNN等)降低开发难度,支持主流深度学习框架
  • 分布式训练支持(如DeepSpeed在1,024个A100上实现万亿参数模型训练)
NPU表现

  • 部分高端NPU(如谷歌TPU)支持训练,但生态不如GPU完善,适用性有限
  • 在特定精度下(如INT8)训练效率高于GPU,但通用性较差
  • 软件栈兼容性问题限制了广泛应用,需要专门的适配工作
LPU劣势

  • 目前主流LPU产品(如Groq)不支持模型训练,主要聚焦于推理优化
  • 架构偏向推理优化,不适合反向传播等训练操作,难以支持大规模模型训练
  • 训练软件生态几乎空白,缺乏成熟的开发工具和框架支持

AI大模型为什么堆CPU和Gpu不用最新的npu?-2.jpg


性能对比

推理性能对比:LPU的突破性优势

GPU表现

  • 中等推理速度(H100每秒约40-60个令牌),适合批量处理
  • 批处理模式下吞吐量高,但单请求延迟较大,实时性不足
  • 功耗高(300-700W),能效比较低,运营成本高
NPU优势

  • 低功耗场景下性能优异(如手机NPU),适合移动设备部署
  • 量化后推理速度提升显著(INT8量化后速度提升22.4倍),适合边缘计算
  • 能效比高(每瓦性能是GPU的3-10倍),运营成本低
LPU突出优势

  • 极高的推理速度(Groq LPU处理Mixtral模型可达每秒500个令牌),远超GPU和NPU
  • 超低延迟(毫秒级响应),适合实时交互和对话场景
  • 内存访问效率高(带宽利用率92%),减少数据传输瓶颈
  • 确定性执行模式避免了GPU的性能波动问题,提供稳定的服务质量
能效比与成本对比:不同场景下的最优选择


AI大模型为什么堆CPU和Gpu不用最新的npu?-3.jpg


alt text

软件生态与开发难度:从成熟到新兴的技术栈

GPU:成熟完善的生态系统与开发工具

NVIDIA GPU拥有业内最成熟的软件生态,主要优势包括:

  • CUDA平台15年以上的发展历史,支持所有主流AI框架(PyTorch、TensorFlow等)
  • 丰富的优化工具:cuDNN(深度学习原语)、TensorRT(推理优化)、NCCL(多卡通信)
  • LLM专用工具:FasterTransformer(推理加速)、TensorRT-LLM(自动优化)、Triton推理服务器
  • 完善的开发文档和活跃的社区支持,降低开发门槛
开发难度:低(大量文档、示例和社区支持,学习资源丰富)
NPU:厂商分割的生态与兼容性挑战

NPU生态相对分散,各厂商有自己的软件栈:华为的CANN(昇腾AI计算架构)、谷歌的JAX/XLA(用于TPU)、高通的SNPE(神经处理引擎SDK)等。这种分割导致开发者需要针对不同NPU重新适配代码,增加了开发和维护成本。
开发难度:中(需要学习厂商特定API,跨平台兼容性差,文档质量参差不齐)
LPU:新兴但快速发展的生态与简化的部署流程

作为新兴技术,LPU的软件生态相对不成熟。以Groq为例,其GroqWare软件栈支持PyTorch和ONNX模型转换,但优化选项和调试工具有限。不过,LPU厂商正在快速改进开发工具,如Groq推出的GroqFlow自动优化框架,简化了模型部署流程。
开发难度:高(工具链不完善,最佳实践缺乏,但部署流程相对简化)
实际应用场景分析:不同处理器的最佳使用场景

大规模LLM训练:GPU集群的不可替代性

最佳选择:GPU集群(如NVIDIA DGX SuperPOD)
实际案例与最佳实践

  • OpenAI使用超过10,000个NVIDIA A100 GPU训练GPT-4,实现了突破性的语言理解能力
  • 微软DeepSpeed在1,024个A100上实现万亿参数模型训练,优化了大规模分布式训练效率
  • Anthropic使用数千个NVIDIA H100训练Claude 3,提高了模型的推理质量和安全性
高并发LLM推理服务:LPU的性能优势

最佳选择:LPU阵列或GPU+LPU混合部署
实际案例与最佳实践

  • Claude AI使用Groq LPU,实现每秒处理数百请求,延迟降低90%,大幅提升用户体验
  • Together AI采用LPU+GPU混合架构,优化成本和性能,根据不同模型特点选择最适合的硬件
  • Anthropic在云端部署中引入LPU,显著提升推理效率,降低运营成本
边缘设备LLM部署:NPU的能效优势

最佳选择:NPU或低功耗GPU
实际案例与最佳实践

  • 高通骁龙8 Gen 3的NPU支持在手机上运行7B参数量化LLM,实现本地AI助手功能
  • 苹果A17 Pro神经引擎在iPhone上本地运行小型LLM,保护用户隐私同时提供AI功能
  • 华为昇腾NPU在IoT设备上实现实时语音助手,低功耗高性能

AI大模型为什么堆CPU和Gpu不用最新的npu?-4.jpg


应用场景

未来发展趋势:AI硬件加速的新方向


  • 异构计算融合与智能调度


  • GPU+NPU+LPU混合部署成为趋势,根据任务特点动态分配最适合的处理器
  • 智能调度系统自动选择最优处理器,优化资源利用和性能表现
  • 统一编程模型简化异构开发,降低开发门槛和维护成本

  • 专用LLM加速器与定制化芯片


  • Microsoft的Maia和Athena芯片针对LLM优化,提供更高的性能和能效
  • Groq下一代TSP架构进一步提升推理速度,降低延迟
  • 新兴厂商的创新设计带来更多选择,促进行业竞争和技术进步

  • 软件栈统一与开发工具优化


  • MLIR等开源编译器促进标准化,提高跨平台兼容性
  • 跨平台优化工具链简化开发流程,降低学习成本
  • 自动化部署和优化方案提高开发效率,加速模型上线

  • 量化与稀疏计算技术突破


  • 8位和4位量化成为标准,大幅降低模型部署资源需求
  • 结构化稀疏性优化提高计算效率,减少内存占用
  • 动态精度调整技术平衡性能和精度,适应不同应用场景
结论:选择合适的硬件加速器是LLM应用成功的关键

GPU、NPU和LPU在支持大语言模型方面各有优劣:GPU凭借强大的通用计算能力和成熟生态系统,仍是LLM训练的首选;NPU在边缘设备和能效敏感场景中表现出色;而新兴的LPU则在推理速度和延迟方面实现了革命性突破。
对于LLM开发者和部署者,理想的策略是根据应用场景选择合适的处理器组合:使用GPU进行模型训练和开发,LPU处理高并发低延迟的在线服务,NPU负责边缘设备的本地推理。随着技术发展和软件生态成熟,这三类处理器的界限可能逐渐模糊,形成更加融合的计算平台,为LLM的进一步发展提供更强大的硬件支持。

动感超人 LV

发表于 2025-3-31 13:53:33

现阶段Intel NPU计算能力很低下

Intel NPU的AI性能最高为48TOPS,Intel Xe 核显大约28TOPS。吃饭的时候,这样的AI计算性能只能坐在小孩那一桌,还得是下首。
而专用的大号NPU计算加速卡,目前卖10万~14万一片(华为)到14万~23万一片(英伟达),一般人无论如何都是买不起的。一般人消费水平能买得起的就是只有APU,GPU显卡。
答主好事整理了下面的AI TOPS算力天梯图,你猜怎么样?从第一名到第47名,全是GPU显卡。你们不用睁大眼数了,第48名出现第一块NPU还是AMD的,Intel NPU出现在第65名!Intel NPU出现在第65名!Intel NPU出现在第65名!NPU 坐小孩那桌去吧!

AI大模型为什么堆CPU和Gpu不用最新的npu?-1.jpg

以下是整合了NVIDIA显卡、Intel和AMD处理器的NPU性能数据,并按性能从高到低降序排列的结果:[1] [2] [3]
<hr/>AI TOPS性能降序排列:

  • GeForce RTX 5080 - 3356.3 TOPS
  • GeForce RTX 5070 Ti - 1802.9 TOPS
  • GeForce RTX 4090 - 1404.9 TOPS
  • GeForce RTX 4090 D - 1321.2 TOPS
  • GeForce RTX 5070 - 1176.7 TOPS
  • GeForce RTX 4080 SUPER - 987 TOPS
  • GeForce RTX 4080 - 820.8 TOPS
  • GeForce RTX 4070 TI SUPER - 779.8 TOPS
  • GeForce RTX 4070 TI - 705.6 TOPS
  • GeForce RTX 4070 SUPER - 641.4 TOPS
  • GeForce RTX 4070 - 567.7 TOPS
  • GeForce RTX 4060 Ti (16 GB) - 466.3 TOPS
  • GeForce RTX 4060 Ti - 353.7 TOPS
  • GeForce RTX 3090 Ti - 353.7 TOPS
  • GeForce RTX 3080 Ti - 284.7 TOPS
  • GeForce RTX 3080 (12 GB) - 272.8 TOPS
  • GeForce RTX 4060 - 245.1 TOPS
  • GeForce RTX 3080 - 241.8 TOPS
  • GeForce RTX 3070 Ti (GA104-400) - 238.1 TOPS
  • Intel Arc B580 - 233 TOPS
  • GeForce RTX 3070 - 174 TOPS
  • GeForce RTX 3070 Ti (GA102-150) - 174 TOPS
  • Nvidia Titan RTX - 162.5 TOPS
  • GeForce RTX 3060 Ti (GDDR6X) - 130.5 TOPS
  • GeForce RTX 3060 Ti (GA103-200) - 129.6 TOPS
  • GeForce RTX 3060 Ti (GA104-200) - 129.6 TOPS
  • GeForce RTX 3060 Ti (GA104-202) - 129.6 TOPS
  • GeForce RTX 2080 Ti (TU102-300A) - 129.6 TOPS
  • GeForce RTX 2080 Ti (TU102-300) - 114.2 TOPS
  • GeForce RTX 3060 (GA106-300) - 114.2 TOPS
  • GeForce RTX 3060 (12 GB) (GA106-302) - 101.9 TOPS
  • GeForce RTX 3060 (8 GB) (GA106-302) - 101.9 TOPS
  • GeForce RTX 3060 (GA104-150) - 101.9 TOPS
  • GeForce RTX 2080 Super - 101.9 TOPS
  • GeForce RTX 2080 (TU104-400A) - 89.5 TOPS
  • GeForce RTX 3050 (GA107-150) - 84.8 TOPS
  • GeForce RTX 2080 (TU104-400) - 84.8 TOPS
  • GeForce RTX 2070 Super - 72.8 TOPS
  • GeForce RTX 3050 (GA106-150) - 72.8 TOPS
  • GeForce RTX 3050 (GA106) - 72.5 TOPS
  • GeForce RTX 2070 (TU106-400A) - 64.7 TOPS
  • GeForce RTX 2070 (TU106-400) - 63 TOPS
  • GeForce RTX 2060 Super - 63 TOPS
  • GeForce RTX 3050 (6 GB) - 57.4 TOPS
  • GeForce RTX 2060 (12 GB) - 57.4 TOPS
  • GeForce RTX 2060 (TU106) - 51.6 TOPS
  • GeForce RTX 2060 (TU104) - 51.6 TOPS
  • AMD Ryzen AI Max+ PRO 395 - 50 TOPS
  • AMD Ryzen AI Max+ 395 - 50 TOPS
  • AMD Ryzen AI Max PRO 390 - 50 TOPS
  • AMD Ryzen AI Max 390 - 50 TOPS
  • AMD Ryzen AI Max PRO 385 - 50 TOPS
  • AMD Ryzen AI Max 385 - 50 TOPS
  • AMD Ryzen AI 9 HX PRO 375 - 55 TOPS
  • AMD Ryzen AI 9 HX PRO 370 - 50 TOPS
  • AMD Ryzen AI 9 HX 375 - 55 TOPS
  • AMD Ryzen AI Max PRO 380 - 50 TOPS
  • AMD Ryzen AI 9 HX 370 - 50 TOPS
  • AMD Ryzen AI 9 365 - 50 TOPS
  • AMD Ryzen AI 7 PRO 360 - 50 TOPS
  • AMD Ryzen AI 7 PRO 350 - 50 TOPS
  • AMD Ryzen AI 7 350 - 50 TOPS
  • AMD Ryzen AI 5 PRO 340 - 50 TOPS
  • AMD Ryzen AI 5 340 - 50 TOPS
  • Intel Core Ultra 9 288V - 48 TOPS
  • Intel Core Ultra 7 266V - 48 TOPS
  • Intel Core Ultra 7 268V - 48 TOPS
  • Intel Core Ultra 7 256V - 47 TOPS
  • Intel Core Ultra 7 258V - 47 TOPS
  • Intel Core Ultra 5 226V - 40 TOPS
  • Intel Core Ultra 5 228V - 40 TOPS
  • Intel Core Ultra 5 236V - 40 TOPS
  • Intel Core Ultra 5 238V - 40 TOPS
  • AMD Ryzen 9 270 - 16 TOPS
  • AMD Ryzen 7 8700G - 16 TOPS
  • AMD Ryzen 7 8840HS - 16 TOPS
  • AMD Ryzen 9 8945HS - 16 TOPS
  • AMD Ryzen 7 260 - 16 TOPS
  • AMD Ryzen 7 250 - 16 TOPS
  • AMD Ryzen 7 8840U - 16 TOPS
  • AMD Ryzen 7 8845HS - 16 TOPS
  • Intel Core Ultra 9 285HX - 13 TOPS
  • Intel Core Ultra 9 285K - 13 TOPS
  • Intel Core Ultra 9 285 - 13 TOPS
  • Intel Core Ultra 7 265 - 13 TOPS
  • AMD Ryzen 7 7840H - 10 TOPS
  • AMD Ryzen 7 7840HS - 10 TOPS
  • Intel Core Ultra 7 265K - 13 TOPS
  • AMD Ryzen 7 7840U - 10 TOPS
  • AMD Ryzen 5 240 - 16 TOPS
  • AMD Ryzen 5 230 - 16 TOPS
  • AMD Ryzen 5 8600G - 16 TOPS
  • AMD Ryzen 5 8640HS - 16 TOPS
  • AMD Ryzen 5 8640U - 16 TOPS
  • AMD Ryzen 5 8645HS - 16 TOPS
  • Intel Core Ultra 5 245K - 13 TOPS
  • Intel Core Ultra 5 245 - 13 TOPS
  • Intel Core Ultra 5 235 - 13 TOPS
  • Intel Core Ultra 5 235T - 13 TOPS
  • Intel Core Ultra 7 265F - 13 TOPS
  • Intel Core Ultra 7 265KF - 13 TOPS
  • Intel Core Ultra 5 225 - 13 TOPS
  • Intel Core Ultra 5 245KF - 13 TOPS
  • Intel Core Ultra 5 225F - 13 TOPS
  • AMD Ryzen 7 8700F - 16 TOPS
<hr/>说明:

  • 纯NPU性能指的是处理器或显卡中专门用于AI计算的神经网络处理单元(NPU)的性能,不包括CPU或GPU的通用计算能力。
  • NVIDIA显卡的TOPS性能基于其Tensor Core的计算能力。
  • Intel和AMD处理器的NPU性能基于其集成NPU或AI加速单元的性能。
  • 相同TOPS性能的型号按字母顺序排列。
Intel NPU出现在第65名!Intel NPU出现在第65名!Intel NPU出现在第65名!NPU 坐小孩那桌去吧!
NPU不带DRAM,无法单独支撑大模型运行

目前的AI大模型从硬件需求来说都是DRAM の 大模型。 NPU天生不带DRAM,依赖系统RAM。
也就是运行大模型必须另配64G以上的DRAM以配合NPU——都加码到这份上了,这为啥不直接用APU/GPU跑呢,都要加钱了,让谁跑不是跑啊?
而且APU和GPU跑AI大模型是开源适配好的,茫茫大把多中国华裔程序猿在做这个活计。

AI大模型为什么堆CPU和Gpu不用最新的npu?-2.jpg

给Intel 高通 博通 NPU写大模型适配,必须是尊贵的印度程序猿,目前还没招到。

AI大模型为什么堆CPU和Gpu不用最新的npu?-3.jpg

夕遥 LV

发表于 2025-3-31 15:20:58

针对您的询问,AI大模型堆CPU和GPU而不是采用NPU的原因,主要因为NPU作为新兴的技术产品,虽然具有高度的专业性和优化,但在通用性和成熟性方面相对CPU和GPU还存在一定差距。CPU和GPU在AI计算领域已经形成了广泛的应用和成熟的生态系统,具备强大的计算能力和广泛的应用适应性。<br><br>随着NPU技术的不断发展和成熟,未来在特定AI任务上可能会有更优异的表现。但目前,堆CPU和GPU的方式在大多数场景下仍然能够满足AI大模型的需求,并得到了广泛的实践和验证。随着技术的进步和市场的演变,未来可能会看到更多结合CPU、GPU和NPU的混合架构,以应对AI计算的各种挑战。

您需要登录后才可以回帖 登录 | 立即注册