目前主流的 NPU 厂商和产品
随着 AI 和深度学习的快速发展,**NPU(Neural Processing Unit,神经处理单元)**作为专注于神经网络计算的硬件加速器,已经成为重要的技术方向。许多科技公司和芯片厂商都推出了自己的 NPU 产品,涵盖从边缘设备到数据中心的各种应用场景。以下是目前主流的 NPU 厂商及其代表产品。
1. 华为
产品系列:Ascend(昇腾)
- Ascend 310:
- 面向边缘计算场景的 AI 加速器,主要用于推理任务。
- 支持 INT8 和 FP16 的高效计算,功耗低至 8~15W。
- 应用场景:自动驾驶、智能摄像头、物联网等。
- Ascend 910:
- 面向数据中心和高性能 AI 训练的 NPU。
- 支持大规模深度学习模型训练,采用 7nm 工艺,算力高达 256 TFLOPS(FP16)。
- 应用场景:AI 模型训练、云端推理。
特点:
- 强调全栈 AI 解决方案(从芯片到框架,如 MindSpore)。
- Ascend 系列既支持训练又支持推理,覆盖边缘与云端场景。
2. 苹果(Apple)
产品系列:Apple Neural Engine(ANE)
- 集成于苹果自研芯片中:
- A 系列芯片(如 A11、A14、A15):用于 iPhone 和 iPad,内置 ANE,专注于移动端 AI 推理。
- M 系列芯片(如 M1、M2):用于 Mac 和 iPad Pro,支持更复杂的 AI 推理任务。
特点:
- 专为低功耗设备设计,优化了语音识别、图像处理(如人脸识别)、增强现实(AR)等任务。
- 能够高效完成 ON-DEVICE AI 推理,减少对云端的依赖。
3. 高通(Qualcomm)
产品系列:Hexagon AI / Qualcomm AI Engine
- Hexagon DSP/NPU:
- 集成于 Snapdragon(骁龙)芯片中,用于移动设备的 AI 推理。
- 例如,Snapdragon 888 的 AI 引擎支持 26 TOPS 的算力,Snapdragon 8 Gen 2 的 AI 性能进一步提升。
特点:
- 支持多种 AI 框架(如 TensorFlow Lite、ONNX)。
- 优化了拍照算法(如夜景增强)、语音助手、AR/VR 和游戏中的 AI 推理。
4. 谷歌(Google)
产品系列:TPU(Tensor Processing Unit)
-
Edge TPU:
- 面向边缘设备的 NPU,支持 INT8 低精度模型推理。
- 常用于嵌入式系统,功耗仅几瓦。
- 应用场景:智能家居、物联网、边缘推理。
-
Cloud TPU:
- 面向云端的 AI 加速器,支持大规模训练和推理任务。
- 最新版本(如 TPU v4)算力高达每秒 275 TFLOPS(BF16/INT8)。
- 应用场景:深度学习模型训练(如 BERT、GPT)、高性能推理。
特点:
- 深度集成 TensorFlow 和 Google Cloud。
- Edge TPU 专注于低功耗边缘计算,Cloud TPU 是云训练的首选硬件。
5. NVIDIA
产品系列:Jetson / TensorRT
特点:
- Jetson 系列强调边缘 AI 推理,支持 CUDA 和 TensorRT 框架。
- NVIDIA 的 NPU 功能主要嵌套于其 GPU 产品线,适合图像处理和视频分析任务。
6. 谷歌合作项目:Edge AI
Coral AI(基于谷歌 Edge TPU)
- Coral 是 Google 推出的硬件开发平台,内置 Edge TPU。
- 产品包括 Coral USB 加速器、开发板等,支持边缘推理。
- 应用场景:物联网设备、智能家居、嵌入式 AI。
7. 英特尔(Intel)
产品系列:Movidius / Habana
-
Movidius Myriad X:
- 面向边缘设备的 NPU,专注于低功耗 AI 推理。
- 应用场景:智能摄像头、无人机、AR/VR 设备。
-
Habana Gaudi:
- 面向云端的 AI 芯片,支持高性能训练和推理任务。
- 应用场景:深度学习模型训练和推理。
特点:
- Movidius 强调低功耗边缘计算。
- Habana Gaudi 专注于数据中心的 AI 加速,与 NVIDIA GPU 竞争。
8. 亚马逊(Amazon)
产品系列:Inferentia 和 Trainium
- Inferentia:
- 专注于推理任务,集成于 AWS 云服务中。
- 优化深度学习模型的部署和推理,支持 TensorFlow、PyTorch 等框架。
- Trainium:
- 面向训练任务,提供高吞吐量和低成本的训练加速。
- 应用场景:云端 AI 训练和推理。
特点:
- 深度集成 AWS 云服务,适合企业客户。
- Inferentia 专注推理,Trainium 专注训练。
9. 三星(Samsung)
产品系列:Exynos NPU
- 集成于 Exynos 移动处理器中(如 Exynos 2100、2200)。
- 提供高效的 AI 推理能力,支持图像识别、语音助手等任务。
特点:
- 应用于三星手机、智能家居设备。
- 专注于边缘推理和移动端 AI 任务。
10. 国内其他厂商
寒武纪(Cambricon)
- MLU 系列:
- MLU220:面向边缘推理,功耗低,适用于智能摄像头、机器人。
- MLU270/MLU370:面向数据中心的 AI 训练与推理。
比特大陆(Bitmain)
- Sophon BM1684:
- 专注于 AI 推理,应用于安防监控、智能视频分析等。
地平线(Horizon Robotics)
- Journey 系列(如 Journey 5):
- 面向自动驾驶和边缘计算,优化感知任务(如物体检测、车道识别)。
总结:主流厂商及产品对比
厂商
产品系列
特点
应用场景
华为
Ascend 310/910
通用性强,覆盖边缘与云端场景
自动驾驶、智能摄像头、AI 模型训练
苹果
Neural Engine(ANE)
集成于 A/M 芯片,适合移动端 AI 推理
iPhone、iPad、Mac 上的图像处理、语音助手
高通
Hexagon AI Engine
集成于骁龙芯片,专注低功耗移动设备
手机 AI 推理、AR/VR、游戏
谷歌
TPU(Edge TPU、Cloud TPU)
专注于低功耗推理和高性能训练
边缘推理、云端训练(TensorFlow 深度集成)
NVIDIA
Jetson 系列
GPU+NPU 集成,支持 TensorRT 推理优化
边缘设备、机器人、视频分析
英特尔
Movidius / Habana
低功耗边缘推理和数据中心训练
智能摄像头、云推理
亚马逊
Inferentia / Trainium
深度集成 AWS,优化云端训练和推理
云训练、企业 AI 部署
寒武纪
MLU 系列
国内领先 AI 芯片厂商,覆盖边缘和数据中心
边缘推理、视频分析
未来趋势
- 低功耗 NPU 的普及:随着边缘计算和物联网设备需求的增长,专注于低功耗、高效率推理的 NPU 将成为主流。
- 多模态支持:未来 NPU 将进一步优化对多模态任务(如图像+文本)的支持。
- 软硬件协同:NPU 厂商将更加关注与主流 AI 框架(如 TensorFlow、PyTorch)的深度集成。
- 国产化发展:国内厂商(华为、寒武纪、地平线)在 NPU 领域的投入将逐步缩小与国际领先厂商的差距。