本帖最後由 javacomhk 於 2025-2-10 12:18 編輯

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度,仲要係計4bits ,同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運算速度爭好遠啦!

TOP

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度,仲要係計4bits ,同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運 ...
javacomhk 發表於 2025-2-10 18:57

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions with the XDNA 2 architecture is support for the Block Floating Point (Block FP16).......Most AI applications require 16-bit precision, and Block FP16 addresses this requirement by simultaneously bringing high performance and high accuracy to the mobile market, at least from an AI standpoint......AMD brings (close to) 16-bit accuracy at 8-bit speed, making it more performant for some AI applications. Altogether, the integrated NPU is slated to offer up to 50 TOPS of compute performance.

https://www.anandtech.com/show/2 ... 5-igpu-xdna-2-npu/2

AMD Ryzen 7040 and 8040 Series processors are built on AMD XDNA NPUs
https://www.amd.com/en/technologies/xdna.html#xdna2


唔知intel 係點, 但今代AMD已經有去到50 TOPS既NPU, 仲有FP16支援. 好似發展得都唔差.

TOP

本帖最後由 s84292 於 2025-2-11 00:52 編輯
我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions  ...
樓主 發表於 2025-2-10 23:29


佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎,
4060 都121TOPS/242、4090 660/1300+(FP16/FP8)。

不過叫做VRAM 可以加到好大,至少行到
但慢就一定好慢,尤其行大模型一秒出3-5隻字咁

其實咁慢同計返個成本,真係不如CLOUD 算數,平過你比電費

TOP

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎,
4060 都121TOPS/242、4090 660/1300+(FP1 ...
s84292 發表於 2025-2-11 08:49


TLDR: 結論原來AMD NPU既AI效能比intel Ultra 好.

AMD Zen 4 架构中的 NPU 和 Intel Core Ultra 系列(如 Lunar Lake)的 NPU 在 AI 算力和功能上有显著差异。以下是两者的对比:

---

### 1. **NPU 算力对比**
- **AMD Zen 4 NPU**:
  - 支持 FP16 运算,算力为 **16 TOPS**(Tera Operations Per Second)。
  - 在 Ryzen AI 300 系列(基于 Zen 5 架构)中,NPU 算力进一步提升至 **50 TOPS**(INT8 精度),并支持 Block FP16 混合数据类型,兼顾性能和精度。
- **Intel Core Ultra NPU**:
  - 在 Lunar Lake 架构中,NPU 算力为 **48 TOPS**(INT8 精度),相比上一代(10 TOPS)提升了 4.8 倍。
  - 支持 FP16 运算,但具体算力未明确提及,主要强调 INT8 性能。

**总结**:在 INT8 精度下,Intel Core Ultra 的 NPU 算力(48 TOPS)略低于 AMD Ryzen AI 300 系列(50 TOPS),但远高于 AMD Zen 4 的 16 TOPS。FP16 性能方面,AMD 的 Block FP16 技术更具优势。

---

### 2. **架构与功能**
- **AMD Zen 4 NPU**:
  - 基于 XDNA 架构,支持 Ryzen AI 技术,适用于生成式 AI、实时翻译、视频处理等场景。
  - 在 Ryzen AI 300 系列中,XDNA2 NPU 进一步优化了能效和性能,支持更复杂的 AI 任务。
- **Intel Core Ultra NPU**:
  - 基于 NPU4 架构,专注于低功耗和高能效,适合轻薄本和移动设备。
  - 主要用于 Windows Studio Effects 等轻量级 AI 任务,如摄像头背景虚化、眼神接触等。

**总结**:AMD 的 NPU 更注重高性能 AI 任务,而 Intel 的 NPU 更偏向于低功耗和轻量级应用。

---

### 3. **实际应用场景**
- **AMD Zen 4 NPU**:
  - 支持大语言模型本地推理(如锐龙 AI 助手)、视频剪辑、游戏 AI 优化等。
  - 在生成式 AI 任务中表现优异,如文生图、图生图等。
- **Intel Core Ultra NPU**:
  - 主要用于 Windows 11 的 AI 功能,如 Studio Effects,适合视频会议和轻量级 AI 任务。
  - 目前不支持动态形状模型(如 LLM 推理),功能相对有限。

**总结**:AMD 的 NPU 在复杂 AI 任务中表现更出色,而 Intel 的 NPU 更适合轻量级应用。

---

### 4. **能效与功耗**
- **AMD Zen 4 NPU**:
  - 在 Ryzen AI 300 系列中,能效显著提升,支持高性能 AI 任务的同时保持较低功耗。
- **Intel Core Ultra NPU**:
  - 强调低功耗设计,适合轻薄本和长续航设备。

**总结**:Intel 的 NPU 在能效上更具优势,而 AMD 的 NPU 在性能和能效之间取得了更好的平衡。

---

### 5. **生态与软件支持**
- **AMD Zen 4 NPU**:
  - 与超过 150 家 ISV 合作伙伴合作,支持多种 AI 应用和数据类型。
  - 提供锐龙 AI 助手等本地 AI 工具,支持多种大语言模型。
- **Intel Core Ultra NPU**:
  - 依赖 OpenVINO 框架,支持 Windows Copilot Runtime,但生态相对较新。

**总结**:AMD 的 AI 生态更为成熟,而 Intel 的生态仍在发展中。

---

### 综合对比
| 特性                | AMD Zen 4 NPU               | Intel Core Ultra NPU       |
|---------------------|----------------------------|----------------------------|
| **FP16 算力**       | 16 TOPS(Zen 4)            | 未明确(主要强调 INT8)    |
| **INT8 算力**       | 50 TOPS(Ryzen AI 300)     | 48 TOPS                    |
| **架构**            | XDNA / XDNA2               | NPU4                       |
| **主要应用**        | 生成式 AI、大语言模型       | 轻量级 AI 任务(如 Studio Effects) |
| **能效**            | 高性能与能效平衡            | 低功耗设计                 |
| **生态支持**        | 成熟,支持多种 AI 应用      | 依赖 OpenVINO,生态较新    |

---

### 结论
- 如果你需要高性能 AI 任务(如生成式 AI、大语言模型),AMD Zen 4 和 Ryzen AI 300 系列的 NPU 是更好的选择。
- 如果你更注重低功耗和轻量级 AI 应用(如视频会议优化),Intel Core Ultra 的 NPU 更适合。

两者各有优势,具体选择取决于你的使用场景和需求。

TOP

本帖最後由 s84292 於 2025-2-11 00:57 編輯
又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原 ...
artai 發表於 2025-2-9 13:38


邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM 行普通LINUX PC 都可以CPU運行架
買粒7980X +512GB RAM行唔好?CPU快3-4倍

純CPU 10分鐘都答唔到你一題簡單問題

TOP



https://www.techbang.com/posts/116883-amd-tech-day-2024-xdna-2
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能,以及接近50 TOPS的Block FP16資料類型AI運算效能。

TOP

本帖最後由 s84292 於 2025-2-11 01:32 編輯
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能,以及接近50 TOPS的Bloc ...
樓主 發表於 2025-2-11 01:09


理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試,HX375 VS 258V,都係單純比IGPU,冇NPU份

TOP

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM ...
s84292 發表於 2025-2-11 08:56



唔好意思, 我撈亂咗, 好似MacBook 只有128GB Maximum, Mac Stdio Ultra 或 Mac Pro先有192GB, 好貴, 好很貴...

TOP

本帖最後由 javacomhk 於 2025-2-11 02:19 編輯

Mac 雖然有多GPU Cores 同128GB RAM  都唔夠行架,因為仲要支援加速運算先得。
依家的 LLM Model 有MPX 版支援Mac GPU 推理加速,但本身的FP32 性能及內存帶寬仍不夠 Nvidia GPU 快。
訓練模型仍是  Nvidia GPU 的天下,因為佢CUDA支援嘅加速運算係 TensorFlow 及 PyTorch 係最全面。

參考DeepSeek 的回答
虽然M4MAX TOPS数值未直接提供,但可以参考其FP32(单精度浮点运算)性能。根据其架构和频率,M4 Max GPU的理论FP32性能约为18.4 TFLOPS(每秒万亿次浮点运算)。

M4 Max 與 RTX4090比較:
計算性能:RTX 4090 的理論 FP32 性能為 82.6 TFLOPS,遠高於 M4 Max 的 18.4 TFLOPS。這使得 RTX 4090 在訓練和推理大型模型時更具優勢。
內存帶寬:RTX 4090 的內存帶寬為 1010 GB/s,而 M4 Max 為 546 GB/s,這使得 RTX 4090 在處理大規模數據時更高效。
功耗與便攜性:M4 Max 的功耗遠低於 RTX 4090,適合移動開發和低功耗場景,而 RTX 4090 則需要更高的電源和散熱支持。

TOP

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試,HX375 VS 258V,都係單純比IGPU,冇NPU份
...
s84292 發表於 2025-2-11 09:29

岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek:最高支持70B参数
https://news.mydrivers.com/1/1029/1029951.htm

如果是顶级的锐龙AI MAX+ 395处理器,搭配64GB、128GB内存,最高可以支持DeepSeek-R1-Distill-Llama-70B,注意64GB内存的话需要将可变显存设置为高。

TOP