依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM?

Rank: 3 Rank: 3 Rank: 3

31^# 跳轉到 »

發表於 2025-2-10 18:57 | 只看該作者

本帖最後由 javacomhk 於 2025-2-10 12:18 編輯

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度，仲要係計4bits ，同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運算速度爭好遠啦！

TOP

樓主

中級會員

Rank: 2 Rank: 2

32^#

發表於 2025-2-11 07:29 | 只看該作者

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度，仲要係計4bits ，同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運 ...
javacomhk 發表於 2025-2-10 18:57

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions with the XDNA 2 architecture is support for the Block Floating Point (Block FP16).......Most AI applications require 16-bit precision, and Block FP16 addresses this requirement by simultaneously bringing high performance and high accuracy to the mobile market, at least from an AI standpoint......AMD brings (close to) 16-bit accuracy at 8-bit speed, making it more performant for some AI applications. Altogether, the integrated NPU is slated to offer up to 50 TOPS of compute performance.

https://www.anandtech.com/show/2 ... 5-igpu-xdna-2-npu/2

AMD Ryzen 7040 and 8040 Series processors are built on AMD XDNA NPUs
https://www.amd.com/en/technologies/xdna.html#xdna2

唔知intel 係點, 但今代AMD已經有去到50 TOPS既NPU, 仲有FP16支援. 好似發展得都唔差.

TOP

s84292

特級會員

Rank: 4 Rank: 4 Rank: 4 Rank: 4

33^#

發表於 2025-2-11 08:49 | 只看該作者

本帖最後由 s84292 於 2025-2-11 00:52 編輯

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions ...
樓主發表於 2025-2-10 23:29

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎，
4060 都121TOPS/242、4090 660/1300＋（FP16/FP8）。

不過叫做VRAM 可以加到好大，至少行到
但慢就一定好慢，尤其行大模型一秒出3-5隻字咁

其實咁慢同計返個成本，真係不如CLOUD 算數，平過你比電費

TOP

樓主

中級會員

Rank: 2 Rank: 2

34^#

發表於 2025-2-11 08:55 | 只看該作者

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎，
4060 都121TOPS/242、4090 660/1300＋（FP1 ...
s84292 發表於 2025-2-11 08:49

TLDR: 結論原來AMD NPU既AI效能比intel Ultra 好.

AMD Zen 4 架构中的 NPU 和 Intel Core Ultra 系列（如 Lunar Lake）的 NPU 在 AI 算力和功能上有显著差异。以下是两者的对比：

---

### 1. **NPU 算力对比**
- **AMD Zen 4 NPU**：
  - 支持 FP16 运算，算力为 **16 TOPS**（Tera Operations Per Second）。
  - 在 Ryzen AI 300 系列（基于 Zen 5 架构）中，NPU 算力进一步提升至 **50 TOPS**（INT8 精度），并支持 Block FP16 混合数据类型，兼顾性能和精度。
- **Intel Core Ultra NPU**：
  - 在 Lunar Lake 架构中，NPU 算力为 **48 TOPS**（INT8 精度），相比上一代（10 TOPS）提升了 4.8 倍。
  - 支持 FP16 运算，但具体算力未明确提及，主要强调 INT8 性能。

**总结**：在 INT8 精度下，Intel Core Ultra 的 NPU 算力（48 TOPS）略低于 AMD Ryzen AI 300 系列（50 TOPS），但远高于 AMD Zen 4 的 16 TOPS。FP16 性能方面，AMD 的 Block FP16 技术更具优势。

---

### 2. **架构与功能**
- **AMD Zen 4 NPU**：
  - 基于 XDNA 架构，支持 Ryzen AI 技术，适用于生成式 AI、实时翻译、视频处理等场景。
  - 在 Ryzen AI 300 系列中，XDNA2 NPU 进一步优化了能效和性能，支持更复杂的 AI 任务。
- **Intel Core Ultra NPU**：
  - 基于 NPU4 架构，专注于低功耗和高能效，适合轻薄本和移动设备。
  - 主要用于 Windows Studio Effects 等轻量级 AI 任务，如摄像头背景虚化、眼神接触等。

**总结**：AMD 的 NPU 更注重高性能 AI 任务，而 Intel 的 NPU 更偏向于低功耗和轻量级应用。

---

### 3. **实际应用场景**
- **AMD Zen 4 NPU**：
  - 支持大语言模型本地推理（如锐龙 AI 助手）、视频剪辑、游戏 AI 优化等。
  - 在生成式 AI 任务中表现优异，如文生图、图生图等。
- **Intel Core Ultra NPU**：
  - 主要用于 Windows 11 的 AI 功能，如 Studio Effects，适合视频会议和轻量级 AI 任务。
  - 目前不支持动态形状模型（如 LLM 推理），功能相对有限。

**总结**：AMD 的 NPU 在复杂 AI 任务中表现更出色，而 Intel 的 NPU 更适合轻量级应用。

---

### 4. **能效与功耗**
- **AMD Zen 4 NPU**：
  - 在 Ryzen AI 300 系列中，能效显著提升，支持高性能 AI 任务的同时保持较低功耗。
- **Intel Core Ultra NPU**：
  - 强调低功耗设计，适合轻薄本和长续航设备。

**总结**：Intel 的 NPU 在能效上更具优势，而 AMD 的 NPU 在性能和能效之间取得了更好的平衡。

---

### 5. **生态与软件支持**
- **AMD Zen 4 NPU**：
  - 与超过 150 家 ISV 合作伙伴合作，支持多种 AI 应用和数据类型。
  - 提供锐龙 AI 助手等本地 AI 工具，支持多种大语言模型。
- **Intel Core Ultra NPU**：
  - 依赖 OpenVINO 框架，支持 Windows Copilot Runtime，但生态相对较新。

**总结**：AMD 的 AI 生态更为成熟，而 Intel 的生态仍在发展中。

---

### 综合对比
| 特性             | AMD Zen 4 NPU             | Intel Core Ultra NPU    |
|---------------------|----------------------------|----------------------------|
| **FP16 算力**    | 16 TOPS（Zen 4）          | 未明确（主要强调 INT8） |
| **INT8 算力**    | 50 TOPS（Ryzen AI 300）    | 48 TOPS                   |
| **架构**          | XDNA / XDNA2             | NPU4                      |
| **主要应用**       | 生成式 AI、大语言模型    | 轻量级 AI 任务（如 Studio Effects） |
| **能效**          | 高性能与能效平衡          | 低功耗设计                |
| **生态支持**       | 成熟，支持多种 AI 应用    | 依赖 OpenVINO，生态较新 |

---

### 结论
- 如果你需要高性能 AI 任务（如生成式 AI、大语言模型），AMD Zen 4 和 Ryzen AI 300 系列的 NPU 是更好的选择。
- 如果你更注重低功耗和轻量级 AI 应用（如视频会议优化），Intel Core Ultra 的 NPU 更适合。

两者各有优势，具体选择取决于你的使用场景和需求。

TOP

s84292

特級會員

Rank: 4 Rank: 4 Rank: 4 Rank: 4

35^#

發表於 2025-2-11 08:56 | 只看該作者

本帖最後由 s84292 於 2025-2-11 00:57 編輯

又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原 ...
artai 發表於 2025-2-9 13:38

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM 行普通LINUX PC 都可以CPU運行架
買粒7980X ＋512GB RAM行唔好？CPU快3-4倍

純CPU 10分鐘都答唔到你一題簡單問題

TOP

樓主

中級會員

Rank: 2 Rank: 2

36^#

發表於 2025-2-11 09:09 | 只看該作者

https://www.techbang.com/posts/116883-amd-tech-day-2024-xdna-2
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能，以及接近50 TOPS的Block FP16資料類型AI運算效能。

TOP

s84292

特級會員

Rank: 4 Rank: 4 Rank: 4 Rank: 4

37^#

發表於 2025-2-11 09:29 | 只看該作者

本帖最後由 s84292 於 2025-2-11 01:32 編輯

Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能，以及接近50 TOPS的Bloc ...
樓主發表於 2025-2-11 01:09

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試，HX375 VS 258V，都係單純比IGPU，冇NPU份

TOP

artai

中級會員

Rank: 2 Rank: 2

38^#

發表於 2025-2-11 09:50 | 只看該作者

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM ...
s84292 發表於 2025-2-11 08:56

唔好意思, 我撈亂咗, 好似MacBook 只有128GB Maximum, Mac Stdio Ultra 或 Mac Pro先有192GB, 好貴, 好很貴...

TOP

javacomhk

進階會員

Rank: 3 Rank: 3 Rank: 3

39^#

發表於 2025-2-11 09:55 | 只看該作者

本帖最後由 javacomhk 於 2025-2-11 02:19 編輯

Mac 雖然有多GPU Cores 同128GB RAM 都唔夠行架，因為仲要支援加速運算先得。
依家的 LLM Model 有MPX 版支援Mac GPU 推理加速，但本身的FP32 性能及內存帶寬仍不夠 Nvidia GPU 快。
訓練模型仍是 Nvidia GPU 的天下，因為佢CUDA支援嘅加速運算係 TensorFlow 及 PyTorch 係最全面。

參考DeepSeek 的回答
虽然M4MAX TOPS数值未直接提供，但可以参考其FP32（单精度浮点运算）性能。根据其架构和频率，M4 Max GPU的理论FP32性能约为18.4 TFLOPS（每秒万亿次浮点运算）。

M4 Max 與 RTX4090比較：
計算性能：RTX 4090 的理論 FP32 性能為 82.6 TFLOPS，遠高於 M4 Max 的 18.4 TFLOPS。這使得 RTX 4090 在訓練和推理大型模型時更具優勢。
內存帶寬：RTX 4090 的內存帶寬為 1010 GB/s，而 M4 Max 為 546 GB/s，這使得 RTX 4090 在處理大規模數據時更高效。
功耗與便攜性：M4 Max 的功耗遠低於 RTX 4090，適合移動開發和低功耗場景，而 RTX 4090 則需要更高的電源和散熱支持。

TOP

樓主

中級會員

Rank: 2 Rank: 2

40^#

發表於 2025-2-13 09:55 | 只看該作者

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試，HX375 VS 258V，都係單純比IGPU，冇NPU份
...
s84292 發表於 2025-2-11 09:29

岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek：最高支持70B参数
https://news.mydrivers.com/1/1029/1029951.htm

如果是顶级的锐龙AI MAX+ 395处理器，搭配64GB、128GB内存，最高可以支持DeepSeek-R1-Distill-Llama-70B，注意64GB内存的话需要将可变显存设置为高。

TOP

[收藏此主題] [關注此主題的新回覆]

[通過 QQ、MSN 分享給朋友]