電腦領域 HKEPC Hardware - Powered by Discuz! Board

標題: 依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM? [打印本頁]

作者: 樓主 時間: 2025-2-4 15:55 標題: 依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM?

想請教一下, 我剩係想用mobile CPU行LLM, 好似依家個D新AI CPU:

Ryzen AI 7 PRO 360 (聲稱有50 TOPS NPU算力)
https://en.wikipedia.org/wiki/Zen_5

Intel Core Ultra 7 NPU TOPS: 48
https://chci.com.tw/what-is-intel-core-ultra/

對行local LLM 有無幫助? (玩下本地部署 e.g. DeepSeek-R1 )
我只係普通家用玩下, 生成一下文章. 等耐少少無問題.
會唔會話50 TOPS都已經足夠快?

作者: raylee 時間: 2025-2-4 16:04

在香港最簡單就去買5080

作者: artai 時間: 2025-2-4 16:09

在香港最簡單就去買5080
raylee 發表於 2025-2-4 16:04

請問, 5080得16GB RAM, 玩到 DeepSeek 的8B Model? 還是更高的Model?
(有聞說, 70B 以下都係唔係智能...)

作者: 樓主 時間: 2025-2-4 16:23

在香港最簡單就去買5080
raylee 發表於 2025-2-4 16:04

我唔想買額外GPU, 只係想話AI CPU可唔可以簡簡單單行到下, 玩下.
我唔係叫AI gen圖, 定係計pure maths比我睇

作者: artai 時間: 2025-2-4 16:52

1.5B 版, 你可以係現有電腦裡面試吓行, 試咗先再討論

作者: raylee 時間: 2025-2-4 17:46

過多兩年再討論

作者: javacomhk 時間: 2025-2-4 18:59

本帖最後由 javacomhk 於 2025-2-4 11:40 編輯

認真玩AI嘅話

如果你唔夠錢買A100，就去買 2張RTX4090啦！
[youtube]Wjrdr0NU4Sk[/youtube]

或者平的買2張 RTX3090然後用NVLink串起佢地。70B 都行到。

最緊要唔好買 Intel CPU 底版。

[youtube]Iepryp8q7gI[/youtube]

作者: 樓主 時間: 2025-2-4 19:35

過多兩年再討論
raylee 發表於 2025-2-4 17:46

可能ultra 3都唔夠, 真係最少要等到2027 AI CPU

作者: raylee 時間: 2025-2-4 19:57

可能ultra 3都唔夠, 真係最少要等到2027 AI CPU
樓主發表於 2025-2-4 19:35

趨勢不是cpu而是chiplet, gb10美3k但不知港會否禁售

作者: 樓主 時間: 2025-2-4 21:48

趨勢不是cpu而是chiplet, gb10美3k但不知港會否禁售
raylee 發表於 2025-2-4 19:57

chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有

作者: raylee 時間: 2025-2-5 00:02

本帖最後由 raylee 於 2025-2-5 11:51 編輯

chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有 ...
樓主發表於 2025-2-4 21:48

gb10 : cpu + gpu + ...
https://www.cool3c.com/article/232529

local LLM 過多1兩年再討論

作者: 樓主 時間: 2025-2-5 11:36

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?

作者: raylee 時間: 2025-2-5 12:32

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?
樓主發表於 2025-2-5 11:36

https://www.youtube.com/watch?v=0EInsMyH87Q

作者: javacomhk 時間: 2025-2-5 14:14

本帖最後由 javacomhk 於 2025-2-10 08:19 編輯

目前，Local LLM 大多數都是在GPU 上運行的，而家AI PC 講緊個的4~50TOPS 嘅係講緊 NPU (唔係GPU)而且只係4bits。而大多數開源 LLM 推理框架（如 GGUF 或 vLLM）尚未直接支援 NPU。

1. NPU 是否支援 LLM？
NPU 是專門針對 AI 工作負載設計的，特別適用於邊緣設備和行動裝置晶片（如 Qualcomm Hexagon、Apple Neural Engine、華為 Ascend）。
許多 NPU 主要用於推理（Inference）而非訓練（Training）大型模型。
是否支援 FP16、INT8 或其他低精度運算會顯著影響運行效能。

2. DeepSeek-R1 的硬體需求
DeepSeek-R1 例如 7B 參數的模型，運行時至少需要 16GB VRAM 才能在 GPU 上順暢執行。若在 CPU 上運行，則需要高性能多核心處理器，並支援 AVX512 或 AMX 指令集。許多 NPU 可能缺乏針對 LLM 的最佳化軟體支援，影響運行效率。

如果要求只運行1.5B 參數的模型，手機也可以，不用PC。

作者: artai 時間: 2025-2-6 08:27

樓主睇下呢個, 或者解答到您的問題:
[youtube]https://youtu.be/83t2TK6oUZ4?si=qqLykt8q7uhkRS36[/youtube]

作者: artai 時間: 2025-2-6 13:41

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 7940HS
64GB RAM
Windows 11 Pro 24H2

DeepSeek R1 14B,係全CPU去RUN AI的情況下都行到, 叫佢寫個Hello World程式, 大約5.08 tok/sec... 慢咗D, 冇Graphic 咭加持都行到, 已經算係咁! 大家有心想玩放膽試咗先

作者: javacomhk 時間: 2025-2-6 17:45

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到，或者叫行到都無用。

作者: artai 時間: 2025-2-6 19:59

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到，或者叫行到都無用。
javacomhk 發表於 2025-2-6 17:45

要多少tokens 先叫okay?

作者: javacomhk 時間: 2025-2-6 20:12

本帖最後由 javacomhk 於 2025-2-6 12:13 編輯

由 DeepSeek 答你
問：本地部署的大語言模型要有多少 tokens per second 先叫 okay?

答：本地部署的大语言模型的性能评估中，"tokens per second"（每秒处理的token数）是一个关键指标，但“okay”的标准取决于具体应用场景和需求。以下是一些参考因素：

### 1. **应用场景**
- **实时交互**（如聊天机器人）：通常需要 **20-50 tokens per second** 才能保证流畅体验。
- **批量处理**（如文本生成、翻译）：速度要求较低，**5-20 tokens per second** 可能已足够。

### 2. **模型规模**
- **小型模型**（如GPT-2）：在普通硬件上可以达到 **50-100 tokens per second**。
- **大型模型**（如GPT-3）：可能需要高端GPU，速度在 **10-30 tokens per second** 之间。

### 3. **硬件配置**
- **高端GPU**（如NVIDIA A100）：可显著提升处理速度。
- **消费级GPU**（如NVIDIA RTX 3090）：速度较慢，但仍能满足一般需求。

### 4. **延迟与吞吐量**
- **低延迟**：实时应用需要更快的响应速度。
- **高吞吐量**：批量处理更注重总体处理能力。

### 5. **用户体验**
- 如果用户能接受轻微延迟，**10-20 tokens per second** 可能已足够。
- 对延迟敏感的场景，可能需要 **30+ tokens per second**。

### 总结
- **实时交互**：至少 **20-50 tokens per second**。
- **批量处理**：**5-20 tokens per second** 可能已足够。

具体标准需根据实际需求和硬件条件调整。

問：如果是編程或代碼分析呢？

答：在编程或代码分析场景中，大语言模型的性能需求与通用文本处理有所不同，主要体现在对精确性、上下文理解以及响应速度的要求上。以下是针对编程或代码分析的性能考量：

---

### 1. **应用场景**
- **代码补全**：需要低延迟，通常要求 **20-50 tokens per second** 以提供实时建议。
- **代码分析**（如错误检测、代码优化）：对速度要求较低，**5-20 tokens per second** 可能已足够。
- **代码生成**：根据生成代码的长度和复杂度，速度在 **10-30 tokens per second** 之间较为合适。

---

### 2. **性能需求**
- **低延迟**：编程工具（如IDE插件）需要快速响应，延迟应控制在 **100-300毫秒** 以内。
- **高准确性**：代码分析需要模型深入理解上下文，速度可以稍慢，但准确性至关重要。
- **长上下文支持**：编程任务通常需要处理较长的代码文件，因此模型应能高效处理长上下文。

---

### 3. **硬件配置**
- **高端GPU**（如NVIDIA A100）：适合需要快速响应的场景，如代码补全。
- **消费级GPU**（如NVIDIA RTX 3090）：适合代码生成或分析任务，速度稍慢但成本较低。
- **CPU部署**：对于轻量级任务或小型模型，CPU也可胜任，但速度较慢（通常 **1-5 tokens per second**）。

---

### 4. **具体指标**
- **代码补全**：至少 **20-50 tokens per second**，延迟低于 **300毫秒**。
- **代码生成**：**10-30 tokens per second**，延迟可接受 **1-2秒**。
- **代码分析**：**5-20 tokens per second**，延迟可接受 **2-5秒**。

---

### 5. **模型选择**
- **小型模型**（如CodeGen-350M）：适合本地部署，速度较快，但能力有限。
- **中型模型**（如CodeGen-2B）：平衡速度与性能，适合大多数编程任务。
- **大型模型**（如Codex或GPT-4）：能力更强，但需要更高硬件配置。

---

### 6. **用户体验**
- 如果用于IDE集成，响应速度是关键，延迟应尽量低。
- 如果是离线代码分析工具，速度可以稍慢，但需要更高的准确性和上下文理解能力。

---

### 总结
- **代码补全**：**20-50 tokens per second**，延迟低于 **300毫秒**。
- **代码生成**：**10-30 tokens per second**，延迟可接受 **1-2秒**。
- **代码分析**：**5-20 tokens per second**，延迟可接受 **2-5秒**。

具体性能需求需结合实际应用场景和硬件条件进行调整。如果对延迟要求较高，建议使用高端GPU并优化模型推理过程。

作者: 樓主 時間: 2025-2-6 21:02

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41

多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS

如果下代有50 TOPS... 咁應該勁好多

作者: 樓主 時間: 2025-2-6 21:56

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41

5 tok/sec , 即係點既體驗?
問一條問題等十零秒就覆到?
覆既時候係遂粒遂粒字彈出黎? 定係一排咁彈出黎?

作者: artai 時間: 2025-2-6 22:21

回覆 21# 樓主

我係另一個貼裡面講過MacBook M3 Pro 行 DeepSeek R1 14B都係慢, 大約一個問題一個回答要3至10分鐘, 視乎複雜程度, 今日都check 過, 原來MacBook M3 Pro都有14 Tok/ Second, 咁你自己計返條數...

緊急需要AI, 真係上網玩DeepSeek 完全版好過, 但唔急的話, 咪打個指示之後行開吓, 等佢出結果囉

作者: artai 時間: 2025-2-6 22:26

今日試完之後, 其實個人黎講, 真係有考慮買部可以行70B順暢的家用伺服器, 去做多D唔同類別的自動化

但一睇要乜嘢硬件同價錢.... 呢個時勢身痕都有個譜囉, 做付費用戶N年都未花到咁多錢, 咁買黎做乜丫?

作者: artai 時間: 2025-2-6 22:48

多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS

如果下代有50 TO ...
樓主發表於 2025-2-6 21:02

50Tops, 要睇係行幾多B的Model, 行1.5B, 一定過10 Tops!

YouTube有唔少片, 玩Mac機行DeepSeek Model 吹到佢有一百九十幾Tops, 一睇原來係1.5B Model..... M4 MAX 16吋 128GB RAM 行1.5B 好意思同我哋講MacBook Max 好勁....

作者: 樓主 時間: 2025-2-9 16:42

回覆樓主

我係另一個貼裡面講過MacBook M3 Pro 行 DeepSeek R1 14B都係慢, 大約一個問題一個回答要3至 ...
artai 發表於 2025-2-6 22:21

我睇呢到:

https://www.reddit.com/r/macbook ... 4_pro_in_69_months/

You probably want to wait for M4 since M4 has a more powerful NPU than M3 (M3: 18TOPs, M4: 38TOPs). That might or might not make AI faster.

M3既NPU都只係18 TOPS, M4就38 TOPS, 2026出既nova lake 應該最少都有50 TOPS, 咁到時應該好多少少

如果話, 家用自建只係純CPU, 一條問題大約1~3分鐘. 我覺得都可以接受既. 畢竟無用到皮褸D卡

作者: 樓主 時間: 2025-2-9 16:45

50Tops, 要睇係行幾多B的Model, 行1.5B, 一定過10 Tops!

YouTube有唔少片, 玩Mac機行DeepSeek Model 吹 ...
artai 發表於 2025-2-6 22:48

😂😂😂
我諗最少都要行14b 或者 32b 先好用

作者: artai 時間: 2025-2-9 21:38

我睇呢到:

You probably want to wait for M4 since M4 has a more powerful NPU than M3 (M3: 18TOPs ...
樓主發表於 2025-2-9 16:42

又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原來用MacBook Max就算你打到 RAM 去192GB RAM, 雖然係可以運行到大型LLM, 但速度唔高... 因為Mac沒有CUDA 在AI上的加速, 速度只係單純CPU + 大量的RAM... 雖然佢O既CPU 已經係好快, 又好省電, 但用黎行AI Model , 其實係唔夠快!

作者: Super169 時間: 2025-2-10 13:17

又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
artai 發表於 2025-2-9 21:38

粒 chip 既 TOPS 同你行乜野模型有乜野關係?

作者: artai 時間: 2025-2-10 13:26

粒 chip 既 TOPS 同你行乜野模型有乜野關係?
Super169 發表於 2025-2-10 13:17

原來係咁，咁即係唔可以睇呢個數字去評估我用15B,32B,70B 模型係幾多Toks / second 啦
咁呢個數值有乜用呢？

via HKEPC Reader for Android

作者: Super169 時間: 2025-2-10 13:31

原來係咁，咁即係唔可以睇呢個數字去評估我用15B,32B,70B 模型係幾多Toks / second 啦
咁呢個數值有乜用 ...
artai 發表於 2025-2-10 13:26

比你大約知道粒Ｕ行 AI 模型既速度.
同一個 TOPS 下, 行 1.5B 比 7B 快, 快幾多唔係 linear 既, 好難講.
但從另一邊睇, 同一個模型, 比如 7B 既, 在 20 TOPS 既 chip, 一般情況下, 你可以當佢比 10TOPS 既快一倍.

作者: javacomhk 時間: 2025-2-10 18:57

本帖最後由 javacomhk 於 2025-2-10 12:18 編輯

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度，仲要係計4bits ，同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運算速度爭好遠啦！

作者: 樓主 時間: 2025-2-11 07:29

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度，仲要係計4bits ，同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運 ...
javacomhk 發表於 2025-2-10 18:57

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions with the XDNA 2 architecture is support for the Block Floating Point (Block FP16).......Most AI applications require 16-bit precision, and Block FP16 addresses this requirement by simultaneously bringing high performance and high accuracy to the mobile market, at least from an AI standpoint......AMD brings (close to) 16-bit accuracy at 8-bit speed, making it more performant for some AI applications. Altogether, the integrated NPU is slated to offer up to 50 TOPS of compute performance.

https://www.anandtech.com/show/2 ... 5-igpu-xdna-2-npu/2

AMD Ryzen 7040 and 8040 Series processors are built on AMD XDNA NPUs
https://www.amd.com/en/technologies/xdna.html#xdna2

唔知intel 係點, 但今代AMD已經有去到50 TOPS既NPU, 仲有FP16支援. 好似發展得都唔差.

作者: s84292 時間: 2025-2-11 08:49

本帖最後由 s84292 於 2025-2-11 00:52 編輯

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions ...
樓主發表於 2025-2-10 23:29

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎，
4060 都121TOPS/242、4090 660/1300＋（FP16/FP8）。

不過叫做VRAM 可以加到好大，至少行到
但慢就一定好慢，尤其行大模型一秒出3-5隻字咁

其實咁慢同計返個成本，真係不如CLOUD 算數，平過你比電費

作者: 樓主 時間: 2025-2-11 08:55

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎，
4060 都121TOPS/242、4090 660/1300＋（FP1 ...
s84292 發表於 2025-2-11 08:49

TLDR: 結論原來AMD NPU既AI效能比intel Ultra 好.

AMD Zen 4 架构中的 NPU 和 Intel Core Ultra 系列（如 Lunar Lake）的 NPU 在 AI 算力和功能上有显著差异。以下是两者的对比：

---

### 1. **NPU 算力对比**
- **AMD Zen 4 NPU**：
  - 支持 FP16 运算，算力为 **16 TOPS**（Tera Operations Per Second）。
  - 在 Ryzen AI 300 系列（基于 Zen 5 架构）中，NPU 算力进一步提升至 **50 TOPS**（INT8 精度），并支持 Block FP16 混合数据类型，兼顾性能和精度。
- **Intel Core Ultra NPU**：
  - 在 Lunar Lake 架构中，NPU 算力为 **48 TOPS**（INT8 精度），相比上一代（10 TOPS）提升了 4.8 倍。
  - 支持 FP16 运算，但具体算力未明确提及，主要强调 INT8 性能。

**总结**：在 INT8 精度下，Intel Core Ultra 的 NPU 算力（48 TOPS）略低于 AMD Ryzen AI 300 系列（50 TOPS），但远高于 AMD Zen 4 的 16 TOPS。FP16 性能方面，AMD 的 Block FP16 技术更具优势。

---

### 2. **架构与功能**
- **AMD Zen 4 NPU**：
  - 基于 XDNA 架构，支持 Ryzen AI 技术，适用于生成式 AI、实时翻译、视频处理等场景。
  - 在 Ryzen AI 300 系列中，XDNA2 NPU 进一步优化了能效和性能，支持更复杂的 AI 任务。
- **Intel Core Ultra NPU**：
  - 基于 NPU4 架构，专注于低功耗和高能效，适合轻薄本和移动设备。
  - 主要用于 Windows Studio Effects 等轻量级 AI 任务，如摄像头背景虚化、眼神接触等。

**总结**：AMD 的 NPU 更注重高性能 AI 任务，而 Intel 的 NPU 更偏向于低功耗和轻量级应用。

---

### 3. **实际应用场景**
- **AMD Zen 4 NPU**：
  - 支持大语言模型本地推理（如锐龙 AI 助手）、视频剪辑、游戏 AI 优化等。
  - 在生成式 AI 任务中表现优异，如文生图、图生图等。
- **Intel Core Ultra NPU**：
  - 主要用于 Windows 11 的 AI 功能，如 Studio Effects，适合视频会议和轻量级 AI 任务。
  - 目前不支持动态形状模型（如 LLM 推理），功能相对有限。

**总结**：AMD 的 NPU 在复杂 AI 任务中表现更出色，而 Intel 的 NPU 更适合轻量级应用。

---

### 4. **能效与功耗**
- **AMD Zen 4 NPU**：
  - 在 Ryzen AI 300 系列中，能效显著提升，支持高性能 AI 任务的同时保持较低功耗。
- **Intel Core Ultra NPU**：
  - 强调低功耗设计，适合轻薄本和长续航设备。

**总结**：Intel 的 NPU 在能效上更具优势，而 AMD 的 NPU 在性能和能效之间取得了更好的平衡。

---

### 5. **生态与软件支持**
- **AMD Zen 4 NPU**：
  - 与超过 150 家 ISV 合作伙伴合作，支持多种 AI 应用和数据类型。
  - 提供锐龙 AI 助手等本地 AI 工具，支持多种大语言模型。
- **Intel Core Ultra NPU**：
  - 依赖 OpenVINO 框架，支持 Windows Copilot Runtime，但生态相对较新。

**总结**：AMD 的 AI 生态更为成熟，而 Intel 的生态仍在发展中。

---

### 综合对比
| 特性             | AMD Zen 4 NPU             | Intel Core Ultra NPU    |
|---------------------|----------------------------|----------------------------|
| **FP16 算力**    | 16 TOPS（Zen 4）          | 未明确（主要强调 INT8） |
| **INT8 算力**    | 50 TOPS（Ryzen AI 300）    | 48 TOPS                   |
| **架构**          | XDNA / XDNA2             | NPU4                      |
| **主要应用**       | 生成式 AI、大语言模型    | 轻量级 AI 任务（如 Studio Effects） |
| **能效**          | 高性能与能效平衡          | 低功耗设计                |
| **生态支持**       | 成熟，支持多种 AI 应用    | 依赖 OpenVINO，生态较新 |

---

### 结论
- 如果你需要高性能 AI 任务（如生成式 AI、大语言模型），AMD Zen 4 和 Ryzen AI 300 系列的 NPU 是更好的选择。
- 如果你更注重低功耗和轻量级 AI 应用（如视频会议优化），Intel Core Ultra 的 NPU 更适合。

两者各有优势，具体选择取决于你的使用场景和需求。

作者: s84292 時間: 2025-2-11 08:56

本帖最後由 s84292 於 2025-2-11 00:57 編輯

又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原 ...
artai 發表於 2025-2-9 13:38

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM 行普通LINUX PC 都可以CPU運行架
買粒7980X ＋512GB RAM行唔好？CPU快3-4倍

純CPU 10分鐘都答唔到你一題簡單問題

作者: 樓主 時間: 2025-2-11 09:09

https://www.techbang.com/posts/116883-amd-tech-day-2024-xdna-2
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能，以及接近50 TOPS的Block FP16資料類型AI運算效能。

作者: s84292 時間: 2025-2-11 09:29

本帖最後由 s84292 於 2025-2-11 01:32 編輯

Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能，以及接近50 TOPS的Bloc ...
樓主發表於 2025-2-11 01:09

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試，HX375 VS 258V，都係單純比IGPU，冇NPU份

作者: artai 時間: 2025-2-11 09:50

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM ...
s84292 發表於 2025-2-11 08:56

唔好意思, 我撈亂咗, 好似MacBook 只有128GB Maximum, Mac Stdio Ultra 或 Mac Pro先有192GB, 好貴, 好很貴...

作者: javacomhk 時間: 2025-2-11 09:55

本帖最後由 javacomhk 於 2025-2-11 02:19 編輯

Mac 雖然有多GPU Cores 同128GB RAM 都唔夠行架，因為仲要支援加速運算先得。
依家的 LLM Model 有MPX 版支援Mac GPU 推理加速，但本身的FP32 性能及內存帶寬仍不夠 Nvidia GPU 快。
訓練模型仍是 Nvidia GPU 的天下，因為佢CUDA支援嘅加速運算係 TensorFlow 及 PyTorch 係最全面。

參考DeepSeek 的回答
虽然M4MAX TOPS数值未直接提供，但可以参考其FP32（单精度浮点运算）性能。根据其架构和频率，M4 Max GPU的理论FP32性能约为18.4 TFLOPS（每秒万亿次浮点运算）。

M4 Max 與 RTX4090比較：
計算性能：RTX 4090 的理論 FP32 性能為 82.6 TFLOPS，遠高於 M4 Max 的 18.4 TFLOPS。這使得 RTX 4090 在訓練和推理大型模型時更具優勢。
內存帶寬：RTX 4090 的內存帶寬為 1010 GB/s，而 M4 Max 為 546 GB/s，這使得 RTX 4090 在處理大規模數據時更高效。
功耗與便攜性：M4 Max 的功耗遠低於 RTX 4090，適合移動開發和低功耗場景，而 RTX 4090 則需要更高的電源和散熱支持。

作者: 樓主 時間: 2025-2-13 09:55

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試，HX375 VS 258V，都係單純比IGPU，冇NPU份
...
s84292 發表於 2025-2-11 09:29

岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek：最高支持70B参数
https://news.mydrivers.com/1/1029/1029951.htm

如果是顶级的锐龙AI MAX+ 395处理器，搭配64GB、128GB内存，最高可以支持DeepSeek-R1-Distill-Llama-70B，注意64GB内存的话需要将可变显存设置为高。

作者: s84292 時間: 2025-2-13 10:04

本帖最後由 s84292 於 2025-2-13 02:23 編輯

岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek：最高支持70B参数

如果是顶级的锐龙AI MAX+ 395 ...
樓主發表於 2025-2-13 01:55

咪又係GPU嘛，依家講個NPU
我除左訓練做本地，我用都係租算數
（1300 TOPS FP8我都覺得慢，50TOPS你爬上下文要幾耐？）
NPU做下輕模型加速，語音果D就可以，主打都係慳電

租D無審查的供應商
當然話就話冇，但其實有D問題都係會拒絕你，畢竟都係破解，但本地部署一樣會咁～因為訓練階段就污染左
同要有WEB 搜尋強化的，本地部署都好難搞得快
除非真係好大私隱需求就沒辦法
（671B：此事件在中国大陆的公开讨论仍受法律限制，相关历史记录可通过境外资料查证。）
[attach]2464707[/attach]

作者: hkocx 時間: 2025-2-18 22:55

我見AMD 出左話有特別LLM 俾AMD 用
其實係咪同mac 一樣，都要重新編譯時快？

via HKEPC IR 5.1.14 - iOS(5.1.1F)

作者: hkguy2020 時間: 2025-2-22 07:06

我用 Orange Pi 5 Max 16gb, Ubuntu 24.04, 有 NPU (6 TOPS), local run Llama 8b (rkllm) 行到 NPU, 有 45 tokens per second

[attach]2466016[/attach]