Board logo

標題: 依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM? [打印本頁]

作者: 樓主    時間: 2025-2-4 15:55     標題: 依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM?

想請教一下, 我剩係想用mobile CPU行LLM, 好似依家個D新AI CPU:

Ryzen AI 7 PRO 360 (聲稱有50 TOPS NPU算力)
https://en.wikipedia.org/wiki/Zen_5

Intel Core Ultra 7 NPU TOPS: 48
https://chci.com.tw/what-is-intel-core-ultra/

對行local LLM 有無幫助? (玩下本地部署 e.g. DeepSeek-R1 )
我只係普通家用玩下, 生成一下文章. 等耐少少無問題.
會唔會話50 TOPS都已經足夠快?
作者: raylee    時間: 2025-2-4 16:04

在香港最簡單就去買5080
作者: artai    時間: 2025-2-4 16:09

在香港最簡單就去買5080
raylee 發表於 2025-2-4 16:04



請問, 5080得16GB RAM, 玩到 DeepSeek 的8B Model? 還是更高的Model?
(有聞說, 70B 以下都係唔係智能...)
作者: 樓主    時間: 2025-2-4 16:23

在香港最簡單就去買5080
raylee 發表於 2025-2-4 16:04

我唔想買額外GPU, 只係想話AI CPU可唔可以簡簡單單行到下, 玩下.
我唔係叫AI gen圖, 定係計pure maths比我睇
作者: artai    時間: 2025-2-4 16:52

1.5B 版, 你可以係現有電腦裡面試吓行, 試咗先再討論
作者: raylee    時間: 2025-2-4 17:46

過多兩年再討論
作者: javacomhk    時間: 2025-2-4 18:59

本帖最後由 javacomhk 於 2025-2-4 11:40 編輯

認真玩AI嘅話

如果你唔夠錢買A100,就去買 2張RTX4090啦!
[youtube]Wjrdr0NU4Sk[/youtube]


或者平的買2張 RTX3090然後用NVLink串起佢地。70B 都行到。

最緊要唔好買 Intel CPU 底版。

[youtube]Iepryp8q7gI[/youtube]
作者: 樓主    時間: 2025-2-4 19:35

過多兩年再討論
raylee 發表於 2025-2-4 17:46

可能ultra 3都唔夠, 真係最少要等到2027 AI CPU
作者: raylee    時間: 2025-2-4 19:57

可能ultra 3都唔夠, 真係最少要等到2027 AI CPU
樓主 發表於 2025-2-4 19:35


趨勢不是cpu而是chiplet, gb10美3k但不知港會否禁售
作者: 樓主    時間: 2025-2-4 21:48

趨勢不是cpu而是chiplet, gb10美3k但不知港會否禁售
raylee 發表於 2025-2-4 19:57

chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有
作者: raylee    時間: 2025-2-5 00:02

本帖最後由 raylee 於 2025-2-5 11:51 編輯
chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有 ...
樓主 發表於 2025-2-4 21:48


gb10 : cpu + gpu + ...
https://www.cool3c.com/article/232529

local LLM 過多1兩年再討論
作者: 樓主    時間: 2025-2-5 11:36

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?
作者: raylee    時間: 2025-2-5 12:32

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?
樓主 發表於 2025-2-5 11:36


https://www.youtube.com/watch?v=0EInsMyH87Q
作者: javacomhk    時間: 2025-2-5 14:14

本帖最後由 javacomhk 於 2025-2-10 08:19 編輯

目前,Local LLM 大多數都是在GPU 上運行的,而家AI PC 講緊個的4~50TOPS 嘅係講緊 NPU (唔係GPU)而且只係4bits。而大多數開源 LLM 推理框架(如 GGUF 或 vLLM)尚未直接支援 NPU。

1. NPU 是否支援 LLM?
NPU 是專門針對 AI 工作負載設計的,特別適用於 邊緣設備 和 行動裝置晶片(如 Qualcomm Hexagon、Apple Neural Engine、華為 Ascend)。
許多 NPU 主要用於 推理(Inference) 而非 訓練(Training) 大型模型。
是否支援 FP16、INT8 或其他低精度運算 會顯著影響運行效能。

2. DeepSeek-R1 的硬體需求
DeepSeek-R1 例如 7B 參數 的模型,運行時至少需要 16GB VRAM 才能在 GPU 上順暢執行。若在 CPU 上運行,則需要高性能多核心處理器,並支援 AVX512 或 AMX 指令集。許多 NPU 可能 缺乏針對 LLM 的最佳化軟體支援,影響運行效率。

如果要求只運行1.5B 參數的模型,手機也可以,不用PC。
作者: artai    時間: 2025-2-6 08:27

樓主睇下呢個, 或者解答到您的問題:
[youtube]https://youtu.be/83t2TK6oUZ4?si=qqLykt8q7uhkRS36[/youtube]
作者: artai    時間: 2025-2-6 13:41

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 7940HS
64GB RAM
Windows 11 Pro 24H2

DeepSeek R1 14B,係全CPU去RUN AI的情況下都行到, 叫佢寫個Hello World程式, 大約5.08 tok/sec... 慢咗D, 冇Graphic 咭加持都行到, 已經算係咁! 大家有心想玩放膽試咗先
作者: javacomhk    時間: 2025-2-6 17:45

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到,或者叫行到都無用。
作者: artai    時間: 2025-2-6 19:59

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到,或者叫行到都無用。
javacomhk 發表於 2025-2-6 17:45



要多少tokens 先叫okay?
作者: javacomhk    時間: 2025-2-6 20:12

本帖最後由 javacomhk 於 2025-2-6 12:13 編輯

由 DeepSeek 答你
問: 本地部署的大語言模型要有多少 tokens per second 先叫 okay?

答:本地部署的大语言模型的性能评估中,"tokens per second"(每秒处理的token数)是一个关键指标,但“okay”的标准取决于具体应用场景和需求。以下是一些参考因素:

### 1. **应用场景**
   - **实时交互**(如聊天机器人):通常需要 **20-50 tokens per second** 才能保证流畅体验。
   - **批量处理**(如文本生成、翻译):速度要求较低,**5-20 tokens per second** 可能已足够。

### 2. **模型规模**
   - **小型模型**(如GPT-2):在普通硬件上可以达到 **50-100 tokens per second**。
   - **大型模型**(如GPT-3):可能需要高端GPU,速度在 **10-30 tokens per second** 之间。

### 3. **硬件配置**
   - **高端GPU**(如NVIDIA A100):可显著提升处理速度。
   - **消费级GPU**(如NVIDIA RTX 3090):速度较慢,但仍能满足一般需求。

### 4. **延迟与吞吐量**
   - **低延迟**:实时应用需要更快的响应速度。
   - **高吞吐量**:批量处理更注重总体处理能力。

### 5. **用户体验**
   - 如果用户能接受轻微延迟,**10-20 tokens per second** 可能已足够。
   - 对延迟敏感的场景,可能需要 **30+ tokens per second**。

### 总结
- **实时交互**:至少 **20-50 tokens per second**。
- **批量处理**:**5-20 tokens per second** 可能已足够。

具体标准需根据实际需求和硬件条件调整。

問:如果是編程或代碼分析呢?

答:在编程或代码分析场景中,大语言模型的性能需求与通用文本处理有所不同,主要体现在对精确性、上下文理解以及响应速度的要求上。以下是针对编程或代码分析的性能考量:

---

### 1. **应用场景**
   - **代码补全**:需要低延迟,通常要求 **20-50 tokens per second** 以提供实时建议。
   - **代码分析**(如错误检测、代码优化):对速度要求较低,**5-20 tokens per second** 可能已足够。
   - **代码生成**:根据生成代码的长度和复杂度,速度在 **10-30 tokens per second** 之间较为合适。

---

### 2. **性能需求**
   - **低延迟**:编程工具(如IDE插件)需要快速响应,延迟应控制在 **100-300毫秒** 以内。
   - **高准确性**:代码分析需要模型深入理解上下文,速度可以稍慢,但准确性至关重要。
   - **长上下文支持**:编程任务通常需要处理较长的代码文件,因此模型应能高效处理长上下文。

---

### 3. **硬件配置**
   - **高端GPU**(如NVIDIA A100):适合需要快速响应的场景,如代码补全。
   - **消费级GPU**(如NVIDIA RTX 3090):适合代码生成或分析任务,速度稍慢但成本较低。
   - **CPU部署**:对于轻量级任务或小型模型,CPU也可胜任,但速度较慢(通常 **1-5 tokens per second**)。

---

### 4. **具体指标**
   - **代码补全**:至少 **20-50 tokens per second**,延迟低于 **300毫秒**。
   - **代码生成**:**10-30 tokens per second**,延迟可接受 **1-2秒**。
   - **代码分析**:**5-20 tokens per second**,延迟可接受 **2-5秒**。

---

### 5. **模型选择**
   - **小型模型**(如CodeGen-350M):适合本地部署,速度较快,但能力有限。
   - **中型模型**(如CodeGen-2B):平衡速度与性能,适合大多数编程任务。
   - **大型模型**(如Codex或GPT-4):能力更强,但需要更高硬件配置。

---

### 6. **用户体验**
   - 如果用于IDE集成,响应速度是关键,延迟应尽量低。
   - 如果是离线代码分析工具,速度可以稍慢,但需要更高的准确性和上下文理解能力。

---

### 总结
- **代码补全**:**20-50 tokens per second**,延迟低于 **300毫秒**。
- **代码生成**:**10-30 tokens per second**,延迟可接受 **1-2秒**。
- **代码分析**:**5-20 tokens per second**,延迟可接受 **2-5秒**。

具体性能需求需结合实际应用场景和硬件条件进行调整。如果对延迟要求较高,建议使用高端GPU并优化模型推理过程。
作者: 樓主    時間: 2025-2-6 21:02

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41


多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS
   

如果下代有50 TOPS... 咁應該勁好多
作者: 樓主    時間: 2025-2-6 21:56

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41

5 tok/sec , 即係點既體驗?
問一條問題等十零秒就覆到?
覆既時候係遂粒遂粒字彈出黎? 定係一排咁彈出黎?
作者: artai    時間: 2025-2-6 22:21

回覆 21# 樓主


我係另一個貼裡面講過MacBook M3 Pro 行 DeepSeek R1 14B都係慢, 大約一個問題一個回答要3至10分鐘, 視乎複雜程度, 今日都check 過, 原來MacBook M3 Pro都有14 Tok/ Second, 咁你自己計返條數...

緊急需要AI, 真係上網玩DeepSeek 完全版好過, 但唔急的話, 咪打個指示之後行開吓, 等佢出結果囉
作者: artai    時間: 2025-2-6 22:26

今日試完之後, 其實個人黎講, 真係有考慮買部可以行70B順暢的 家用伺服器, 去做多D唔同類別的自動化

但一睇要乜嘢硬件同價錢.... 呢個時勢身痕都有個譜囉, 做付費用戶N年都未花到咁多錢, 咁買黎做乜丫?
作者: artai    時間: 2025-2-6 22:48

多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS
   

如果下代有50 TO ...
樓主 發表於 2025-2-6 21:02


50Tops, 要睇係行幾多B的Model, 行1.5B, 一定過10 Tops!

YouTube有唔少片, 玩Mac機行DeepSeek Model 吹到佢有一百九十幾Tops, 一睇原來係1.5B Model..... M4 MAX 16吋 128GB RAM 行1.5B 好意思同我哋講MacBook Max 好勁....
作者: 樓主    時間: 2025-2-9 16:42

回覆  樓主


我係另一個貼裡面講過MacBook M3 Pro 行 DeepSeek R1 14B都係慢, 大約一個問題一個回答要3至 ...
artai 發表於 2025-2-6 22:21


我睇呢到:

https://www.reddit.com/r/macbook ... 4_pro_in_69_months/

You probably want to wait for M4 since M4 has a more powerful NPU than M3 (M3: 18TOPs, M4: 38TOPs). That might or might not make AI faster.

M3既NPU都只係18 TOPS, M4就38 TOPS, 2026出既nova lake 應該最少都有50 TOPS, 咁到時應該好多少少

如果話, 家用自建只係純CPU, 一條問題大約1~3分鐘. 我覺得都可以接受既. 畢竟無用到皮褸D卡
作者: 樓主    時間: 2025-2-9 16:45

50Tops, 要睇係行幾多B的Model, 行1.5B, 一定過10 Tops!

YouTube有唔少片, 玩Mac機行DeepSeek Model 吹 ...
artai 發表於 2025-2-6 22:48


😂😂😂
我諗最少都要行14b 或者 32b 先好用
作者: artai    時間: 2025-2-9 21:38

我睇呢到:



You probably want to wait for M4 since M4 has a more powerful NPU than M3 (M3: 18TOPs ...
樓主 發表於 2025-2-9 16:42


又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原來用MacBook Max就算你打到 RAM 去192GB RAM, 雖然係可以運行到大型LLM, 但速度唔高... 因為Mac沒有CUDA 在AI上的加速, 速度只係單純CPU + 大量的RAM... 雖然佢O既CPU 已經係好快, 又好省電, 但用黎行AI Model , 其實係唔夠快!
作者: Super169    時間: 2025-2-10 13:17

又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
artai 發表於 2025-2-9 21:38


粒  chip 既 TOPS 同你行乜野模型有乜野關係?
作者: artai    時間: 2025-2-10 13:26

粒  chip 既 TOPS 同你行乜野模型有乜野關係?
Super169 發表於 2025-2-10 13:17

原來係咁,咁即係唔可以睇呢個數字去評估我用15B,32B,70B 模型係幾多Toks / second 啦
咁呢個數值有乜用呢?

via HKEPC Reader for Android
作者: Super169    時間: 2025-2-10 13:31

原來係咁,咁即係唔可以睇呢個數字去評估我用15B,32B,70B 模型係幾多Toks / second 啦
咁呢個數值有乜用 ...
artai 發表於 2025-2-10 13:26


比你大約知道粒U行 AI 模型既速度.  
同一個 TOPS 下, 行 1.5B 比 7B 快, 快幾多唔係 linear 既, 好難講.  
但從另一邊睇, 同一個模型, 比如 7B 既, 在 20 TOPS 既 chip, 一般情況下, 你可以當佢比 10TOPS 既快一倍.
作者: javacomhk    時間: 2025-2-10 18:57

本帖最後由 javacomhk 於 2025-2-10 12:18 編輯

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度,仲要係計4bits ,同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運算速度爭好遠啦!
作者: 樓主    時間: 2025-2-11 07:29

呢的AI pc 嘅4~50 TOPS 係講緊 NPU 嘅速度,仲要係計4bits ,同的大型模型 LLM 要嘅 GPU 行 FP16/32 加速運 ...
javacomhk 發表於 2025-2-10 18:57

我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions with the XDNA 2 architecture is support for the Block Floating Point (Block FP16).......Most AI applications require 16-bit precision, and Block FP16 addresses this requirement by simultaneously bringing high performance and high accuracy to the mobile market, at least from an AI standpoint......AMD brings (close to) 16-bit accuracy at 8-bit speed, making it more performant for some AI applications. Altogether, the integrated NPU is slated to offer up to 50 TOPS of compute performance.

https://www.anandtech.com/show/2 ... 5-igpu-xdna-2-npu/2

AMD Ryzen 7040 and 8040 Series processors are built on AMD XDNA NPUs
https://www.amd.com/en/technologies/xdna.html#xdna2


唔知intel 係點, 但今代AMD已經有去到50 TOPS既NPU, 仲有FP16支援. 好似發展得都唔差.
作者: s84292    時間: 2025-2-11 08:49

本帖最後由 s84292 於 2025-2-11 00:52 編輯
我見AMD 話:

AMD Ryzen AI 300: XDNA 2 NPU with Up To 50 TOPS.
One of the major feature inclusions  ...
樓主 發表於 2025-2-10 23:29


佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎,
4060 都121TOPS/242、4090 660/1300+(FP16/FP8)。

不過叫做VRAM 可以加到好大,至少行到
但慢就一定好慢,尤其行大模型一秒出3-5隻字咁

其實咁慢同計返個成本,真係不如CLOUD 算數,平過你比電費
作者: 樓主    時間: 2025-2-11 08:55

佢係fp8 先50TOPS
FP16 應該係得返25TOPS

我是但拎2張出黎,
4060 都121TOPS/242、4090 660/1300+(FP1 ...
s84292 發表於 2025-2-11 08:49


TLDR: 結論原來AMD NPU既AI效能比intel Ultra 好.

AMD Zen 4 架构中的 NPU 和 Intel Core Ultra 系列(如 Lunar Lake)的 NPU 在 AI 算力和功能上有显著差异。以下是两者的对比:

---

### 1. **NPU 算力对比**
- **AMD Zen 4 NPU**:
  - 支持 FP16 运算,算力为 **16 TOPS**(Tera Operations Per Second)。
  - 在 Ryzen AI 300 系列(基于 Zen 5 架构)中,NPU 算力进一步提升至 **50 TOPS**(INT8 精度),并支持 Block FP16 混合数据类型,兼顾性能和精度。
- **Intel Core Ultra NPU**:
  - 在 Lunar Lake 架构中,NPU 算力为 **48 TOPS**(INT8 精度),相比上一代(10 TOPS)提升了 4.8 倍。
  - 支持 FP16 运算,但具体算力未明确提及,主要强调 INT8 性能。

**总结**:在 INT8 精度下,Intel Core Ultra 的 NPU 算力(48 TOPS)略低于 AMD Ryzen AI 300 系列(50 TOPS),但远高于 AMD Zen 4 的 16 TOPS。FP16 性能方面,AMD 的 Block FP16 技术更具优势。

---

### 2. **架构与功能**
- **AMD Zen 4 NPU**:
  - 基于 XDNA 架构,支持 Ryzen AI 技术,适用于生成式 AI、实时翻译、视频处理等场景。
  - 在 Ryzen AI 300 系列中,XDNA2 NPU 进一步优化了能效和性能,支持更复杂的 AI 任务。
- **Intel Core Ultra NPU**:
  - 基于 NPU4 架构,专注于低功耗和高能效,适合轻薄本和移动设备。
  - 主要用于 Windows Studio Effects 等轻量级 AI 任务,如摄像头背景虚化、眼神接触等。

**总结**:AMD 的 NPU 更注重高性能 AI 任务,而 Intel 的 NPU 更偏向于低功耗和轻量级应用。

---

### 3. **实际应用场景**
- **AMD Zen 4 NPU**:
  - 支持大语言模型本地推理(如锐龙 AI 助手)、视频剪辑、游戏 AI 优化等。
  - 在生成式 AI 任务中表现优异,如文生图、图生图等。
- **Intel Core Ultra NPU**:
  - 主要用于 Windows 11 的 AI 功能,如 Studio Effects,适合视频会议和轻量级 AI 任务。
  - 目前不支持动态形状模型(如 LLM 推理),功能相对有限。

**总结**:AMD 的 NPU 在复杂 AI 任务中表现更出色,而 Intel 的 NPU 更适合轻量级应用。

---

### 4. **能效与功耗**
- **AMD Zen 4 NPU**:
  - 在 Ryzen AI 300 系列中,能效显著提升,支持高性能 AI 任务的同时保持较低功耗。
- **Intel Core Ultra NPU**:
  - 强调低功耗设计,适合轻薄本和长续航设备。

**总结**:Intel 的 NPU 在能效上更具优势,而 AMD 的 NPU 在性能和能效之间取得了更好的平衡。

---

### 5. **生态与软件支持**
- **AMD Zen 4 NPU**:
  - 与超过 150 家 ISV 合作伙伴合作,支持多种 AI 应用和数据类型。
  - 提供锐龙 AI 助手等本地 AI 工具,支持多种大语言模型。
- **Intel Core Ultra NPU**:
  - 依赖 OpenVINO 框架,支持 Windows Copilot Runtime,但生态相对较新。

**总结**:AMD 的 AI 生态更为成熟,而 Intel 的生态仍在发展中。

---

### 综合对比
| 特性                | AMD Zen 4 NPU               | Intel Core Ultra NPU       |
|---------------------|----------------------------|----------------------------|
| **FP16 算力**       | 16 TOPS(Zen 4)            | 未明确(主要强调 INT8)    |
| **INT8 算力**       | 50 TOPS(Ryzen AI 300)     | 48 TOPS                    |
| **架构**            | XDNA / XDNA2               | NPU4                       |
| **主要应用**        | 生成式 AI、大语言模型       | 轻量级 AI 任务(如 Studio Effects) |
| **能效**            | 高性能与能效平衡            | 低功耗设计                 |
| **生态支持**        | 成熟,支持多种 AI 应用      | 依赖 OpenVINO,生态较新    |

---

### 结论
- 如果你需要高性能 AI 任务(如生成式 AI、大语言模型),AMD Zen 4 和 Ryzen AI 300 系列的 NPU 是更好的选择。
- 如果你更注重低功耗和轻量级 AI 应用(如视频会议优化),Intel Core Ultra 的 NPU 更适合。

两者各有优势,具体选择取决于你的使用场景和需求。
作者: s84292    時間: 2025-2-11 08:56

本帖最後由 s84292 於 2025-2-11 00:57 編輯
又係果句, --> M3: 18TOPs, M4: 38TOPs, 係基於行乜嘢模型而得出的數字?
我呢幾日不停Research 先知, 原 ...
artai 發表於 2025-2-9 13:38


邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM 行普通LINUX PC 都可以CPU運行架
買粒7980X +512GB RAM行唔好?CPU快3-4倍

純CPU 10分鐘都答唔到你一題簡單問題
作者: 樓主    時間: 2025-2-11 09:09



https://www.techbang.com/posts/116883-amd-tech-day-2024-xdna-2
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能,以及接近50 TOPS的Block FP16資料類型AI運算效能。
作者: s84292    時間: 2025-2-11 09:29

本帖最後由 s84292 於 2025-2-11 01:32 編輯
Ryzen AI 300系列行動版處理器內建的NPU能提供50 TOPS的INT8資料類型AI運算效能,以及接近50 TOPS的Bloc ...
樓主 發表於 2025-2-11 01:09


理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試,HX375 VS 258V,都係單純比IGPU,冇NPU份

作者: artai    時間: 2025-2-11 09:50

邊度可以買到192GB RAM的MACBOOK PRO

MACBOOK 肯定用到GPU
剩CPU我洗乜買MAC 玩128GB RAM
隻隻LLM ...
s84292 發表於 2025-2-11 08:56



唔好意思, 我撈亂咗, 好似MacBook 只有128GB Maximum, Mac Stdio Ultra 或 Mac Pro先有192GB, 好貴, 好很貴...
作者: javacomhk    時間: 2025-2-11 09:55

本帖最後由 javacomhk 於 2025-2-11 02:19 編輯

Mac 雖然有多GPU Cores 同128GB RAM  都唔夠行架,因為仲要支援加速運算先得。
依家的 LLM Model 有MPX 版支援Mac GPU 推理加速,但本身的FP32 性能及內存帶寬仍不夠 Nvidia GPU 快。
訓練模型仍是  Nvidia GPU 的天下,因為佢CUDA支援嘅加速運算係 TensorFlow 及 PyTorch 係最全面。

參考DeepSeek 的回答
虽然M4MAX TOPS数值未直接提供,但可以参考其FP32(单精度浮点运算)性能。根据其架构和频率,M4 Max GPU的理论FP32性能约为18.4 TFLOPS(每秒万亿次浮点运算)。

M4 Max 與 RTX4090比較:
計算性能:RTX 4090 的理論 FP32 性能為 82.6 TFLOPS,遠高於 M4 Max 的 18.4 TFLOPS。這使得 RTX 4090 在訓練和推理大型模型時更具優勢。
內存帶寬:RTX 4090 的內存帶寬為 1010 GB/s,而 M4 Max 為 546 GB/s,這使得 RTX 4090 在處理大規模數據時更高效。
功耗與便攜性:M4 Max 的功耗遠低於 RTX 4090,適合移動開發和低功耗場景,而 RTX 4090 則需要更高的電源和散熱支持。
作者: 樓主    時間: 2025-2-13 09:55

理論無限好,首先要起得郁NPU行LLM

AMD自己做的LLM 對比測試,HX375 VS 258V,都係單純比IGPU,冇NPU份
...
s84292 發表於 2025-2-11 09:29

岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek:最高支持70B参数
https://news.mydrivers.com/1/1029/1029951.htm

如果是顶级的锐龙AI MAX+ 395处理器,搭配64GB、128GB内存,最高可以支持DeepSeek-R1-Distill-Llama-70B,注意64GB内存的话需要将可变显存设置为高。

作者: s84292    時間: 2025-2-13 10:04

本帖最後由 s84292 於 2025-2-13 02:23 編輯
岩岩尋日有實戰:

AMD锐龙AI处理器轻松本地跑DeepSeek:最高支持70B参数


如果是顶级的锐龙AI MAX+ 395 ...
樓主 發表於 2025-2-13 01:55


咪又係GPU嘛,依家講個NPU
我除左訓練做本地,我用都係租算數
(1300 TOPS FP8我都覺得慢,50TOPS你爬上下文要幾耐?)
NPU做下輕模型加速,語音果D就可以,主打都係慳電

租D無審查的供應商
當然話就話冇,但其實有D問題都係會拒絕你,畢竟都係破解,但本地部署一樣會咁~因為訓練階段就污染左
同要有WEB 搜尋強化的,本地部署都好難搞得快
除非真係好大私隱需求就沒辦法
(671B:此事件在中国大陆的公开讨论仍受法律限制,相关历史记录可通过境外资料查证。)
[attach]2464707[/attach]
作者: hkocx    時間: 2025-2-18 22:55

我見AMD 出左話有特別LLM 俾AMD 用
其實係咪同mac 一樣,都要重新編譯時快?

via HKEPC IR 5.1.14 - iOS(5.1.1F)
作者: hkguy2020    時間: 2025-2-22 07:06

我用 Orange Pi 5 Max 16gb, Ubuntu 24.04, 有 NPU (6 TOPS), local run Llama 8b (rkllm) 行到 NPU, 有 45 tokens per second

[attach]2466016[/attach]





歡迎光臨 電腦領域 HKEPC Hardware (https://h1.hkepc.com/forum/) Powered by Discuz! 7.2