依家新出既AI CPU好多都有4~50 TOPS, 夠唔夠行local LLM?

raylee

進階會員

Rank: 3 Rank: 3 Rank: 3

11^# 跳轉到 »

發表於 2025-2-5 00:02 | 只看該作者

本帖最後由 raylee 於 2025-2-5 11:51 編輯

chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有 ...
樓主發表於 2025-2-4 21:48

gb10 : cpu + gpu + ...
https://www.cool3c.com/article/232529

local LLM 過多1兩年再討論

TOP

樓主

中級會員

Rank: 2 Rank: 2

12^#

發表於 2025-2-5 11:36 | 只看該作者

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?

TOP

raylee

進階會員

Rank: 3 Rank: 3 Rank: 3

13^#

發表於 2025-2-5 12:32 | 只看該作者

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?
樓主發表於 2025-2-5 11:36

https://www.youtube.com/watch?v=0EInsMyH87Q

TOP

javacomhk

進階會員

Rank: 3 Rank: 3 Rank: 3

14^#

發表於 2025-2-5 14:14 | 只看該作者

本帖最後由 javacomhk 於 2025-2-10 08:19 編輯

目前，Local LLM 大多數都是在GPU 上運行的，而家AI PC 講緊個的4~50TOPS 嘅係講緊 NPU (唔係GPU)而且只係4bits。而大多數開源 LLM 推理框架（如 GGUF 或 vLLM）尚未直接支援 NPU。

1. NPU 是否支援 LLM？
NPU 是專門針對 AI 工作負載設計的，特別適用於邊緣設備和行動裝置晶片（如 Qualcomm Hexagon、Apple Neural Engine、華為 Ascend）。
許多 NPU 主要用於推理（Inference）而非訓練（Training）大型模型。
是否支援 FP16、INT8 或其他低精度運算會顯著影響運行效能。

2. DeepSeek-R1 的硬體需求
DeepSeek-R1 例如 7B 參數的模型，運行時至少需要 16GB VRAM 才能在 GPU 上順暢執行。若在 CPU 上運行，則需要高性能多核心處理器，並支援 AVX512 或 AMX 指令集。許多 NPU 可能缺乏針對 LLM 的最佳化軟體支援，影響運行效率。

如果要求只運行1.5B 參數的模型，手機也可以，不用PC。

TOP

artai

中級會員

Rank: 2 Rank: 2

15^#

發表於 2025-2-6 08:27 | 只看該作者

樓主睇下呢個, 或者解答到您的問題:

TOP

artai

中級會員

Rank: 2 Rank: 2

16^#

發表於 2025-2-6 13:41 | 只看該作者

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 7940HS
64GB RAM
Windows 11 Pro 24H2

DeepSeek R1 14B,係全CPU去RUN AI的情況下都行到, 叫佢寫個Hello World程式, 大約5.08 tok/sec... 慢咗D, 冇Graphic 咭加持都行到, 已經算係咁! 大家有心想玩放膽試咗先

TOP

javacomhk

進階會員

Rank: 3 Rank: 3 Rank: 3

17^#

發表於 2025-2-6 17:45 | 只看該作者

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到，或者叫行到都無用。

TOP

artai

中級會員

Rank: 2 Rank: 2

18^#

發表於 2025-2-6 19:59 | 只看該作者

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到，或者叫行到都無用。
javacomhk 發表於 2025-2-6 17:45

要多少tokens 先叫okay?

TOP

javacomhk

進階會員

Rank: 3 Rank: 3 Rank: 3

19^#

發表於 2025-2-6 20:12 | 只看該作者

本帖最後由 javacomhk 於 2025-2-6 12:13 編輯

由 DeepSeek 答你
問：本地部署的大語言模型要有多少 tokens per second 先叫 okay?

答：本地部署的大语言模型的性能评估中，"tokens per second"（每秒处理的token数）是一个关键指标，但“okay”的标准取决于具体应用场景和需求。以下是一些参考因素：

### 1. **应用场景**
- **实时交互**（如聊天机器人）：通常需要 **20-50 tokens per second** 才能保证流畅体验。
- **批量处理**（如文本生成、翻译）：速度要求较低，**5-20 tokens per second** 可能已足够。

### 2. **模型规模**
- **小型模型**（如GPT-2）：在普通硬件上可以达到 **50-100 tokens per second**。
- **大型模型**（如GPT-3）：可能需要高端GPU，速度在 **10-30 tokens per second** 之间。

### 3. **硬件配置**
- **高端GPU**（如NVIDIA A100）：可显著提升处理速度。
- **消费级GPU**（如NVIDIA RTX 3090）：速度较慢，但仍能满足一般需求。

### 4. **延迟与吞吐量**
- **低延迟**：实时应用需要更快的响应速度。
- **高吞吐量**：批量处理更注重总体处理能力。

### 5. **用户体验**
- 如果用户能接受轻微延迟，**10-20 tokens per second** 可能已足够。
- 对延迟敏感的场景，可能需要 **30+ tokens per second**。

### 总结
- **实时交互**：至少 **20-50 tokens per second**。
- **批量处理**：**5-20 tokens per second** 可能已足够。

具体标准需根据实际需求和硬件条件调整。

問：如果是編程或代碼分析呢？

答：在编程或代码分析场景中，大语言模型的性能需求与通用文本处理有所不同，主要体现在对精确性、上下文理解以及响应速度的要求上。以下是针对编程或代码分析的性能考量：

---

### 1. **应用场景**
- **代码补全**：需要低延迟，通常要求 **20-50 tokens per second** 以提供实时建议。
- **代码分析**（如错误检测、代码优化）：对速度要求较低，**5-20 tokens per second** 可能已足够。
- **代码生成**：根据生成代码的长度和复杂度，速度在 **10-30 tokens per second** 之间较为合适。

---

### 2. **性能需求**
- **低延迟**：编程工具（如IDE插件）需要快速响应，延迟应控制在 **100-300毫秒** 以内。
- **高准确性**：代码分析需要模型深入理解上下文，速度可以稍慢，但准确性至关重要。
- **长上下文支持**：编程任务通常需要处理较长的代码文件，因此模型应能高效处理长上下文。

---

### 3. **硬件配置**
- **高端GPU**（如NVIDIA A100）：适合需要快速响应的场景，如代码补全。
- **消费级GPU**（如NVIDIA RTX 3090）：适合代码生成或分析任务，速度稍慢但成本较低。
- **CPU部署**：对于轻量级任务或小型模型，CPU也可胜任，但速度较慢（通常 **1-5 tokens per second**）。

---

### 4. **具体指标**
- **代码补全**：至少 **20-50 tokens per second**，延迟低于 **300毫秒**。
- **代码生成**：**10-30 tokens per second**，延迟可接受 **1-2秒**。
- **代码分析**：**5-20 tokens per second**，延迟可接受 **2-5秒**。

---

### 5. **模型选择**
- **小型模型**（如CodeGen-350M）：适合本地部署，速度较快，但能力有限。
- **中型模型**（如CodeGen-2B）：平衡速度与性能，适合大多数编程任务。
- **大型模型**（如Codex或GPT-4）：能力更强，但需要更高硬件配置。

---

### 6. **用户体验**
- 如果用于IDE集成，响应速度是关键，延迟应尽量低。
- 如果是离线代码分析工具，速度可以稍慢，但需要更高的准确性和上下文理解能力。

---

### 总结
- **代码补全**：**20-50 tokens per second**，延迟低于 **300毫秒**。
- **代码生成**：**10-30 tokens per second**，延迟可接受 **1-2秒**。
- **代码分析**：**5-20 tokens per second**，延迟可接受 **2-5秒**。

具体性能需求需结合实际应用场景和硬件条件进行调整。如果对延迟要求较高，建议使用高端GPU并优化模型推理过程。

TOP

樓主

中級會員

Rank: 2 Rank: 2

20^#

發表於 2025-2-6 21:02 | 只看該作者

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41

多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS

如果下代有50 TOPS... 咁應該勁好多

TOP

[收藏此主題] [關注此主題的新回覆]

[通過 QQ、MSN 分享給朋友]