本帖最後由 raylee 於 2025-2-5 11:51 編輯
chiplet 都仲係AI CPU丫. 名jer.
我係關心有100 TOPS既AI CPU 唔知會唔會2,3代之後就有 ...
樓主 發表於 2025-2-4 21:48


gb10 : cpu + gpu + ...
https://www.cool3c.com/article/232529

local LLM 過多1兩年再討論

TOP

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?

TOP

其實50TOPS , 100 TOPS, 係可以生成幾多 tokens per second?
樓主 發表於 2025-2-5 11:36


https://www.youtube.com/watch?v=0EInsMyH87Q

TOP

本帖最後由 javacomhk 於 2025-2-10 08:19 編輯

目前,Local LLM 大多數都是在GPU 上運行的,而家AI PC 講緊個的4~50TOPS 嘅係講緊 NPU (唔係GPU)而且只係4bits。而大多數開源 LLM 推理框架(如 GGUF 或 vLLM)尚未直接支援 NPU。

1. NPU 是否支援 LLM?
NPU 是專門針對 AI 工作負載設計的,特別適用於 邊緣設備 和 行動裝置晶片(如 Qualcomm Hexagon、Apple Neural Engine、華為 Ascend)。
許多 NPU 主要用於 推理(Inference) 而非 訓練(Training) 大型模型。
是否支援 FP16、INT8 或其他低精度運算 會顯著影響運行效能。

2. DeepSeek-R1 的硬體需求
DeepSeek-R1 例如 7B 參數 的模型,運行時至少需要 16GB VRAM 才能在 GPU 上順暢執行。若在 CPU 上運行,則需要高性能多核心處理器,並支援 AVX512 或 AMX 指令集。許多 NPU 可能 缺乏針對 LLM 的最佳化軟體支援,影響運行效率。

如果要求只運行1.5B 參數的模型,手機也可以,不用PC。

TOP

樓主睇下呢個, 或者解答到您的問題:

TOP

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 7940HS
64GB RAM
Windows 11 Pro 24H2

DeepSeek R1 14B,係全CPU去RUN AI的情況下都行到, 叫佢寫個Hello World程式, 大約5.08 tok/sec... 慢咗D, 冇Graphic 咭加持都行到, 已經算係咁! 大家有心想玩放膽試咗先

TOP

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到,或者叫行到都無用。

TOP

嚴格來講5.08 tokens/s 嘅 hello world 係叫行唔到,或者叫行到都無用。
javacomhk 發表於 2025-2-6 17:45



要多少tokens 先叫okay?

TOP

本帖最後由 javacomhk 於 2025-2-6 12:13 編輯

由 DeepSeek 答你
問: 本地部署的大語言模型要有多少 tokens per second 先叫 okay?

答:本地部署的大语言模型的性能评估中,"tokens per second"(每秒处理的token数)是一个关键指标,但“okay”的标准取决于具体应用场景和需求。以下是一些参考因素:

### 1. **应用场景**
   - **实时交互**(如聊天机器人):通常需要 **20-50 tokens per second** 才能保证流畅体验。
   - **批量处理**(如文本生成、翻译):速度要求较低,**5-20 tokens per second** 可能已足够。

### 2. **模型规模**
   - **小型模型**(如GPT-2):在普通硬件上可以达到 **50-100 tokens per second**。
   - **大型模型**(如GPT-3):可能需要高端GPU,速度在 **10-30 tokens per second** 之间。

### 3. **硬件配置**
   - **高端GPU**(如NVIDIA A100):可显著提升处理速度。
   - **消费级GPU**(如NVIDIA RTX 3090):速度较慢,但仍能满足一般需求。

### 4. **延迟与吞吐量**
   - **低延迟**:实时应用需要更快的响应速度。
   - **高吞吐量**:批量处理更注重总体处理能力。

### 5. **用户体验**
   - 如果用户能接受轻微延迟,**10-20 tokens per second** 可能已足够。
   - 对延迟敏感的场景,可能需要 **30+ tokens per second**。

### 总结
- **实时交互**:至少 **20-50 tokens per second**。
- **批量处理**:**5-20 tokens per second** 可能已足够。

具体标准需根据实际需求和硬件条件调整。

問:如果是編程或代碼分析呢?

答:在编程或代码分析场景中,大语言模型的性能需求与通用文本处理有所不同,主要体现在对精确性、上下文理解以及响应速度的要求上。以下是针对编程或代码分析的性能考量:

---

### 1. **应用场景**
   - **代码补全**:需要低延迟,通常要求 **20-50 tokens per second** 以提供实时建议。
   - **代码分析**(如错误检测、代码优化):对速度要求较低,**5-20 tokens per second** 可能已足够。
   - **代码生成**:根据生成代码的长度和复杂度,速度在 **10-30 tokens per second** 之间较为合适。

---

### 2. **性能需求**
   - **低延迟**:编程工具(如IDE插件)需要快速响应,延迟应控制在 **100-300毫秒** 以内。
   - **高准确性**:代码分析需要模型深入理解上下文,速度可以稍慢,但准确性至关重要。
   - **长上下文支持**:编程任务通常需要处理较长的代码文件,因此模型应能高效处理长上下文。

---

### 3. **硬件配置**
   - **高端GPU**(如NVIDIA A100):适合需要快速响应的场景,如代码补全。
   - **消费级GPU**(如NVIDIA RTX 3090):适合代码生成或分析任务,速度稍慢但成本较低。
   - **CPU部署**:对于轻量级任务或小型模型,CPU也可胜任,但速度较慢(通常 **1-5 tokens per second**)。

---

### 4. **具体指标**
   - **代码补全**:至少 **20-50 tokens per second**,延迟低于 **300毫秒**。
   - **代码生成**:**10-30 tokens per second**,延迟可接受 **1-2秒**。
   - **代码分析**:**5-20 tokens per second**,延迟可接受 **2-5秒**。

---

### 5. **模型选择**
   - **小型模型**(如CodeGen-350M):适合本地部署,速度较快,但能力有限。
   - **中型模型**(如CodeGen-2B):平衡速度与性能,适合大多数编程任务。
   - **大型模型**(如Codex或GPT-4):能力更强,但需要更高硬件配置。

---

### 6. **用户体验**
   - 如果用于IDE集成,响应速度是关键,延迟应尽量低。
   - 如果是离线代码分析工具,速度可以稍慢,但需要更高的准确性和上下文理解能力。

---

### 总结
- **代码补全**:**20-50 tokens per second**,延迟低于 **300毫秒**。
- **代码生成**:**10-30 tokens per second**,延迟可接受 **1-2秒**。
- **代码分析**:**5-20 tokens per second**,延迟可接受 **2-5秒**。

具体性能需求需结合实际应用场景和硬件条件进行调整。如果对延迟要求较高,建议使用高端GPU并优化模型推理过程。

TOP

另外, 好奇心作祟, 係自己部Mini PC 下載咗LM Studio, 玩DeepSeek R1:
Minisforum UM790Pro
AMD Ryzen9 794 ...
artai 發表於 2025-2-6 13:41


多謝你, 你講既就係我需要既野.
睇返 7940HS 既NPU係
Performance
Up to 10 TOPS
   

如果下代有50 TOPS... 咁應該勁好多

TOP