本帖最後由 kennylam777 於 2026-6-9 11:54 編輯
我有部home lab有兩張RTX3090+NVLink, 之前就用vllm嘅, 而家換咗用llama.cpp因為Q8慳VRAM過FP8, 主要係用黎試48GB先行到嘅solution
另外我desktop用RTX5090, 平時試新model都會用LMStudio快速試同download, 但認真嘅話起碼用llama.cpp因為可以仔細校parameters, vllm雖然可以用docker行到但起動太慢, 係試vllm deployment先會用, 平時llama.cpp大把quant揀好用啲
我會用Qwen3.6 27B Q5/Gemma4 31B Q4配llama.cpp響5090上面幫手寫吓code, agent係Github Copilot或者Claude Code, 因為Codex/Antigravity subscriptions都係有機會用爆, 如果debug到中間爭少少響度罰企就冇癮, Local係呢啲時候係幫到少少手
Gemma4 26B好少用因為唔夠31B叻, Qwen3.6 35B會用多少少純粹係快, 但始終智力同Q 27B/G 31B有差距 |