算力显卡

V100 16G 双卡:llama.cpp优化加载 Qwen3.6-35B-A3B 10万长度2队列,推理5万长度的请求,吞吐 70t/s

4060 8G 单卡:llama.cpp优化加载 Qwen3.5-9B 5万长度1队列,推理3万长度的请求,吞吐 39t/s