算力显卡

V100 16G 双卡：llama.cpp优化加载 Qwen3.6-35B-A3B 10万长度2队列，推理5万长度的请求，吞吐 70t/s

4060 8G 单卡：llama.cpp优化加载 Qwen3.5-9B 5万长度1队列，推理3万长度的请求，吞吐 39t/s