V100 16G 双卡:llama.cpp优化加载 Qwen3.6-35B-A3B 10万长度2队列,推理5万长度的请求,吞吐 70t/s
4060 8G 单卡:llama.cpp优化加载 Qwen3.5-9B 5万长度1队列,推理3万长度的请求,吞吐 39t/s
V100 16G 双卡:llama.cpp优化加载 Qwen3.6-35B-A3B 10万长度2队列,推理5万长度的请求,吞吐 70t/s
4060 8G 单卡:llama.cpp优化加载 Qwen3.5-9B 5万长度1队列,推理3万长度的请求,吞吐 39t/s