双卡 VRAM 失衡分析：Qwen3.6-35B-A3B on 2×V100

环境

项	CUDA0	CUDA1	差距
模型权重（projected）	10206 MiB	9696 MiB	+510 MiB
compute buffer	2073 MiB	1410 MiB	+663 MiB
SSM 循环状态	67 MiB	59 MiB	+8 MiB
KV cache（空负载）	0 MiB	0 MiB	0 MiB
CUDA 上下文开销	~15 MiB	0 MiB	~15 MiB
合计（实测 nvitop）	13924 MiB	12728 MiB	+1196 MiB

实际差距 ~1.17 GiB（13924 - 12728），与日志中的 projected 数据完全对得上。

sched_reserve 分配计算图 scratch buffer 时，CUDA0 作为 pipeline 第一卡需要更大工作空间：

这是 pipeline parallelism 的固有特性，第一卡永远比后续卡多这些开销。

CUDA0 多分到 1 层（21 vs 20），每层权重 ~510 MiB @ Q4_K。

注意：之前怀疑是 token_embd.weight（~1GB）占了 0 卡，日志实际显示它走了 CPU（CUDA_Host 不可用），不在 GPU 上。

CUDA0 有 ~663 MiB 的 compute buffer 固有开销，因此需要把更多层倾斜到 CUDA1 来平衡：

# 尝试 0.7,1.3   →  0卡 ~28% 层，1卡 ~72% 层
tensor-split = 0.7,1.3

# 如果仍然不平衡，继续加大 1 卡比例：
tensor-split = 0.5,1.5

预期效果：CUDA1 多扛 ~7-8 层 MoE 层后，两卡显存使用趋于相等，单卡能从 ~2220 MiB 空闲释放到各自 ~2800+ MiB。