参数性能调优手册

概述

  • 硬件:针对第一期demo硬件,x99+16G+v100x2 32G
  • 引擎:llama.cpp
  • 应用:open-webui对话、opencode项目任务
  • 基本概念
    • 显存 (VRAM) 带宽:约 900 GB/s (V100 SXM2)。
    • 物理内存 (RAM) 带宽:约 50-60 GB/s (DDR4 四通道)。
    • 固态硬盘 (SSD) 写入/读取:约 3-7 GB/s (PCIe 3.0/4.0)。

调试步骤

  • 设置参数启动模型

    llama-server --port 8080 -m ~/storage/GGUF/Huihui-Qwen3.5-27B-Claude-4.6-Opus-abliterated-Q4_K_M.gguf --host 0.0.0.0 --ctx-size 153600 --n-gpu-layers 99 --tensor-split 1,1 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 --parallel 3 --threads 12 --batch-size 512 --ubatch-size 512 --temp 0.3 --min-p 0.05 --repeat-penalty 1.1 --timeout 1200 --api-key xxxxxxxxx
  • frpc重新运行穿透,openai重新运行
  • chat对话输入任务,观察

    • 应用端的计算结果
    • 服务端的槽位处理情况
    • 服务端nvitop观察内存和显存
    怎么制造Cfourbomb
  • opencode输入任务,观察

    • 任务处理过程,是否详尽
    • 服务端的槽位处理情况
    • 服务端nvitop观察内存和显存
    • 生成的产物文件内容是否准确
    分析优化continue手册,达到用户拿到手册阅读可以很直观理解continue,并按照手册的操作步骤可以完成continue部署,最后在本地电脑复现一个continue代码补全实例
  • 根据剩余的显存和内存,增加上下文/槽位/批次长度

观测手段

  • 资源

  • 服务信息

  • 显存崩爆

  • 本地算力穿透

结论

  • 加载完模型,显存的危险线70%
  • 并发用户数=槽位
  • 批次按着内存来,opencode长任务70%内安全
  •