llama-server 参数手册

 

启动脚本

27B

llama-server --port 8080 -m ~/storage/GGUF/Huihui-Qwen3.5-27B-Claude-4.6-Opus-abliterated-Q4_K_M.gguf --host 0.0.0.0 --ctx-size 102400 --n-gpu-layers 99 --tensor-split 1,1 --flash-attn on --cache-type-k q8_0 --cache-type-v q8_0 --parallel 2 --threads 12 --batch-size 256 --ubatch-size 256 --temp 0.3 --min-p 0.05 --repeat-penalty 1.1 --timeout 1200 --api-key BigReasonModelKey2026-24B --verbose --log-file ~/Qwen3.5-27B.log

核心参数总览(通用)

https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md 

分类参数作用说明
模型加载-m / --model 模型路径必填,指定 GGUF 模型路径
-ngl / --n-gpu-layers 99全部层卸载到 GPU(提速、省内存)
--tensor-split 1,1双显卡平均分配算力(24G+24G)
--fa / --flash-attn on 长文本优化,大幅省显存
--mlock锁死在物理内存,禁止交换到 Swap硬盘,避免卡顿
--cache-type-k q8_0 --cache-type-v q8_0KV缓存量化,可以进一步降低到q4,能降低内存需求
--cache-type-k q8_0KV 缓存量化,省 30%+ 显存
服务配置--host 0.0.0.0允许局域网/内网穿透访问
--port 8080多模型必须用不同端口
--api-key xxxxxxxxx 接口安全验证
--cors--cors-allow-origin "*"允许 跨域 Dify/FastGPT 调用
--timeout 600大模型长文本防超时
性能并发-c / --ctx-size 32768上下文窗口,总上下文,会被槽位均分,应=预期上下文*槽位
-np / --parallel 2并发请求数
--cont-batching连续批处理,提升并发效率
--batch-size 128 --ubatch-size 128批次减小后,会降低内存需求,但运算变慢一些
--threads 8CPU 线程(物理核心数最佳)
生成质量--temp 0.1代码用低温,更严谨
--min-p 0.05防胡言乱语
--repeat-penalty 1.1防重复输出
辅助参数--log-file xxx.log日志持久化到文件,避免终端丢失
--log-timestamps日志带时间戳,方便定位
--log-prefix "[端口]"区分两个模型的日志
--verbose输出完整对话请求 / 响应、推理细节
--metrics启用 Prometheus 指标接口(看队列长度、请求数)
--slots启用槽位状态接口(看每个槽位是否空闲 / 处理中)