llama-server 参数手册

适配：Qwen3.5 系列大模型 + 向量模型，国内环境优化，开箱即用

一、核心参数总览（通用）

分类	参数	作用说明
模型加载	`-m / --model 模型路径`	必填，指定 GGUF 模型路径
	`-ngl / --n-gpu-layers 99`	全部层卸载到 GPU（提速、省内存）
	`--tensor-split 1,1`	双显卡平均分配算力（24G+24G）
	`--fa / --flash-attn on`	长文本优化，大幅省显存
	`--mlock`	禁止交换到 Swap，避免卡顿
	`--cache-type-k q8_0`	KV 缓存量化，省 30%+ 显存
服务配置	`--host 0.0.0.0`	允许局域网/内网穿透访问
	`--port 8080`	多模型必须用不同端口
	`--api-key xxxxxxxxx`	接口安全验证
	`--cors--cors-allow-origin "*"`	允许跨域 Dify/FastGPT 调用
	`--timeout 600`	大模型长文本防超时
性能并发	`-c / --ctx-size 32768`	上下文窗口（代码模型尽量大）
	`-np / --parallel 2`	并发请求数
	`--cont-batching`	连续批处理，提升并发效率
	`--threads 8`	CPU 线程（物理核心数最佳）
生成质量	`--temp 0.1`	代码用低温，更严谨
	`--min-p 0.05`	防胡言乱语
	`--repeat-penalty 1.1`	防重复输出
辅助参数	`--log-file xxx.log`	日志持久化到文件，避免终端丢失
	`--log-timestamps`	日志带时间戳，方便定位
	`--log-prefix "[端口]"`	区分两个模型的日志
	`--verbose`	输出完整对话请求 / 响应、推理细节
	`--metrics`	启用 Prometheus 指标接口（看队列长度、请求数）
	`--slots`	启用槽位状态接口（看每个槽位是否空闲 / 处理中）

二、示例

1. Qwen3.5-30B-Coder 代码大模型（高性能版）

llama-server \
-m ~/storage/GGUF/Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf \
--host 0.0.0.0 --port 8080 \
--ctx-size 32768 \
--n-gpu-layers 99 \
--tensor-split 1,1 \
--flash-attn \
--cache-type-k q8_0 \
--mlock \
--parallel 2 \
--threads 12 \
--temp 0.1 \
--min-p 0.05 \
--repeat-penalty 1.1 \
--cors \
--timeout 600 \
--api-key MySecureKey2025

2. Qwen3.5-4B 通用模型（平衡速度与效果）

llama-server \
-m ~/storage/GGUF/Qwen3.5-4B-Instruct-Q4_K_M.gguf \
--host 0.0.0.0 --port 8081 \
--ctx-size 16384 \
--n-gpu-layers 99 \
--tensor-split 1,1 \
--flash-attn \
--cache-type-k q8_0 \
--mlock \
--parallel 4 \
--threads 12 \
--temp 0.3 \
--min-p 0.05 \
--repeat-penalty 1.05 \
--cors \
--timeout 300 \
--api-key MySecureKey2025

3. Qwen3.5-2B-Coder 轻量代码模型（超低资源）

llama-server \
-m ~/storage/GGUF/Qwen3.5-2B-Coder-Instruct-Q4_K_M.gguf \
--host 0.0.0.0 --port 8082 \
--ctx-size 16384 \
--n-gpu-layers 99 \
--tensor-split 1,1 \
--flash-attn \
--cache-type-k q8_0 \
--mlock \
--parallel 8 \
--threads 10 \
--temp 0.1 \
--min-p 0.05 \
--repeat-penalty 1.1 \
--cors \
--timeout 120 \
--api-key MySecureKey2025

4. Nomic-Embed 向量模型（RAG 知识库专用）

llama-server \
-m ~/storage/GGUF/nomic-embed-text-v1.5-Q4_K_M.gguf \
--host 0.0.0.0 --port 8083 \
--ctx-size 2048 \
--n-gpu-layers 99 \
--tensor-split 1,1 \
--embedding \
--pooling cls \
--mlock \
--threads 10 \
--cors \
--timeout 120 \
--api-key MySecureKey2025