llama-server 模型加载手册

适配说明

硬件环境:双V100(共32G显存)、X99主板CPU、16G内存、60G固态(存放常用模型,提升加载速度)、2T机械硬盘(备份模型);

模型路径:统一为 ~/storage/GGUF/(60G固态路径),备份路径可设为 ~/backup/GGUF/(2T机械路径),可按需替换;

脚本说明:按“推理大模型、推理小模型、coder代码补全模型、embedding向量模型”4类分组,包含用户指定全部模型,同类模型端口连续不冲突。核心适配“1个推理大模型+1个推理小模型+1个coder模型+1个embedding模型”组合,单组显存总占用控制在28-30G,预留冗余;可单独复制执行单个模型,也可整合为.sh批处理脚本(建议单组组合启动,避免显存溢出)。

一、推理大模型

llama-server -m ~/storage/GGUF/Qwen3.5-24B-A3B-Claude-Opus-Gemini-3.1-Pro-Reasoning-Distilled-heretic.i1-Q4_K_M.gguf \
--host 0.0.0.0 --port 8080 \  # 绑定所有网卡,端口8080(推理大模型起始端口)
--ctx-size 20480 \  # 上下文窗口大小,适配24B模型长文本推理
--n-gpu-layers 99 \  # 最大化将模型层加载到GPU,提升推理速度
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化推理效率
--mlock \  # 锁定内存,避免模型交换到磁盘,防止推理卡顿
--parallel 2 --threads 12 \  # 并行推理数2,线程数12(适配X99 CPU性能)
--temp 0.3 --min-p 0.05 --repeat-penalty 1.1 \  # 低温度保证推理准确性,抑制重复文本
--cors --timeout 600 \  # 允许跨域访问,超时时间10分钟
--api-key BigReasonModelKey2026-24B  # 模型访问API密钥,按需修改

二、推理小模型

llama-server -m ~/storage/GGUF/Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distill-heretic-v3.i1-Q4_K_M.gguf \
--host 0.0.0.0 --port 8084 \  # 端口8084
--ctx-size 20480 \  # 上下文窗口16384,支持长文本推理
--n-gpu-layers 99 \  # 全部模型层加载到GPU
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化推理效率
--mlock \  # 锁定内存
--parallel 3 --threads 12 \  # 并行数3,线程数12,提升推理速度
--temp 0.3 --min-p 0.05 --repeat-penalty 1.1 \  # 保证推理质量
--cors --timeout 600 \  # 跨域和超时设置
--api-key BigReasonModelKey2026-4B  # 专属API密钥

三、coder代码补全模型

llama-server -m ~/storage/GGUF/Qwen3.5-Coder-python-4B.Q3_K_S.gguf \
--host 0.0.0.0 --port 8086 \  # 端口8086,代码模型起始端口
--ctx-size 16384 \  # 上下文窗口
--n-gpu-layers 99 \  # 全部模型层加载到GPU
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化缓存,Q8是黄金平衡点
--mlock --parallel 2 --threads 10 \  # 锁定内存,并行数3,线程数10
--temp 0.1 --min-p 0.05 --repeat-penalty 1.1 \  # 低温度,保证代码准确性和规范性
--cors --timeout 180 \  # 超时时间3分钟,适配代码快速补全
--api-key CoderModelKey2026-Qwen4B  # 专属API密钥

四、embedding向量模型

llama-server -m ~/storage/GGUF/Qwen3-Embedding-0.6B-Q4_K_M-imat.gguf \
--host 0.0.0.0 --port 8092 \  # 端口
--ctx-size 8192 \  # 上下文长度
--n-gpu-layers 99 \  # 模型层全加载到显卡
--tensor-split 1,1 \  # 显存等比拆分
--flash-attn --mlock \  # 启用后锁定内存
--parallel 2 --threads 8 \  # 高并行数,提升向量生成吞吐量
--temp 0.0 --min-p 0.05 --repeat-penalty 1.0 \  # 向量生成无随机性,保证一致性
--cors --timeout 120 \  # 超时2分钟
--api-key EmbeddingModelKey2026-Qwen0.6B  # 专属API密钥