llama-server 模型加载手册

适配说明

硬件环境：双V100（共32G显存）、X99主板CPU、16G内存、60G固态（存放常用模型，提升加载速度）、2T机械硬盘（备份模型）；

模型路径：统一为 ~/storage/GGUF/（60G固态路径），备份路径可设为 ~/backup/GGUF/（2T机械路径），可按需替换；

脚本说明：按“推理大模型、推理小模型、coder代码补全模型、embedding向量模型”4类分组，包含用户指定全部模型，同类模型端口连续不冲突。核心适配“1个推理大模型+1个推理小模型+1个coder模型+1个embedding模型”组合，单组显存总占用控制在28-30G，预留冗余；可单独复制执行单个模型，也可整合为.sh批处理脚本（建议单组组合启动，避免显存溢出）。

一、推理大模型

llama-server -m ~/storage/GGUF/Qwen3.5-24B-A3B-Claude-Opus-Gemini-3.1-Pro-Reasoning-Distilled-heretic.i1-Q4_K_M.gguf \
--host 0.0.0.0 --port 8080 \  # 绑定所有网卡，端口8080（推理大模型起始端口）
--ctx-size 20480 \  # 上下文窗口大小，适配24B模型长文本推理
--n-gpu-layers 99 \  # 最大化将模型层加载到GPU，提升推理速度
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化推理效率
--mlock \  # 锁定内存，避免模型交换到磁盘，防止推理卡顿
--parallel 2 --threads 12 \  # 并行推理数2，线程数12（适配X99 CPU性能）
--temp 0.3 --min-p 0.05 --repeat-penalty 1.1 \  # 低温度保证推理准确性，抑制重复文本
--cors --timeout 600 \  # 允许跨域访问，超时时间10分钟
--api-key BigReasonModelKey2026-24B  # 模型访问API密钥，按需修改

二、推理小模型

llama-server -m ~/storage/GGUF/Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distill-heretic-v3.i1-Q4_K_M.gguf \
--host 0.0.0.0 --port 8084 \  # 端口8084
--ctx-size 20480 \  # 上下文窗口16384，支持长文本推理
--n-gpu-layers 99 \  # 全部模型层加载到GPU
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化推理效率
--mlock \  # 锁定内存
--parallel 3 --threads 12 \  # 并行数3，线程数12，提升推理速度
--temp 0.3 --min-p 0.05 --repeat-penalty 1.1 \  # 保证推理质量
--cors --timeout 600 \  # 跨域和超时设置
--api-key BigReasonModelKey2026-4B  # 专属API密钥

三、coder代码补全模型

llama-server -m ~/storage/GGUF/Qwen3.5-Coder-python-4B.Q3_K_S.gguf \
--host 0.0.0.0 --port 8086 \  # 端口8086，代码模型起始端口
--ctx-size 16384 \  # 上下文窗口
--n-gpu-layers 99 \  # 全部模型层加载到GPU
--tensor-split 1,1 \  # 双V100显存等比拆分
--flash-attn --cache-type-k q8_0 \  # 优化缓存，Q8是黄金平衡点
--mlock --parallel 2 --threads 10 \  # 锁定内存，并行数3，线程数10
--temp 0.1 --min-p 0.05 --repeat-penalty 1.1 \  # 低温度，保证代码准确性和规范性
--cors --timeout 180 \  # 超时时间3分钟，适配代码快速补全
--api-key CoderModelKey2026-Qwen4B  # 专属API密钥

四、embedding向量模型

llama-server -m ~/storage/GGUF/Qwen3-Embedding-0.6B-Q4_K_M-imat.gguf \
--host 0.0.0.0 --port 8092 \  # 端口
--ctx-size 8192 \  # 上下文长度
--n-gpu-layers 99 \  # 模型层全加载到显卡
--tensor-split 1,1 \  # 显存等比拆分
--flash-attn --mlock \  # 启用后锁定内存
--parallel 2 --threads 8 \  # 高并行数，提升向量生成吞吐量
--temp 0.0 --min-p 0.05 --repeat-penalty 1.0 \  # 向量生成无随机性，保证一致性
--cors --timeout 120 \  # 超时2分钟
--api-key EmbeddingModelKey2026-Qwen0.6B  # 专属API密钥