环境介绍

GPU: 4090 24G显存

下载模型

安装下载工具

apt install -y aria2 -i  https://mirrors.cloud.tencent.com/pypi/simple

下载模型

aria2c -x 16 -s 16 -k 1M https://www.modelscope.cn/models/unsloth/Qwen3.6-27B-GGUF/resolve/master/Qwen3.6-27B-Q4_K_M.gguf

编译llama.cpp

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

# 开启 GPU
cmake -B build -DGGML_CUDA=ON
cmake --build build -j

运行模型

使用编译后的二进制文件运行模型

./build/bin/llama-server -m /data/gguf/Qwen3.6-27B-Q4_K_M.gguf \
  --host 0.0.0.0 --port 6006 --api-key sk-123456 \
  -ngl 99 \
  --ctx-size 32768 \
  --reasoning off \
  --jinja --parallel 2 --batch-size 256 --ubatch-size 128

image-1777000090899
显存占用

root@d9b196b55e63e12c:~# nvidia-smi 
Fri Apr 24 02:59:52 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08              Driver Version: 575.57.08      CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        On  |   00000000:25:00.0 Off |                  Off |
| 73%   66C    P2            219W /  450W |   19009MiB /  24564MiB |     89%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            1118      C   ./build/bin/llama-server              19000MiB |
+-----------------------------------------------------------------------------------------+

推理测试

root@d9b196b55e63e12c:~#  curl http://localhost:6006/v1/chat/completions   -H "Content-Type: application/json"   -H "Authorization: Bearer sk-123456"   -d '{
    "model": "qwen3.5-9b",
    "messages": [
      {
        "role": "user",
        "content": "什么是噬菌体"
      }
    ]
  }' | jq
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  4185  100  4049  100   136    230      7  0:00:19  0:00:17  0:00:02   930
{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "**噬菌体**(Bacteriophage,简称 Phage)是一类专门感染细菌、古菌等微生物的病毒。\n\n简单来说,它们是“细菌的杀手”,是自然界中数量最多、分布最广的生物实体之一。\n\n### 核心特点\n\n1. **专一性强**:\n   噬菌体只能感染特定种类的细菌(甚至特定菌株)。例如,大肠杆菌噬菌体 T4 只能感染大肠杆菌,对其他细菌无效。这种高度特异性使其在精准医疗中具有巨大潜力。\n\n2. **结构简单**:\n   大多数噬菌体由两部分组成:\n   - **蛋白质外壳**:保护内部遗传物质,并帮助其识别和附着到宿主细菌表面。\n   - **核酸核心**:包含 DNA 或 RNA,携带遗传信息,指导病毒复制。\n\n3. **非独立生存**:\n   噬菌体没有细胞结构,不能独立进行新陈代谢,必须侵入宿主细菌内部,利用细菌的“工厂”(如核糖体、酶、能量)来复制自身。\n\n---\n\n### 生活周期(两种主要方式)\n\n噬菌体感染细菌后,通常有两种生存策略:\n\n#### 1. 溶菌周期(Lytic Cycle)——“破坏者”\n- 噬菌体注入遗传物质 → 劫持细菌 machinery → 大量复制新的噬菌体颗粒 → 细菌破裂(裂解)→ 释放出新噬菌体去感染其他细菌。\n- **结果**:细菌死亡。这是传统意义上的“杀菌”过程。\n\n#### 2. 溶原周期(Lysogenic Cycle)——“潜伏者”\n- 噬菌体将其 DNA 整合到细菌的染色体中,成为“原噬菌体”(prophage)。\n- 随着细菌分裂,噬菌体 DNA 也一起复制,不立即杀死细菌。\n- 在特定条件下(如压力、紫外线),原噬菌体可被激活,进入溶菌周期,杀死细菌。\n\n---\n\n### 噬菌体的重要应用\n\n1. **噬菌体疗法(Phage Therapy)**:\n   - 随着抗生素耐药性(超级细菌)问题日益严重,噬菌体疗法重新受到关注。\n   - 利用噬菌体精准杀灭致病细菌,而不破坏人体正常菌群,副作用小。\n   - 已在格鲁吉亚、波兰等地长期使用,在欧美也逐渐进入临床试验阶段。\n\n2. **分子生物学工具**:\n   - λ 噬菌体等被广泛用于基因克隆、载体构建、DNA测序等技术开发。\n   - CRISPR-Cas9 基因编辑技术的灵感部分来源于细菌对抗噬菌体的免疫机制。\n\n3. **食品工业**:\n   - 用于控制食品中的病原菌污染,如李斯特菌(Listeria)或沙门氏菌(Salmonella),替代部分化学防腐剂。\n\n4. **环境修复**:\n   - 用于清除水体或土壤中特定的有害细菌。\n\n---\n\n### 为什么噬菌体如此重要?\n\n- **数量庞大**:地球上噬菌体的数量估计超过 10³¹ 个,是所有其他生物体总和的数十倍。\n- **生态平衡**:它们每天杀死约 20%~40% 的海洋细菌,调控微生物群落结构,影响全球碳循环和营养盐循环。\n- **进化推动者**:通过“水平基因转移”,噬菌体在细菌之间传递基因(包括抗药基因或毒力基因),加速细菌进化。\n\n---\n\n### 总结\n\n噬菌体是感染细菌的病毒,虽微小却无处不在。它们既是细菌的天敌,也是人类对抗耐药菌的有力武器,同时在生物技术和生态学中扮演着不可或缺的角色。随着对噬菌体研究的深入,其在医疗和工业领域的应用前景广阔。"
      }
    }
  ],
  "created": 1777009402,
  "model": "Qwen3.6-27B-Q4_K_M.gguf",
  "system_fingerprint": "b0-unknown",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 812,
    "prompt_tokens": 16,
    "total_tokens": 828,
    "prompt_tokens_details": {
      "cached_tokens": 0
    }
  },
  "id": "chatcmpl-N7Q4fId98cYnFqULj4nTW2CVZjsDFu3P",
  "timings": {
    "cache_n": 0,
    "prompt_n": 16,
    "prompt_ms": 164.948,
    "prompt_per_token_ms": 10.30925,
    "prompt_per_second": 97.00026675073356,
    "predicted_n": 812,
    "predicted_ms": 17380.247,
    "predicted_per_token_ms": 21.404245073891627,
    "predicted_per_second": 46.719704271176354
  }
}

模型压测


image-1777009165183