环境介绍
GPU: 4090 24G显存
下载模型
安装下载工具
apt install -y aria2 -i https://mirrors.cloud.tencent.com/pypi/simple
下载模型
aria2c -x 16 -s 16 -k 1M https://www.modelscope.cn/models/unsloth/Qwen3.6-27B-GGUF/resolve/master/Qwen3.6-27B-Q4_K_M.gguf
编译llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
# 开启 GPU
cmake -B build -DGGML_CUDA=ON
cmake --build build -j
运行模型
使用编译后的二进制文件运行模型
./build/bin/llama-server -m /data/gguf/Qwen3.6-27B-Q4_K_M.gguf \
--host 0.0.0.0 --port 6006 --api-key sk-123456 \
-ngl 99 \
--ctx-size 32768 \
--reasoning off \
--jinja --parallel 2 --batch-size 256 --ubatch-size 128

显存占用
root@d9b196b55e63e12c:~# nvidia-smi
Fri Apr 24 02:59:52 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08 Driver Version: 575.57.08 CUDA Version: 12.9 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 On | 00000000:25:00.0 Off | Off |
| 73% 66C P2 219W / 450W | 19009MiB / 24564MiB | 89% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 1118 C ./build/bin/llama-server 19000MiB |
+-----------------------------------------------------------------------------------------+
推理测试
root@d9b196b55e63e12c:~# curl http://localhost:6006/v1/chat/completions -H "Content-Type: application/json" -H "Authorization: Bearer sk-123456" -d '{
"model": "qwen3.5-9b",
"messages": [
{
"role": "user",
"content": "什么是噬菌体"
}
]
}' | jq
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 4185 100 4049 100 136 230 7 0:00:19 0:00:17 0:00:02 930
{
"choices": [
{
"finish_reason": "stop",
"index": 0,
"message": {
"role": "assistant",
"content": "**噬菌体**(Bacteriophage,简称 Phage)是一类专门感染细菌、古菌等微生物的病毒。\n\n简单来说,它们是“细菌的杀手”,是自然界中数量最多、分布最广的生物实体之一。\n\n### 核心特点\n\n1. **专一性强**:\n 噬菌体只能感染特定种类的细菌(甚至特定菌株)。例如,大肠杆菌噬菌体 T4 只能感染大肠杆菌,对其他细菌无效。这种高度特异性使其在精准医疗中具有巨大潜力。\n\n2. **结构简单**:\n 大多数噬菌体由两部分组成:\n - **蛋白质外壳**:保护内部遗传物质,并帮助其识别和附着到宿主细菌表面。\n - **核酸核心**:包含 DNA 或 RNA,携带遗传信息,指导病毒复制。\n\n3. **非独立生存**:\n 噬菌体没有细胞结构,不能独立进行新陈代谢,必须侵入宿主细菌内部,利用细菌的“工厂”(如核糖体、酶、能量)来复制自身。\n\n---\n\n### 生活周期(两种主要方式)\n\n噬菌体感染细菌后,通常有两种生存策略:\n\n#### 1. 溶菌周期(Lytic Cycle)——“破坏者”\n- 噬菌体注入遗传物质 → 劫持细菌 machinery → 大量复制新的噬菌体颗粒 → 细菌破裂(裂解)→ 释放出新噬菌体去感染其他细菌。\n- **结果**:细菌死亡。这是传统意义上的“杀菌”过程。\n\n#### 2. 溶原周期(Lysogenic Cycle)——“潜伏者”\n- 噬菌体将其 DNA 整合到细菌的染色体中,成为“原噬菌体”(prophage)。\n- 随着细菌分裂,噬菌体 DNA 也一起复制,不立即杀死细菌。\n- 在特定条件下(如压力、紫外线),原噬菌体可被激活,进入溶菌周期,杀死细菌。\n\n---\n\n### 噬菌体的重要应用\n\n1. **噬菌体疗法(Phage Therapy)**:\n - 随着抗生素耐药性(超级细菌)问题日益严重,噬菌体疗法重新受到关注。\n - 利用噬菌体精准杀灭致病细菌,而不破坏人体正常菌群,副作用小。\n - 已在格鲁吉亚、波兰等地长期使用,在欧美也逐渐进入临床试验阶段。\n\n2. **分子生物学工具**:\n - λ 噬菌体等被广泛用于基因克隆、载体构建、DNA测序等技术开发。\n - CRISPR-Cas9 基因编辑技术的灵感部分来源于细菌对抗噬菌体的免疫机制。\n\n3. **食品工业**:\n - 用于控制食品中的病原菌污染,如李斯特菌(Listeria)或沙门氏菌(Salmonella),替代部分化学防腐剂。\n\n4. **环境修复**:\n - 用于清除水体或土壤中特定的有害细菌。\n\n---\n\n### 为什么噬菌体如此重要?\n\n- **数量庞大**:地球上噬菌体的数量估计超过 10³¹ 个,是所有其他生物体总和的数十倍。\n- **生态平衡**:它们每天杀死约 20%~40% 的海洋细菌,调控微生物群落结构,影响全球碳循环和营养盐循环。\n- **进化推动者**:通过“水平基因转移”,噬菌体在细菌之间传递基因(包括抗药基因或毒力基因),加速细菌进化。\n\n---\n\n### 总结\n\n噬菌体是感染细菌的病毒,虽微小却无处不在。它们既是细菌的天敌,也是人类对抗耐药菌的有力武器,同时在生物技术和生态学中扮演着不可或缺的角色。随着对噬菌体研究的深入,其在医疗和工业领域的应用前景广阔。"
}
}
],
"created": 1777009402,
"model": "Qwen3.6-27B-Q4_K_M.gguf",
"system_fingerprint": "b0-unknown",
"object": "chat.completion",
"usage": {
"completion_tokens": 812,
"prompt_tokens": 16,
"total_tokens": 828,
"prompt_tokens_details": {
"cached_tokens": 0
}
},
"id": "chatcmpl-N7Q4fId98cYnFqULj4nTW2CVZjsDFu3P",
"timings": {
"cache_n": 0,
"prompt_n": 16,
"prompt_ms": 164.948,
"prompt_per_token_ms": 10.30925,
"prompt_per_second": 97.00026675073356,
"predicted_n": 812,
"predicted_ms": 17380.247,
"predicted_per_token_ms": 21.404245073891627,
"predicted_per_second": 46.719704271176354
}
}
模型压测
