Logo

分类:大模型

3 篇文章

4090 VLLM部署Qwen3-8B

模型Qwen2.5-14B-Instruct-AWQ 是阿里云 Qwen2.5 系列中的一个14B(140亿参数)指令微调大语言模型的4bit AWQ量化版本,专为高效推理部署优化,在保持较强的中文、英文理解与生成能力的同时,大幅降低显存占用与计算成本,适合在单卡GPU(如4090/5090)上进行...

4090 VLLM部署Qwen2.5-14B-Instruct-AWQ

前置环境租用4090gpu https://ppio.com cuda12.8.1版本安装conda下载wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh安装安装过程中注意:一路回车看到 Do you ...

4090 SGLang部署Qwen3.5-9B小模型

本文介绍了如何在消费级显卡上使用SGLang框架推理千问最新发布Qwen3.5-9B版本的小模型,无坑版本,可直接运行,显卡是autodl租的,官网:https://autodl.com配置参数如下:创建虚拟环境SGLang + FlashAttention 在 3.10 最稳conda creat...