Qwen3.5-4B-AWQ部署案例：Qwen3.5-4B-AWQ与FastAPI封装API服务

张

张建站

2026/4/25 12:52:48

10分钟阅读

Qwen3.5-4B-AWQ部署案例Qwen3.5-4B-AWQ与FastAPI封装API服务1. 项目概述Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型经过4bit AWQ量化后显存占用仅约3GB可以在RTX 3060/4060等消费级显卡上流畅运行。该模型在保持轻量化的同时性能表现优异性能均衡MMLU-Pro得分接近Qwen3-30B-A3BOmniDocBench击败GPT-5-Nano全能力覆盖支持201种语言、原生多模态图文、长上下文、工具调用部署友好适配llama.cpp、vLLM等多种推理引擎2. 环境准备与快速部署2.1 基础环境要求操作系统Linux推荐Ubuntu 20.04显卡驱动NVIDIA驱动515CUDA版本11.8Python环境3.92.2 快速安装步骤# 创建conda环境 conda create -n qwen35 python3.9 -y conda activate qwen35 # 安装基础依赖 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install vllm fastapi uvicorn2.3 模型下载与配置# 下载模型假设模型已存放在指定路径 export MODEL_PATH/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit # 验证模型完整性 ls -lh $MODEL_PATH3. FastAPI服务封装3.1 基础API服务实现创建api_service.py文件from fastapi import FastAPI from vllm import LLM, SamplingParams app FastAPI() # 初始化模型 llm LLM(model/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit) app.post(/generate) async def generate_text(prompt: str, max_tokens: int 256): sampling_params SamplingParams(temperature0.7, top_p0.9, max_tokensmax_tokens) output llm.generate(prompt, sampling_params) return {response: output[0].text}3.2 启动API服务uvicorn api_service:app --host 0.0.0.0 --port 80003.3 服务测试使用curl测试APIcurl -X POST http://localhost:8000/generate \ -H Content-Type: application/json \ -d {prompt:请介绍一下Qwen3.5模型的特点,max_tokens:200}4. 生产环境部署4.1 Supervisor配置创建/etc/supervisor/conf.d/qwen35.conf[program:qwen35-api] command/opt/miniconda3/envs/qwen35/bin/uvicorn api_service:app --host 0.0.0.0 --port 8000 directory/root/Qwen3.5-4B-AWQ-4bit autostarttrue autorestarttrue stderr_logfile/root/Qwen3.5-4B-AWQ-4bit/logs/api.err.log stdout_logfile/root/Qwen3.5-4B-AWQ-4bit/logs/api.log4.2 服务管理命令# 重载supervisor配置 supervisorctl reread supervisorctl update # 服务管理 supervisorctl start qwen35-api supervisorctl stop qwen35-api supervisorctl restart qwen35-api4.3 开机自启确保supervisor服务已启用开机自启systemctl enable supervisor5. 常见问题解决5.1 显存不足问题# 检查显存占用 nvidia-smi # 终止残留进程 kill -9 $(ps aux | grep vllm | awk {print $2})5.2 API性能优化在api_service.py中添加批处理支持app.post(/batch_generate) async def batch_generate(prompts: list, max_tokens: int 256): sampling_params SamplingParams(temperature0.7, top_p0.9, max_tokensmax_tokens) outputs llm.generate(prompts, sampling_params) return {responses: [output.text for output in outputs]}6. 总结通过本文的部署方案我们实现了轻量化部署4bit量化模型仅需3GB显存消费级显卡即可运行高效API服务基于FastAPI和vLLM构建高性能推理服务生产就绪通过Supervisor实现服务管理和自动恢复灵活扩展支持单条和批量请求满足不同场景需求获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

保姆级教程：在Ubuntu 20.04 + ROS Noetic上从零编译运行LIO-SAM（含GTSAM 4.0.2避坑指南）

从零部署LIO-SAM：Ubuntu 20.04 ROS Noetic实战指南在机器人感知领域，激光雷达与IMU的融合已成为实现高精度定位与建图的主流方案。LIO-SAM作为这一领域的代表性算法，凭借其紧耦合的优化框架和实时性能，吸引了大量研究者和工程师…...

2026/4/25 12:38:50 阅读更多 →

终极指南：如何快速恢复Windows 11任务栏拖放功能，告别繁琐操作

终极指南：如何快速恢复Windows 11任务栏拖放功能，告别繁琐操作【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" suppo…...

2026/4/25 12:36:48 阅读更多 →

Policy Learning实战避坑：REINFORCE和Actor-Critic到底该怎么选？

Policy Learning实战指南：REINFORCE与Actor-Critic的工程化选择在强化学习领域，策略优化（Policy Learning）一直是解决复杂决策问题的核心方法。不同于基于价值的传统方法，策略学习直接对策略进行建模和优化&#xff0…...

2026/4/25 12:36:44 阅读更多 →

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构在开发中大型Unity项目时，UI系统的复杂度往往随着功能迭代呈指数级增长。当项目包含多个场景、数十个界面和数百个交互元素时，开发者常会遇到以下典型问题&#…...

2026/4/21 20:14:59 阅读更多 →

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

1. 整型常量后缀的底层原理第一次看到1ULL这种写法时，我盯着屏幕愣了三秒——数字后面加字母是什么黑魔法？直到在32位系统上调试一个计数器溢出bug后，才真正理解这些后缀的重要性。整型常量后缀实际上是告诉编译器："别用默认…...

2026/4/20 7:00:24 阅读更多 →

VisionMaster企业实操训练系列课程

VisionMaster企业实操训练系列课程主要出于，快速会设计视觉引导定位项目引导定位原理原理演示 1.单相机带角度定位引导 2.12点标定 3.单点抓取 4.上下相机对位引导 5.单相机带角度定位引导（相机在机械手上）...

2026/4/20 0:14:41 阅读更多 →

C#怎么限制Task最大并发数_C#如何自定义TaskScheduler【进阶】

SemaphoreSlim 是控制 Task 并发数最直接轻量的选择，通过异步闸门限制同时执行任务数，需配对 WaitAsync() 和 Release() 并在 finally 中确保释放；自定义 TaskScheduler 适用场景极窄，ParallelOptions.MaxDegreeOfParallelism 仅适…...

2026/4/20 6:29:58 阅读更多 →