零基础玩转DeepSeek-R1-Distill-Qwen-1.5B：手把手教你用vLLM启动模型

张

张建站

2026/4/29 20:53:35

10分钟阅读

零基础玩转DeepSeek-R1-Distill-Qwen-1.5B手把手教你用vLLM启动模型你是不是对AI大模型很感兴趣但一看到那些复杂的部署步骤就头疼想自己动手运行一个轻量级的AI模型又不知道从哪里开始今天我就带你从零开始一步步用vLLM启动DeepSeek-R1-Distill-Qwen-1.5B这个轻量级模型。不用担心就算你完全没有AI部署经验跟着我的步骤走也能在10分钟内让模型跑起来。DeepSeek-R1-Distill-Qwen-1.5B是个很有意思的模型它只有15亿参数但通过知识蒸馏技术保留了原模型85%以上的能力。最棒的是它内存占用小在普通显卡上就能流畅运行特别适合个人开发者和小团队使用。1. 准备工作了解我们要部署的模型在开始动手之前我们先简单了解一下这个模型的特点这样你就能明白为什么选择它以及它能做什么。1.1 模型的核心优势DeepSeek-R1-Distill-Qwen-1.5B有几个很实用的特点轻量高效只有15亿参数相比动辄几百亿的大模型它对硬件要求低得多内存友好支持INT8量化内存占用比标准版本减少75%多任务支持不仅能做文本生成还能处理分类、问答等多种任务推理速度快在NVIDIA T4这样的入门级显卡上也能实时响应1.2 你需要准备什么部署这个模型真的很简单你只需要一个能运行Python的环境基本的命令行操作知识大约4GB的可用内存如果量化的话更少一颗愿意尝试的心好了理论部分就到这里我们直接进入实战环节。2. 环境搭建快速安装vLLMvLLM是一个专门为大模型推理优化的引擎它能显著提升模型的运行速度。我们先用最简单的方法把它装好。2.1 安装Python环境如果你还没有Python环境建议安装Python 3.8或更高版本。打开终端输入以下命令检查Python版本python --version如果显示Python 3.8以上就可以继续了。如果没有可以去Python官网下载安装。2.2 安装vLLM安装vLLM非常简单一行命令搞定pip install vllm这个命令会自动安装vLLM及其所有依赖。如果安装过程中遇到网络问题可以尝试使用国内镜像源pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple安装完成后验证一下是否成功python -c import vllm; print(vLLM安装成功)如果看到vLLM安装成功的输出说明环境已经准备好了。2.3 下载模型文件DeepSeek-R1-Distill-Qwen-1.5B的模型文件可以从Hugging Face获取。如果你在国内下载可能比较慢这里提供一个备用方案。首先创建模型保存目录mkdir -p ~/models/deepseek-r1-distill-qwen-1.5b cd ~/models/deepseek-r1-distill-qwen-1.5b然后使用以下Python脚本下载模型from huggingface_hub import snapshot_download # 下载模型文件 model_id deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B local_dir ./model_files snapshot_download( repo_idmodel_id, local_dirlocal_dir, local_dir_use_symlinksFalse, ignore_patterns[*.safetensors, *.bin] # 只下载必要的文件 ) print(模型下载完成)如果下载速度太慢也可以找已经下载好的朋友拷贝或者使用其他下载工具。3. 启动模型用vLLM运行你的第一个AI环境准备好了模型文件也下载了现在就是最激动人心的时刻——启动模型3.1 最简单的启动命令打开终端进入模型文件所在的目录然后运行python -m vllm.entrypoints.openai.api_server \ --model /path/to/your/model \ --served-model-name deepseek-r1-distill-qwen-1.5b \ --port 8000 \ --max-model-len 4096把/path/to/your/model替换成你实际存放模型文件的路径。比如如果你把模型放在~/models/deepseek-r1-distill-qwen-1.5b/model_files命令就是python -m vllm.entrypoints.openai.api_server \ --model ~/models/deepseek-r1-distill-qwen-1.5b/model_files \ --served-model-name deepseek-r1-distill-qwen-1.5b \ --port 8000 \ --max-model-len 40963.2 参数说明让我解释一下这些参数的作用--model指定模型文件的路径--served-model-name给模型起个名字后面调用时会用到--port服务监听的端口号默认8000--max-model-len模型支持的最大文本长度这里设为4096个token3.3 验证服务是否启动成功启动命令运行后你会看到很多输出信息。当看到类似下面的内容时说明服务已经启动成功了INFO 07-15 14:30:25 llm_engine.py:72] Initializing an LLM engine with config: ... INFO 07-15 14:30:25 model_runner.py:84] Loading model weights took 4.32 GB GPU memory INFO 07-15 14:30:26 llm_engine.py:199] # GPU blocks: 961, # CPU blocks: 1024 Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit)最关键是最后一行它告诉你服务已经在http://0.0.0.0:8000上运行了。如果你想查看更详细的启动日志可以进入工作目录查看日志文件cd /root/workspace cat deepseek_qwen.log如果看到服务正常启动的信息就说明一切顺利。4. 测试模型和你的AI助手对话服务启动后我们来测试一下它是否真的能工作。这里我准备了一个完整的测试脚本你可以直接复制使用。4.1 完整的测试代码创建一个新的Python文件比如叫test_model.py然后粘贴以下代码from openai import OpenAI import requests import json class LLMClient: def __init__(self, base_urlhttp://localhost:8000/v1): self.client OpenAI( base_urlbase_url, api_keynone # vLLM通常不需要API密钥 ) self.model deepseek-r1-distill-qwen-1.5b def chat_completion(self, messages, streamFalse, temperature0.7, max_tokens2048): 基础的聊天完成功能 try: response self.client.chat.completions.create( modelself.model, messagesmessages, temperaturetemperature, max_tokensmax_tokens, streamstream ) return response except Exception as e: print(fAPI调用错误: {e}) return None def stream_chat(self, messages): 流式对话示例 print(AI: , end, flushTrue) full_response try: stream self.chat_completion(messages, streamTrue) if stream: for chunk in stream: if chunk.choices[0].delta.content is not None: content chunk.choices[0].delta.content print(content, end, flushTrue) full_response content print() # 换行 return full_response except Exception as e: print(f流式对话错误: {e}) return def simple_chat(self, user_message, system_messageNone): 简化版对话接口 messages [] if system_message: messages.append({role: system, content: system_message}) messages.append({role: user, content: user_message}) response self.chat_completion(messages) if response and response.choices: return response.choices[0].message.content return 请求失败 # 使用示例 if __name__ __main__: # 初始化客户端 llm_client LLMClient() # 测试1普通对话 print( 测试1普通对话 ) response llm_client.simple_chat( 请用中文介绍一下人工智能的发展历史, 你是一个有帮助的AI助手 ) print(fAI回复: {response}) # 测试2创意写作 print(\n 测试2创意写作 ) messages [ {role: system, content: 你是一个诗人}, {role: user, content: 写两首关于秋天的五言绝句} ] llm_client.stream_chat(messages) # 测试3实用问答 print(\n 测试3实用问答 ) response llm_client.simple_chat( 如何快速学习Python编程请给我三个具体建议, 你是一个经验丰富的编程导师 ) print(fAI回复: {response}) # 测试4数学问题使用模型推荐的方式 print(\n 测试4数学问题 ) math_prompt 请逐步推理并将最终答案放在\\boxed{}内。问题一个长方形的长是8厘米宽是5厘米求它的面积和周长。 response llm_client.simple_chat(math_prompt) print(fAI回复: {response})4.2 运行测试保存文件后在终端运行python test_model.py如果一切正常你会看到模型依次回答四个问题。第一次运行可能会稍微慢一点因为模型需要加载到内存中。4.3 理解测试结果正常调用时你会看到类似这样的输出测试1普通对话 AI回复: 人工智能的发展历史可以追溯到20世纪50年代...具体内容省略测试2创意写作 AI: 秋风萧瑟天气凉草木摇落露为霜... 逐字显示有流式效果测试3实用问答 AI回复: 1. 从基础语法开始每天坚持练习... 2. 多做实际项目比如写个小工具... 3. 参与开源项目学习他人代码... 测试4数学问题 AI回复: 首先计算面积8 × 5 40平方厘米... 最终答案\boxed{面积40平方厘米周长26厘米}如果你看到这样的输出恭喜你模型已经成功运行了。5. 实用技巧让模型表现更好DeepSeek-R1-Distill-Qwen-1.5B有一些使用技巧掌握后能让它的表现更出色。5.1 温度设置建议温度temperature控制着模型输出的随机性温度0.5-0.7推荐范围输出比较稳定可靠温度0.7-1.0更有创意但可能不够准确温度低于0.5非常确定但可能重复我建议从0.6开始根据任务调整# 对于需要准确性的任务 response llm_client.chat_completion(messages, temperature0.5) # 对于创意写作任务 response llm_client.chat_completion(messages, temperature0.8)5.2 数学问题的特殊处理这个模型在回答数学问题时有个特点需要在提示中明确要求逐步推理。最好的方式是math_prompt 请逐步推理并将最终答案放在\\boxed{}内。问题你的数学问题在这里5.3 避免系统提示模型文档特别建议不要使用系统提示system prompt所有指令都应该放在用户提示user prompt中。不推荐的做法messages [ {role: system, content: 你是一个数学老师}, # 不要这样 {role: user, content: 解方程 x510} ]推荐的做法messages [ {role: user, content: 你是一个数学老师请解方程 x510} ]5.4 处理重复输出如果发现模型输出重复内容可以尝试降低温度到0.5在提示开头强制换行模型文档的建议设置重复惩罚参数# 在调用时添加重复惩罚 response llm_client.chat_completion( messages, temperature0.6, repetition_penalty1.1 # 轻微惩罚重复 )6. 常见问题解决在实际使用中你可能会遇到一些问题。这里我整理了几个常见问题和解决方法。6.1 服务启动失败问题运行启动命令后服务没有正常启动。可能原因和解决端口被占用换一个端口试试python -m vllm.entrypoints.openai.api_server \ --model /path/to/model \ --port 8001 # 改用8001端口内存不足尝试使用量化版本python -m vllm.entrypoints.openai.api_server \ --model /path/to/model \ --quantization int8 # 使用INT8量化模型路径错误检查路径是否正确ls /path/to/model # 确认目录存在且包含模型文件6.2 调用时连接失败问题运行测试脚本时提示连接错误。检查步骤确认服务是否在运行curl http://localhost:8000/health应该返回{status:healthy}检查端口是否正确# 如果改了端口记得修改客户端 llm_client LLMClient(base_urlhttp://localhost:8001/v1)6.3 模型响应慢问题第一次调用或长时间不用后响应很慢。原因和优化首次加载第一次调用需要加载模型到GPU耐心等待30-60秒使用预热启动后先发一个简单请求预热模型# 服务启动后立即预热 warmup_client LLMClient() warmup_client.simple_chat(你好)6.4 输出质量不理想问题模型的回答不符合预期。优化建议优化提示词更清晰地描述需求调整参数尝试不同的温度和最大生成长度使用思维链对于复杂问题要求模型逐步思考# 更好的提示词示例 good_prompt 请按照以下步骤思考 1. 理解问题核心 2. 分析关键信息 3. 逐步推导答案 4. 检查结果合理性问题如何提高代码的可读性7. 进阶使用更多实用功能掌握了基础用法后我们来看看一些进阶功能让你的应用更强大。7.1 批量处理如果需要处理多个问题可以使用批量请求def batch_process(questions): 批量处理多个问题 results [] for question in questions: response llm_client.simple_chat(question) results.append({ question: question, answer: response[:100] ... if len(response) 100 else response }) return results # 使用示例 questions [ Python和Java哪个更适合初学者, 如何学习机器学习, 写一个简单的Python函数计算阶乘 ] answers batch_process(questions) for item in answers: print(f问题: {item[question]}) print(f回答: {item[answer]}\n)7.2 保存对话历史如果你要构建一个聊天应用可能需要保存对话历史class ChatSession: def __init__(self, client): self.client client self.history [] def add_message(self, role, content): 添加消息到历史 self.history.append({role: role, content: content}) def chat(self, user_input): 发送消息并获取回复 self.add_message(user, user_input) response self.client.chat_completion(self.history) if response and response.choices: ai_reply response.choices[0].message.content self.add_message(assistant, ai_reply) return ai_reply return None def clear_history(self): 清空对话历史 self.history [] # 使用示例 session ChatSession(llm_client) print(session.chat(你好我是小明)) print(session.chat(我刚才说了什么)) # 模型能记住上下文7.3 自定义停止词有时候我们希望模型在特定位置停止生成response llm_client.client.chat.completions.create( modelllm_client.model, messagesmessages, temperature0.7, stop[。, , ] # 遇到这些标点就停止 )8. 总结回顾让我们回顾一下今天学到的内容8.1 核心步骤总结环境准备安装Python和vLLM获取模型下载DeepSeek-R1-Distill-Qwen-1.5B模型文件启动服务用vLLM启动模型API服务测试验证编写Python代码调用模型优化使用调整参数让模型表现更好8.2 关键要点这个模型很轻量普通电脑也能跑vLLM让部署变得非常简单温度设置在0.5-0.7之间效果最好数学问题要明确要求逐步推理所有指令都应该放在用户提示中8.3 下一步建议如果你已经成功运行了模型可以尝试集成到应用中把模型API集成到你的网站或应用里尝试不同任务除了聊天试试文本分类、摘要生成等性能优化调整vLLM参数提升推理速度探索其他模型用同样的方法部署其他轻量级模型最重要的是多动手实践。遇到问题不要怕查看日志、搜索错误信息、调整参数这些都是学习的过程。AI模型部署听起来很高深但其实就像学骑自行车一样开始可能摇摇晃晃但一旦掌握了基本方法就会发现它并没有想象中那么难。DeepSeek-R1-Distill-Qwen-1.5B是一个很好的起点它足够轻量功能又全面特别适合初学者上手。现在你已经有了一个可以随时对话的AI助手。用它来帮你写代码、解答问题、创作内容或者只是随便聊聊天感受AI技术的魅力。记住最好的学习方式就是使用多用多试你会有更多发现。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

VLC Android电视版和ChromeOS：终极多媒体播放器配置指南

VLC Android电视版和ChromeOS：终极多媒体播放器配置指南【免费下载链接】vlc-android VLC for Android, Android TV and ChromeOS 项目地址: https://gitcode.com/gh_mirrors/vl/vlc-android VLC for Android电视版和ChromeOS是专为大屏设备优化的免费开源…...

2026/4/29 20:50:41 阅读更多 →

别再用ArrayPool了！C# 13 Span＜T＞原生栈语义重构方案（附VS2022诊断扩展安装包）

更多请点击： https://intelliparadigm.com 第一章：C# 13 Span<T>高性能处理的范式革命 Span<T> 在 C# 13 中进一步强化了其作为零分配、内存安全、栈友好的核心抽象能力。它不再仅是“临时切片容器”，而是深度融入语言运行时与编…...

2026/4/29 20:50:40 阅读更多 →

1.1.AD2025软件安装及常用库安装

文章目录前言一、常用元器件的添加二、非常用元器件的添加前言 PCB板的设计是每一位硬件工程师必备的技能，并且绝大多数的新手玩家都是从altium designer开始自己的第一块电路板的设计。PCB设计主要分为两大部分：原理图设计和PCB设计。在设计的过程中直…...

2026/4/29 20:50:28 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/29 19:30:43 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/29 19:30:43 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/29 19:30:45 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/29 10:22:30 阅读更多 →