【vLLM 学习】Api Client

张

张建站

2026/6/15 10:27:39

10分钟阅读

vLLM 是一款专为大语言模型推理加速而设计的框架实现了 KV 缓存内存几乎零浪费解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →go.hyper.ai/Wa62f*在线运行 vLLM 入门教程零基础分步指南源码 examples/online_serving/api_client.py# SPDX-License-Identifier: Apache-2.0 示例 python 客户端vllm.entrypoints.api_server 注意: API 服务器仅用于演示和简单性能基准测试。它不用于生产。为了生产使用我们建议 vllm serve和 OpenAi 客户端 API。 import argparse import json from collections.abc import Iterable import requests def clear_line(n: int 1) - None: LINE_UP \033[1A LINE_CLEAR \x1b[2K for _ in range(n): print(LINE_UP, endLINE_CLEAR, flushTrue) def post_http_request(prompt: str, api_url: str, n: int 1, stream: bool False) - requests.Response: headers {User-Agent: Test Client} pload { prompt: prompt, n: n, use_beam_search: True, temperature: 0.0, max_tokens: 16, stream: stream, } response requests.post(api_url, headersheaders, jsonpload, streamstream) return response def get_streaming_response(response: requests.Response) - Iterable[list[str]]: for chunk in response.iter_lines(chunk_size8192, decode_unicodeFalse, delimiterb\n): if chunk: data json.loads(chunk.decode(utf-8)) output data[text] yield output def get_response(response: requests.Response) - list[str]: data json.loads(response.content) output data[text] return output if __name__ __main__: parser argparse.ArgumentParser() parser.add_argument(--host, typestr, defaultlocalhost) parser.add_argument(--port, typeint, default8000) parser.add_argument(--n, typeint, default4) parser.add_argument(--prompt, typestr, defaultSan Francisco is a) parser.add_argument(--stream, actionstore_true) args parser.parse_args() prompt args.prompt api_url fhttp://{args.host}:{args.port}/generate n args.n stream args.stream print(fPrompt: {prompt!r}\n, flushTrue) response post_http_request(prompt, api_url, n, stream) if stream: num_printed_lines 0 for h in get_streaming_response(response): clear_line(num_printed_lines) num_printed_lines 0 for i, line in enumerate(h): num_printed_lines 1 print(fBeam candidate {i}: {line!r}, flushTrue) else: output get_response(response) for i, line in enumerate(output): print(fBeam candidate {i}: {line!r}, flushTrue)

从零开始掌握rrweb：网页录制与回放的最佳实践指南

从零开始掌握rrweb：网页录制与回放的最佳实践指南【免费下载链接】rrweb record and replay the web 项目地址: https://gitcode.com/gh_mirrors/rr/rrweb 你是否曾遇到过这样的场景：用户反馈网站出现了奇怪的问题，但你却无法复现&am…...

2026/5/8 5:57:19 阅读更多 →

工业相机选型避坑指南：除了分辨率，这3个参数决定了你的图像会不会‘变形’

工业相机选型避坑指南：三大隐藏参数如何影响图像几何精度当你在自动化产线上看到机械臂反复抓偏零件，或是视觉检测系统将合格品误判为瑕疵品时，问题很可能出在工业相机的几何畸变上。与消费级相机不同，工业相机的核心价值在于像素…...

2026/5/8 5:57:19 阅读更多 →

上周刚把自控课设的结项报告交了，主题是西门子S7-200 PLC配组态王做的多种液体混合装置，折腾了快两周，踩的坑能绕实验室一圈了，今天唠唠整个过程

No.1302 西门子S7-200 PLC基于组态王多种液体混合装置控制系统首先得先讲清楚这个装置是干啥的：简单来说就是两种液体A和B，按流程自动进料、搅拌、放料，还要保证液位不会溢出，急停功能也得有。一开始我先列了最基础的IO表&#xf…...

2026/5/8 5:57:23 阅读更多 →

嵌入式通信实战：FLEXBUS与FlexCAN驱动在NXP Kinetis MCU中的配置与应用

1. 项目概述：嵌入式系统中的两大通信桥梁在嵌入式系统开发，尤其是汽车电子、工业控制或复杂仪器仪表领域，我们常常需要让微控制器（MCU）与外部世界进行高效、可靠的对话。这种对话通常分为两类：一类是与板外…...

2026/6/14 0:01:00 阅读更多 →

如何彻底解决Cursor AI编程工具试用限制：3种技术方案深度解析

如何彻底解决Cursor AI编程工具试用限制：3种技术方案深度解析【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Your request has been blocked as our system has detected suspicious activity / Youve reached your trial request …...

2026/6/14 0:05:54 阅读更多 →