1. 项目背景某SaaS公司的vLLM推理服务即将从测试环境推送到生产。QA团队在最后一轮回归测试中发现问题:上周的一个常规参数调整(temperature从0.3改为0.2)导致客服意图分类接口的准确率下降了8%——但没有任何测试用例捕获到这个问题。复盘发现,QA团队的测试策略有三个盲区:第一,验收用例只覆盖了HTTP 200,没有验证输出内容的语义正确性;第二,没有回归基线,每次测试都是"手工发几条消息看看像不像人话";第三,不知道怎么测试非确定性输出——同一个Prompt,模型每次回答可能略有不同,传统的"断言输出等于某字符串"不可行。更严重的是,CI/CD流水线中没有LLM服务的自动化测试——每次部署都是"开发觉得没问题就上线",上线后出了bug再回滚。一个月内发生了4次"部署→回滚→修复→部署"的循环,业务方对他们的信心降到冰点。痛点:LLM接口测试比传统REST API测试困难得多。非确定性输出、长文本语义评估、流式响应验证、结构化输出的容错处理——每个都是传统测试框架的设计盲区。需要建立一套分层的测试策略(smoke test → 功能测试 → 回归测试 → 性能基线测试),并针对非确定性输出设计特殊的断言方式。本章将以pytest + OpenAI SDK为核心,编写一套覆盖正常请求、异常请求、流式请求和结构化输出的接口验收脚本,并提供"测试金字塔"的分层策略。2. 项目设计