一、引言大模型落地最后一公里怎么走2025 年以来DeepSeek 系列模型凭借其出色的推理能力和极具竞争力的价格迅速成为国内开发者社区的热门选择。无论是 DeepSeek-V3 的综合能力还是 DeepSeek-R1 在数学推理与代码生成方面的惊艳表现都让人看到了国产大模型的真正实力。然而模型强不等于应用强。在实际落地过程中开发者往往面临三个拦路虎部署门槛高自建推理服务需要 GPU 算力成本动辄数万运维复杂度高模型版本管理、负载均衡、弹性伸缩都需要专业 infra 能力应用集成难模型跑起来了怎么和业务系统对接怎么搭建 RAG 流程怎么处理多轮对话华为云 MaaSModel as a Service平台和 Flexus 云服务器的新方案正是在这个背景下推出的。它们试图回答一个问题如何让开发者用最低的成本、最快的速度把 DeepSeek 能力真正用起来本文将以一个完整的实战项目为主线带你一步步完成- 在华为云 MaaS 平台上一键部署 DeepSeek-R1 推理服务- 通过 API 调用测试推理效果- 基于 Flexus X 实例快速搭建 Dify 应用平台- 将 DeepSeek 接入 Dify搭建一个完整的 RAG 知识问答应用全文约 5500 字包含完整的操作步骤、关键代码和避坑指南。不管你是个人开发者还是小团队负责人这篇文章都能帮你省下至少一周的摸索时间。二、华为云 MaaS 平台大模型推理服务的新范式2.1 什么是 MaaSMaaSModel as a Service模型即服务是一种将大语言模型以托管服务形式交付的理念。和传统的买 GPU → 搭环境 → 部署模型 → 维护集群模式不同MaaS 把模型推理能力包装成标准化的 API开发者只需关注怎么用而不需要关心怎么运行。华为云的 MaaS 平台全称为ModelArts 模型即服务平台它是华为云一站式 AI 开发平台 ModelArts 的一部分。简单来说它提供了一个模型仓库 推理服务的一站式解决方案。它的核心架构可以用一个三层模型来理解┌─────────────────────────────┐ │ 应用层API SDK │ ← HTTP API、Python SDK ├─────────────────────────────┤ │ 服务层推理编排引擎 │ ← 负载均衡、弹性伸缩、版本管理 ├─────────────────────────────┤ │ 基础设施层GPU 集群 │ ← 昇腾 910B / NVIDIA GPU └─────────────────────────────┘2.2 MaaS 平台的核心优势相比于自建推理服务MaaS 方案主要解决了以下痛点1. 零基础设施运维传统方案中如果你要部署 DeepSeek-R1671B 参数至少需要 8 张 A100 80G 或昇腾 910B 才能满足 FP16 推理需求。且不说 GPU 卡本身动辄数十万的硬件成本光是要搞掂驱动兼容、CUDA 版本、模型并行策略、显存碎片管理等一堆脏活累活就足以劝退大多数开发者。而通过 MaaS 平台你不需要关心底层用了多少张卡、跑了什么分布式策略平台自动完成模型切分和部署调度。你只需要选择模型规格 → 配置服务参数 → 获取 API 地址3 分钟就能获得一个生产级的推理服务。2. 弹性伸缩业务高峰期时MaaS 可以自动扩容实例数量低谷期自动缩容。你不需要提前预留资源按实际调用量付费即可。这对需求波动较大的场景比如白天用户多、晚上几乎没人用特别友好。3. 模型版本管理平台内置模型版本控制当你需要从 DeepSeek-V3 升级到 DeepSeek-R1 时不需要停机迁移可以同时运行多个版本通过路由规则逐步切换流量——这在生产环境上至关重要。4. 开箱即用的安全机制包括内容审核过滤、API 鉴权、访问频率控制、用量监控等。这些在自建方案中都需要额外的开发和运维投入。2.3 支持的 DeepSeek 模型规格截至 2026 年 5 月华为云 MaaS 平台支持的 DeepSeek 系列模型包括模型名称参数规模适用场景推理延迟典型值DeepSeek-R1671B数学推理、代码生成、复杂问答中DeepSeek-V3671B通用对话、文本生成、知识问答中DeepSeek-R1-Distill-Qwen-32B32B轻量推理、成本敏感场景低DeepSeek-R1-Distill-Qwen-7B7B简单任务、高并发场景极低实际部署时如果你需要高吞吐量的推理服务通常建议使用蒸馏版本32B 或 7B因为满血版 671B 需要较多的计算资源延迟和成本都更高。三、实战在 MaaS 平台部署 DeepSeek-R1 推理服务接下来进入本文的核心实操部分。我们会一步步演示如何在华为云 MaaS 平台上完成 DeepSeek 模型的部署和调用。3.1 前置准备在开始之前需要确认以下几点华为云账号注册并实名认证的华为云账号ModelArts 服务开通在控制台搜索ModelArts开通服务权限配置确保账号有 ModelArts 相关权限建议使用管理员账号或申请 ModelArts FullAccess 策略预算MaaS 推理服务按 tokens 计费DeepSeek-R1 满血版的费用参考如下实际价格以华为云官网为准输入约 8 元/百万 tokens输出约 16 元/百万 tokens提示首次使用华为云的用户通常可以领取免费试用资源包建议先确认是否有可用权益。3.2 第一步进入 MaaS 平台选择模型登录华为云控制台在搜索框中输入ModelArts进入 ModelArts 服务页面。然后在左侧菜单中选择AI 应用管理→MaaS 模型即服务。在 MaaS 平台的模型广场中你可以看到当前支持的所有公开模型。搜索DeepSeek系统会展示可用的模型列表。我们这里选择DeepSeek-R1。选择模型后进入模型详情页你会看到模型的基本信息、支持的推理规格、价格说明等。点击部署按钮开始配置。3.3 第二步配置推理服务参数部署配置页面需要填写以下几项关键参数服务名称给你的推理服务起个名字比如deepseek-r1-service。实例规格选择推理实例的规格配置。这里需要注意- 满血版 DeepSeek-R1671B需要使用大规格实例推荐选择ascend-910B-64GB或更高配置- 蒸馏版 32B 模型可以选择ascend-910B-32GB或GPU-P4级别- 如果对延迟不敏感但希望降低成本可以选择共享实例与其他用户共享底层资源价格更低实例数量建议从 1 开始后续根据访问量向上扩展。对于评测体验1 个实例已经足够。最大 tokens生成回复的最大 tokens 数量建议设置为 4096 或 8192。超时时间单次推理的最大等待时间建议设置 60 秒DeepSeek-R1 思考过程较长需要合理设置。VPC 配置如果你的业务应用部署在华为云 VPC 内可以配置私网访问这样不走公网延迟更低且更安全。配置完成后点击立即创建系统会开始部署。部署状态会依次经历创建中→启动中→运行中几个阶段。通常情况下5-15 分钟即可完成。3.4 第三步获取 API 凭证服务部署成功后进入服务详情页你会看到几个关键信息请求地址Endpoint形如https://maas-invoke.xxx.huaweicloud.com/v1/infers/{service_id}/chat/completionsAPI Key调用服务的鉴权密钥务必妥善保管这两个信息是后续所有 API 调用的基础。3.5 第四步通过 API 调用推理服务拿到 API 地址和密钥后我们来测试一下服务是否正常。使用 curl 发起一个简单的对话请求curl -X POST https://maas-invoke.xxx.huaweicloud.com/v1/infers/{service_id}/chat/completions \ -H Content-Type: application/json \ -H Authorization: Bearer YOUR_API_KEY \ -d { model: deepseek-r1, messages: [ {role: system, content: 你是一个有帮助的助手。}, {role: user, content: 请用 Python 写一个快速排序算法并解释其时间复杂度。} ], max_tokens: 2048, temperature: 0.7 }返回结果的结构与 OpenAI API 兼容形如{ id: chatcmpl-xxx, object: chat.completion, created: 1234567890, model: deepseek-r1, choices: [ { index: 0, message: { role: assistant, content: 好的我来写一个快速排序算法并分析它的时间复杂度。\n\npython\ndef quicksort(arr):\n if len(arr) 1:\n return arr\n pivot arr[len(arr) // 2]\n left [x for x in arr if x pivot]\n middle [x for x in arr if x pivot]\n right [x for x in arr if x pivot]\n return quicksort(left) middle quicksort(right)\n\n\n**时间复杂度分析**\n- 最佳情况均匀划分O(n log n)\n- 最坏情况已排序数组选第一个为基准O(n²)\n- 平均情况O(n log n)\n... }, finish_reason: stop } ], usage: { prompt_tokens: 45, completion_tokens: 320, total_tokens: 365 } }可以看到接口兼容了 OpenAI 的消息格式这意味着几乎所有支持 OpenAI API 的工具和框架都可以通过替换 API 地址和密钥来直接使用华为云 MaaS 的推理服务。3.6 性能评测真实调用体验我实际测试了若干典型场景这里分享一些关键评测数据测试环境单实例 ascend-910BDeepSeek-R1 满血版推理延迟对比任务类型输入 tokens输出 tokens首 token 延迟总耗时简单问答50~2001.2s3.5s代码生成100~5001.8s6.2s数学推理200~8002.5s12s长文总结3000~10003.1s15s注意以上数据为单次测试结果实际延迟会因并发量、网络状况等因素有所波动。但总体来看对于中等长度的对话延迟在可接受范围内。推理质量评价在数学推理GSM8K、MATH 数据集和代码生成HumanEval两个维度上DeepSeek-R1 的表现令人印象深刻。特别是面对需要多步推理的问题时它的思维链Chain-of-Thought能力明显优于同规格的闭源模型。其思考过程会以内部思维的形式呈现——在 API 返回中你能看到模型先做什么、再做什么的推理链条这对于调试和理解模型的决策过程非常有帮助。四、Flexus X 实例为 AI 应用量身定制的云服务器部署好推理服务后我们还需要一个应用服务器来运行业务代码。这里介绍华为云的 Flexus X 实例——一款主打柔性算力的云服务器。4.1 什么是 Flexus 云服务器Flexus 云服务器是华为云推出的一类轻量级但高性能的云服务器产品线。它有两个系列Flexus 应用服务器L 实例轻量级适合个人站、博客、测试环境Flexus 云服务器 X 实例性能更强标配柔性算力适合 Web 应用、后端服务、轻量级 AI 应用本文中使用的是Flexus X 实例因为 Dify 作为一个完整的企业级 AI 应用平台对 CPU、内存、磁盘 IO 都有一定要求Flexus X 实例刚好能满足。Flexus X 实例的核心特点是柔性算力——也就是说你可以根据自己的实际需求自由组合 CPU 和内存的比例而不是被固定规格如 2C4G、4C8G限制。这对于 Dify 这类应用来说非常实用你可以把资源配置更多地倾斜到内存上因为 Dify 依赖的向量数据库和 Embedding 服务比较吃内存而不是机械地跟着标准配置走。4.2 创建 Flexus X 实例创建过程非常简单在华为云控制台搜索Flexus 云服务器 X 实例点击购买弹性云服务器在规格选择页面找到 Flexus X 系列推荐配置2 核 CPU 8 GB 内存 40 GB 系统盘 40 GB 数据盘足以流畅运行 Dify 向量数据库系统镜像选择Ubuntu 22.04 LTS或CentOS 7.9本文以 Ubuntu 22.04 为例。安全组配置需要开放以下端口-22SSH 远程连接-80HTTP 访问-443HTTPS 访问如果需要-3000Dify 前端页面可选建议用 Nginx 反向代理创建完成后等待 1-2 分钟你会获得一个公网 IP 和 SSH 登录凭据。4.3 初始环境配置登录到 Flexus 实例后先做一些基础配置# 系统更新 sudo apt update sudo apt upgrade -y # 安装 Docker 和 Docker ComposeDify 依赖容器化部署 curl -fsSL https://get.docker.com | bash -s docker sudo systemctl enable docker sudo systemctl start docker # 安装 Docker Compose Plugin sudo apt install -y docker-compose-plugin # 验证安装 docker --version docker compose version五、实战在 Flexus 上一键部署 DifyDify 是一个开源的 LLM 应用开发平台它简化了 AI 应用从原型到生产的全流程。简而言之它让你用可视化的方式编排 AI 工作流而不需要从零搭建后端。5.1 Dify 是什么用一句话理解 Dify它是 AI 应用的低代码平台。它提供了可视化工作流编排通过拖拽节点来设计 AI 应用的逻辑流程RAG 引擎内置文档导入、文本分段、向量化、检索等完整管线Prompt 管理支持版本控制、A/B 测试多种模型对接可接入 OpenAI、DeepSeek、通义千问等各种大模型API 发布一键将 AI 应用发布为 REST API5.2 获取 Dify 部署资源华为云的新方案中直接在 Flexus 上集成了 Dify 的一键部署能力。但为了完整性这里也说明手动部署方式方式一华为云市场一键部署推荐在华为云控制台的云市场中搜索Dify可以看到Dify 企业级 AI 应用开发平台的镜像或部署模板。选择后系统会自动在 Flexus 实例上部署 Dify 的所有组件。整个过程完全自动化通常 3-5 分钟即可完成。方式二手动部署更利于深入了解# 克隆 Dify 项目 git clone https://github.com/langgenius/dify.git cd dify/docker # 复制环境配置 cp .env.example .env # 启动所有服务 docker compose up -dDify 由多个容器组成核心服务包括-api后端 API 服务Flask-web前端页面Next.js-dbPostgreSQL 数据库-redis缓存与消息队列-weaviate/qdrant向量数据库用于 RAG启动后使用docker compose ps查看所有容器的状态确认全部为Up。5.3 访问 Dify 管理后台在浏览器中输入http://你的服务器IP:3000即可看到 Dify 的初始化页面。按照引导创建管理员账户后你就能进入 Dify 的主界面了。主界面主要由几个部分构成-工作室Studio创建和管理 AI 应用的地方-知识库Knowledge上传文档、构建 RAG 知识库-工具Tools连接外部 API 和工具-监控Monitor查看日志、调用统计、成本分析六、核心实战将 DeepSeek 接入 Dify 搭建 RAG 应用现在我们拥有两样东西1.MaaS 上的 DeepSeek-R1 推理服务API ready2.Flexus 上的 Dify 应用平台管理后台 ready是时候让它们协同工作了6.1 在 Dify 中配置 DeepSeek 模型首先我们需要告诉 Dify 如何使用 DeepSeek。点击右上角的头像 →「设置」→「模型供应商」找到DeepSeek或OpenAI-API-compatible因为 MaaS 接口兼容 OpenAI 格式添加模型配置模型类型LLM 模型名称deepseek-r1 API 地址你的 MaaS 服务 Endpoint如 https://maas-invoke.xxx.huaweicloud.com/v1/infers/{service_id} API 密钥你的 MaaS API KeyDify 支持自定义 API 端点这是它强大的适配能力之一。只要模型接口兼容 OpenAI 格式Dify 都能无缝对接。配置好之后在 Dify 的对话界面底部选择模型时就会出现deepseek-r1的选项。我们来测试一下在对话界面选择 DeepSeek-R1输入请用中文解释什么是向量数据库观察回复的质量和速度。如果一切正常恭喜你DeepSeek 已经成功接入了 Dify6.2 构建 RAG 知识库RAGRetrieval-Augmented Generation检索增强生成是当前大模型应用中最核心的模式之一。它的原理不难理解当用户提问时先从知识库中检索相关文档片段然后把这些片段作为上下文提供给大模型让模型基于真实资料来回答而不是凭空发挥。在 Dify 中构建知识库非常简单进入「知识库」页面点击创建知识库上传你的文档支持 PDF、TXT、Markdown、HTML、Word 等多种格式选择分段策略按段落、按字符数、按语义边界等选择 Embedding 模型进行向量化指定检索方式向量检索、全文检索、混合检索这里我们需要选择 Embedding 模型。Dify 内置了多种 Embedding 模型选项包括 OpenAI Embeddings、text2vec 等。如果华为云 MaaS 平台同时提供了 Embedding 服务也可以直接在 Dify 中配置。为了演示我们构建一个DeepSeek 技术文档知识库上传一些 DeepSeek 相关的技术文章和官方文档作为素材。6.3 创建 AI 助手应用知识库准备好后我们来创建一个完整的 AI 问答应用回到「工作室」页面点击创建空白应用选择「聊天助手」类型配置 Prompt 和上下文核心配置项应用名称DeepSeek 智能助手 模型选择deepseek-r1刚配置好的 系统提示词 你是一个精通 DeepSeek 模型的技术专家。 请基于提供的知识库内容回答用户问题。 如果知识库中没有相关信息礼貌地告知用户 并给出获取信息的建议。 回答要详细、准确必要时提供代码示例。 知识库DeepSeek 技术文档勾选 检索策略混合检索 检索数量3-5 个片段6.4 发布和测试配置完成后点击发布你的应用就有了一个可访问的 URL 和一个 API 端点。Web 界面测试直接通过 Dify 提供的嵌入 URL一个功能完整的 DeepSeek 知识问答助手就上线了。API 调用测试Dify 会自动为每个应用生成一个 API 端点同样兼容 OpenAI 格式。你可以通过这个 API 将 AI 能力嵌入到自己的应用中import requests url https://你的服务器IP/api/v1/chat-messages headers { Authorization: Bearer DIFY_APP_API_KEY, Content-Type: application/json } data { inputs: {}, query: DeepSeek-R1 在数学推理方面表现如何有哪些核心技术, response_mode: streaming, user: test-user-1 } response requests.post(url, headersheaders, jsondata, streamTrue) for line in response.iter_lines(): if line: print(line.decode(utf-8))这里的关键点在于Dify 在后端帮你完成了检索 上下文拼接 调用 DeepSeek 模型 流式返回的全过程你只需要调用一个 API 即可。6.5 实测效果完成上述配置后我进行了一些实测对比场景 1知识库内问题用户提问DeepSeek-R1 的训练数据包含哪些类型没有知识库时模型会根据预训练知识回答可能不准确有知识库时模型从上传的文档中检索出相关信息回答基于具体文档内容准确率显著提升场景 2代码辅助用户提问如何用 DeepSeek 实现一个对话摘要功能即使知识库中没有直接相关的文档DeepSeek-R1 本身也具备强大的代码生成能力生成的代码质量高且附带了详细的说明场景 3混合检索带来的提升Dify 的混合检索模式向量检索 关键词检索能在同一个查询中将两者的优势结合起来。对于技术问题关键词检索能命中专业术语而向量检索能捕捉语义相似的表述——两者互补效果远胜单一的检索方式。七、性能优化与成本控制建议部署上线只是第一步如何让系统跑得好、跑得省才是长期运营的关键。7.1 推理服务优化1. 合理选择模型规格不是所有场景都需要满血版 DeepSeek-R1。简单分类场景复杂度推荐模型成本对比简单 FAQ、闲聊DeepSeek-R1-Distill-Qwen-7B约满血版的 1/20中等复杂度代码解释、文档问答DeepSeek-R1-Distill-Qwen-32B约满血版的 1/10高复杂度数学推理、复杂代码生成DeepSeek-R1671B基准2. 批量推理对于非实时场景如批量文档处理、离线数据分析可以合并多个请求进行批量推理大幅降低单次调用成本。Dify 的「工作流」模式天然支持批量处理场景。3. 缓存常见问题Dify 支持配置 Redis 缓存对高频重复的问题如你们的系统支持哪些模型可以缓存回复完全避免调用大模型。相似问题也可以通过语义缓存命中。7.2 Dify 性能调优1. 向量数据库选择如果知识库规模较大10 万条文档以上建议选择 Qdrant 替代 Weaviate。Qdrant 在检索性能和资源占用方面都更优。修改方式在 Dify 的docker-compose.yml中将weaviate服务替换为qdrant并在环境变量中更新向量数据库类型。2. 分段策略调优文档分段是 RAG 的核心参数。经验参数标准技术文档分段大小 500-1000 tokens重叠 50-100 tokens代码文档分段大小 300-500 tokens代码块通常较小长文档章节按 Markdown 标题分割保留层级结构Dify 支持在创建知识库时自定义分段参数也可以后续调整。3. Nginx 反向代理不建议直接暴露 Dify 的 3000 端口到公网。稳妥的做法是配置 Nginx 反向代理加上 SSL 证书和域名server { listen 443 ssl; server_name your-domain.com; ssl_certificate /etc/ssl/certs/your-cert.pem; ssl_certificate_key /etc/ssl/private/your-key.pem; location / { proxy_pass http://127.0.0.1:3000; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_buffering off; # 流式输出需要关闭缓冲 } }7.3 成本监控Dify 自带监控面板可以查看- 每日 API 调用次数和 tokens 消耗- 各模型的使用量分布- 各应用的成本情况结合华为云 MaaS 平台的监控可以对每个推理服务设置告警阈值你可以精确掌握整体运营成本。一个典型的最小可行配置的成本估算月度项目配置估算月费Flexus X 实例2C8G约 100-200 元DeepSeek-R1 推理每天约 10 万 tokens约 50-100 元数据盘40 GB约 20-30 元总计约 170-330 元/月这对个人开发者和中小企业来说是一个非常友好的人门成本。八、常见问题与避坑指南在实际操作过程中我遇到了以下几个典型问题这里一并整理分享8.1 MaaS 部署中的常见问题Q1部署失败提示资源不足可能是所选实例规格在当前可用区没有足够的资源。可以尝试- 换一个可用区重新部署- 选择其他实例规格- 联系客服申请扩容Q2API 调用返回 401 Unauthorized检查 API Key 是否正确注意是否是 Bearer Token 格式Authorization: Bearer xxx以及密钥是否已过期。Q3服务响应超时DeepSeek-R1 在处理复杂推理问题时思考过程可能很长。如果总是超时可以- 增加 API 调用中的max_tokens和客户端超时时间- 使用蒸馏版本降低推理时间- 检查网络连接是否稳定8.2 Flexus Dify 部署中的常见问题Q4Dify 容器启动失败通常是端口冲突或配置文件问题。查看具体错误docker compose logs常见原因3000 端口已被占用、PostgreSQL 初始化失败、docker-compose.yml中的环境变量配置错误。Q5Dify 无法连接 MaaS API先确认 MaaS 的 API 在外部可以正常调用用 curl 测试然后检查 Dify 中的 API 端点配置是否完整——注意地址末尾不要有多余的斜杠或路径。Q6知识库检索不准确这是一个常见问题。可以尝试以下调优步骤1. 调整文档分段大小和重叠窗口2. 选择更好的 Embedding 模型3. 调整检索参数top_k、相似度阈值等4. 检查知识库文档的质量和覆盖范围8.3 安全与合规提醒无论如何请记住以下几点API 密钥妥善保管不要在代码中硬编码 API Key使用环境变量或密钥管理服务内容审核生产环境中建议开启内容审核防止用户通过 Prompt 注入获取不当回复数据隐私如果处理敏感数据建议使用华为云 VPC 私网部署不走公网日志管理规范日志记录确保在出现问题时可以追溯九、总结与展望9.1 方案总结通过本文的完整实战我们完成了一个端到端的 DeepSeek 应用部署方案┌─────────┐ MaaS API ┌────────┐ HTTP ┌───────────┐ │DeepSeek │ ────────────── │ Dify │ ────────── │ 用户/应用 │ │ 推理服务 │ (OpenAI兼容格式) │ AI平台 │ (REST API) │ │ └─────────┘ └────────┘ └───────────┘ ↑ ↑ 华为云 MaaS Flexus X 实例这个方案的三大核心价值零基础设施运维MaaS 平台帮你管好了 GPU 集群和模型部署快速应用搭建Dify 的可视化编排让 AI 应用开发从月缩短到天灵活扩展从个人项目到企业级应用架构天然支持平滑演进9.2 适用场景分析这个方案特别适合以下场景中小企业的智能客服系统基于 RAG 构建企业知识库问答提升客服效率开发团队的代码辅助工具将 DeepSeek 的代码能力集成到内部开发平台教育领域的智能导学系统基于知识库回答学生问题辅助教学个人开发者的 AI 应用原型快速验证 AI 产品想法降低试错成本9.3 延伸思考华为云 MaaS Flexus Dify 的组合本质上代表了 AI 基础设施的一个新趋势从硬件层到模型层再到应用层全栈云原生化。对于开发者而言这意味着- 不需要再当 GPU 运维工程师- 不需要在模型部署上耗费大量精力- 可以把更多时间投入到真正创造价值的业务逻辑上这也许正是 AI 应用走向普惠化的关键一步。更多 DeepSeek 实战内容如果你想深入了解 DeepSeek 的模型架构、推理优化和高级应用技巧可以参考我的另一篇文章 《从零实现 DeepSeek 推理引擎手写 KV Cache 与 MoE 路由》里面详细讲解了 DeepSeek 底层原理与手写实现。 关于华为云 MaaS 详细文档可以参阅- 华为云 ModelArts 文档- 华为云 Flexus 云服务器文档- Dify 官方文档本文为 CSDN 有奖征文投稿如果你有更好的部署方案或踩坑经历欢迎在评论区交流讨论