**看完你能得到什么**一个跑在本地的私有RAG知识库上传文档后可以直接对话提问。全程断网可用数据不出你的电脑。这篇文章适合谁有不方便上传到公有云的文档合同、内部手册、客户资料想用 AI 检索想在本地 GPU 上跑一个知识库问答系统不想付费买云端方案已经看过别人的教程但没跑通这篇针对 RTX 4070 Ti 真实踩坑想尝试在自己电脑上搭建RAG的朋友前置条件项目要求硬件NVIDIA RTX 4070 Ti12 GB 显存或类似配置最低 8 GB 显存系统WSL2Ubuntu 22.04或原生LinuxCUDA 版本≥ 11.8推荐 12.1提前装好Githttps://git-scm.com/下载量模型约 5 GBQwen2.5-7B Q4_K_M 1.3 GBbge-large-zh建议预留30G SSD空间。预计耗时30-上不封顶要下模型取决于网速难度中等为什么选 Langchain-Chatchat也想尝试Dify、AnythingLLM、PrivateGPT。但是Dify 太重Docker PostgreSQL Redis 全家桶AnythingLLM 本地模型问答延迟高。Langchain-Chatchat 是一个纯 Python 项目在 12 GB 显存上同时跑嵌入模型 Qwen 量化 LLM问答延迟不到 2 秒中文生态也最好社区全中文有问题搜得到就好解决。架构速览你的文档PDF/Word/TXT │ ▼嵌入模型bge-large-zh-v1.51.3 GB 显存 │ 将文档转成向量 ▼向量数据库FAISS │ ▼LLMQwen2.5-7B-Instruct Q4_K_M5 GB 显存 │ 根据检索到的文档片段生成答案 ▼回答显存预算 12 GB 组件占用嵌入模型 bge-large-zh-v1.5 (FP16)~1.3 GBLLM Qwen2.5-7B Q4_K_MOllama~5 GBFAISS 向量索引1 万份文档~0.2 GB剩余给 KV Cache / 上下文~5.5 GB合计12 GB ✓ 刚好够5.5 GB 的 KV cache 足够支持约 8000-12000 token 的上下文窗口覆盖绝大多数文档问答场景。如果你的文档单篇超过 3 万字建议切分后再上传。环境准备1 确认 CUDA 可用nvidia-smi期望正确的输出举例-----------------------------------------------------------------------| NVIDIA-SMI 560.35.03 Driver Version: 560.35.03 CUDA Version: 12.6 ||-----------------------------------------------------------------| GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC || Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |||| 0 NVIDIA GeForce RTX 4070 Ti | 00000000:01:00.0 On | N/A || 30% 45C P8 9W / 285W | 1689MiB / 12282MiB | 0% Default |-----------------------------------------------------------------------以我的配置举例输入指令后得到的反馈这里咱们重点关注三个数字CUDA Version我的右上角是 13.3、12282 MiB确认显存总量、RTX 4070 Ti确认显卡型号。以下是CUDA 版本要求版本能否使用说明CUDA 12.x12.1-12.6✅ 推荐完美匹配 PyTorch cu121零磨合CUDA 11.8✅ 可用需改用 cu118 版 PyTorch见下一步功能无差异CUDA 11.0-11.7⚠️ 不推荐PyTorch 官方已停止为这些版本提供预编译包低于 11.0❌ 不可用bge-large-zh 和 Qwen 的底层算子需要较新的 CUDAnvidia-smi 显示的 CUDA Version 和实际装的 CUDA Toolkit 是两回事nvidia-smi 右上角显示的是驱动最高支持版本比如 12.6你实际安装的 CUDA Toolkit 版本才是 PyTorch 编译时对标的版本。我们用 PyTorch 预编译包cu121不需要手动装 CUDA Toolkit——PyTorch 自带所需的 CUDA 运行时。只要驱动的 CUDA Version ≥ 11.8你就放心往下走。Langchain-Chatchat 依赖 GPU 加速——嵌入模型用 CUDA 比 CPU 快 10 倍以上LLM 推理更是依赖 GPU。如果 nvidia-smi 报错或显存不足后面所有步骤都是无效的。这一步是全链路的第一道关卡5 秒钟省掉后面半小时的盲目操作。一些报错现象原因解决nvidia-smi: command not found没装 NVIDIA 驱动或 WSL 内路径没配WSL 用户驱动必须装在 Windows 侧不是 WSL 里。去 NVIDIA 官网下载 Windows 版 Game Ready 驱动安装后在 PowerShell 执行 wsl --shutdown再重新打开 WSL有输出但没有 NVIDIA GPU集成显卡或 AMD 显卡只有 NVIDIA 显卡才能用 CUDA。AMD 显卡需要用 ROCm本教程不覆盖显存 8 GB显存不够同时跑嵌入模型 LLM① 嵌入模型用 CPU 跑改 EMBEDDING_DEVICE “cpu”省 1.3 GB② LLM 换成 Qwen2.5-3B约 3 GB但问答质量会下降驱动版本 11.8驱动太老去 NVIDIA 官网下载最新驱动覆盖安装2 安装 Ollama管理 LLM一行命令就可以装上curl -fsSL https://ollama.com/install.sh | sh装好后打开就是这个样子这里我们有两个模型要管——嵌入模型bge和对话模型Qwen。嵌入模型很小1.3 GB直接用 Python 库加载就行但 Qwen 7B 的量化版本有 5 GB手动管理 GGUF 文件 配置推理参数很麻烦。Ollama 一行命令下载、一行命令启动服务、统一的 API 接口比自己折腾 llama.cpp 省一半时间。现象解决curl: command not foundsudo apt install curl -y下载速度极慢 / 连接超时去 Ollama GitHub Releases 下载 .tar.gz解压后 sudo mv bin/ollama /usr/local/bin/安装成功但ollama命令找不到新开一个终端或执行 source ~/.bashrc安装后验证ollama --version得到ollama版本号代表安装成功3 创建 Python 虚拟环境3.1 先进wsl系统在终端输入wsl忽视我的那两条报错wsl3.2 接着安装virtualenv安装virtualenv是为了避免直接用python3安装虚拟环境而出现的sudu密码报错所以我们这里直接用清华源安装virtualenv然后用virtualenv创建环境pip3 install --break-system-packages virtualenv -i https://pypi.tuna.tsinghua.edu.cn/simple3.3 用virtualenv创建环境virtualenv ~/langchain-chatchat-env source ~/langchain-chatchat-env/bin/activate环境创建好之后终端前缀会加上langchain-chatchat-env的字样就代表虚拟环境配好了。为什么要单独配一个虚拟环境Langchain-Chatchat 依赖十几个 Python 包torch、transformers、sentence-transformers、faiss、langchain 等版本之间有严格的兼容关系。如果你在系统 Python 里直接 pip install很快会跟其他项目的依赖打架。虚拟环境 给这个项目一个独立的小房子。就算里面打得天翻地覆外面你的系统 Python 和 Hermes 完全不受影响。装坏了删掉重来就是一瞬间的事。现象解决python3: command not foundsudo apt install python3 python3-pip -yensurepip is not availablesudo apt install python3-venv -y。如果 sudo 不可用直接 pip install --break-system-packages不推荐但能救命source 后终端前缀没变确认路径正确ls ~/langchain-chatchat-env/bin/activate 存在吗**怎么知道虚拟环境已激活**终端前缀会变成 (langchain-chatchat-env)。后面所有 pip install 和 python 命令都必须在这个环境下执行。如果关了终端重新打开后需要重新执行 source 那行。4 安装 PyTorch如果你的CUDA是12.x12.1-12.6或更高比如我13.3那用下面这串指令pip install torch2.6 torchvision --index-url https://download.pytorch.org/whl/cu121如果你nvidia-smi 的 CUDA Version 是 11.x把 cu121 改成 cu118pip install torch2.6 torchvision --index-url https://download.pytorch.org/whl/cu118输入指令后就是等如果安装过程中出现下图我这种的黄色WARNING提示并且Read timed out不用担心这可能是当时拉取下载时网络波动导致没下载到会自动尝试重连下载也就是WARNING后面会紧接着显示Downloading整个下载过程大概会装20-30个包大小大概3G。等了大概10分钟当看到出现Successfully installed就说明安装成功了。然后我们验证一下验证 GPU 可见python3 -c import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0))输出True和 你的显卡型号 那就对味了**。**PyTorch 默认从 PyPI 安装的是 CPU 版本没有 CUDA 支持。如果装了 CPU 版跑 Langchain-Chatchat嵌入速度从秒级变成分钟级LLM 推理直接无法加载到 GPU 上。指定 cu121 索引确保下载的是 CUDA 12.1 编译版本。一些可能遇到的报错现象解决torch.cuda.is_available() 返回 False最常见装了 CPU 版 PyTorch。pip listtorch.cuda.get_device_name(0) 报错GPU 序号问题。试试 python3 -c “import torch; print(torch.cuda.device_count())”如果输出 0回退到上一步排查驱动pip 下载慢加清华源pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple5 克隆项目 安装依赖code-snippet__js # 克隆项目 git clone https://github.com/chatchat-space/Langchain-Chatchat.git # 进入项目文件这里的名字必须和你下载的项目名字相同如果你是在镜像下载名字可能会出现小写 cd Langchain-Chatchat# 安装依赖,直接用手工安装 # 锁定 langchain 版本必须新版 langchain 1.x 不兼容 pip install langchain0.1.17 langchain-core0.1.53 langchain-community0.0.36 \ langchain-openai0.0.6 langchain-experimental0.0.58 langchain-text-splitters0.0.2 \ langsmith0.1.17 sentence_transformers faiss-cpu PyMuPDF \ -i https://pypi.tuna.tsinghua.edu.cn/simple # 从本地子包安装项目本身 pip install libs/chatchat-server --no-deps -i https://pypi.tuna.tsinghua.edu.cn/simple # 批量补装剩余依赖 pip install htbuilder humanlayer jieba json_repair langchainhub loguru markdownify \ mcp nest_asyncio numexpr opencv-python openpyxl pathlib pyjwt pymysql \ python-docx python-multipart rank_bm25 rapidocr_onnxruntime ruamel_yaml \ streamlit1.34.0 streamlit-aggrid1.0.5 streamlit-antd-components0.3.1 \ streamlit-chatbox1.1.12.post4 streamlit-extras0.4.2 streamlit-modal0.1.0 \ streamlit-option-menu0.3.12 streamlit-paste-button0.1.2 strsimpy memoization \ httpx0.27.2 chardet \ -i https://pypi.tuna.tsinghua.edu.cn/simple#安装项目 如果你的python是3.10-3.11 pip install langchain-chatchat -Ups:为什么锁死所有版本号langchain-chatchat 0.3.1.3 基于 langchain 0.1.x 开发清华源默认装的是不兼容的 1.x。锁版本 一劳永逸。为什么 streamlit 锁 1.34.0新版移除了 experimental_dialog 等 API项目 WebUI 依赖它们。为什么 httpx 锁 0.27.2新版移除了 proxies 参数导致 API 通信全部报错。注意上方的安装方式适合大多数人但是如果你的python跟我一样是3.12由于官方明确表示目前是支持到了3.11所以我们3.12安装大概率报错。跟我下面的代码进行安装即可。#手动安装,跳过依赖因为我们已经装过了 pip install faiss-cpu -i https://pypi.tuna.tsinghua.edu.cn/simple pip install . --no-deps -i https://pypi.tuna.tsinghua.edu.cn/simple装好之后验证一下全部依赖是否都安装上了#验证依赖,输出✓ 全部OK就代表安装依赖都成功 python3 -c import langchain, fastapi, fitz, sentence_transformers; print(✓ 全部OK)缺什么依赖会告诉你复制后发给你的Agent它会给你代码。装完之后回到项目根目录以便咱们继续后面的配置cd /mnt/c/Users/你的用户名/langchain-chatchat注意装基础依赖的两次pip顺序不要搞反了langchain-chatchat 是项目本身包。分开来是为了——如果装到一半报错你能立刻定位是哪一步出了问题。揉在一起装报错了根本不知道是谁的锅。pip install -r requirements.txt这一步如果报错就直接输入pip install一些可能遇到的报错现象解决第一步克隆项目 git clone 超时 / 连不上 GitHub 建议大家直接用镜像① 用镜像git clone https://ghproxy.com/https://github.com/chatchat-space/Langchain-Chatchat.git ② 去 Gitee 搜 Langchain-Chatchat 搬运仓库我搜到的是git clone https://gitee.com/mirrors/langchain-chatchat.gitfaiss-gpu 装不上直接装 CPU 版pip install faiss-cpu然后编辑 requirements.txt 删掉 faiss-gpu 那行externally-managed-environment确认虚拟环境已激活。如果已激活还报错加 --break-system-packages 参数版本冲突如 numpy先 pip install -r requirements.txt看具体哪个包报错手动指定兼容版本下载模型两个模型需要分别下载嵌入模型向量化文档和 LLM生成回答。它们在系统里的角色完全不同。嵌入模型BAAI/bge-large-zh-v1.5python3 -c from sentence_transformers import SentenceTransformer; SentenceTransformer(BAAI/bge-large-zh-v1.5)这里我直接用的镜像版在下面“一些可能遇到的报错现象”板块复制我的这串镜像代码。项目数值大小1.3 GBFP16中文效果在 C-MTEB 中文基准上排名前列最大输入长度512 token嵌入模型 图书管理员负责把书分类上架LLM 学者负责根据找到的书回答问题。你不能让学者同时管理图书馆。**为什么是 bge-large-zh-v1.5**BAAI北京智源出品C-MTEB 中文检索任务常年第一。large 版本虽然 1.3 GB但检索精度比 base 版本高出一截。在 12 GB 显存里多花 1 GB 换更高的召回率完全值得——检索质量是知识库问答的天花板。一些可能遇到的报错现象解决下载极慢国内直连慢export HF_ENDPOINThttps://hf-mirror.com 然后重新运行 也可以直接用这个code-snippet__js HF_ENDPOINThttps://hf-mirror.com python3 -c from sentence_transformers import SentenceTransformer; SentenceTransformer(BAAI/bge-large-zh-v1.5)sentence_transformers 模块找不到pip install sentence-transformers下载到一半断了模型缓存在 ~/.cache/huggingface/hub/重新运行会断点续传。若混用了直连和镜像删掉缓存重试LLMQwen2.5-7B-InstructQ4_K_M 量化ollama pull qwen2.5:7b-instruct-q4_K_M项目数值大小~5 GB量化方式Q4_K_M4-bit中等质量中文能力原生中文模型中文问答效果极佳为什么选 7B 而不是 3B 或 14B•3B太小知识面窄复杂问题容易胡说。省下来的显存做不了别的事。•14B太大量化后 8 GB加上嵌入模型只剩不到 3 GB 给上下文。•7B刚好。Q4_K_M 量化后 5 GB中文问答效果足够好显存还剩 5.5 GB 给上下文。**为什么用 Q4_K_M**Qwen2.5-7B 原始 BF16 是 14 GB一张卡装不下。Q4_K_M 是 llama.cpp 团队调出来的 4-bit 甜点——比 Q5 省 2 GB比 Q3 质量明显更好。实测几乎感觉不到和完整精度的区别。**为什么用 Ollama**集成 llama.cpp自动处理量化加载、显存管理。你用 transformers 要手动写 20 行加载代码Ollama 一行命令搞定并提供了标准 OpenAI 兼容 API。现象解决ollama: command not foundOllama 没装上。重新执行第 2 步下载速度极慢Ollama 注册表在国内直连可能慢。设置代理或手动下载 GGUF 后导入显存不足警告nvidia-smi 检查是否有其他程序占用显存验证模型加载成功# 测试嵌入模型HF_HUB_OFFLINE1 python3 -c from sentence_transformers import SentenceTransformerm SentenceTransformer(BAAI/bge-large-zh-v1.5)print(嵌入模型加载成功, 输出维度:, m.encode(测试).shape)# 测试 LLMollama run qwen2.5:7b-instruct-q4_K_M 你好11等于几正确输出嵌入模型 → 嵌入模型加载成功, 输出维度: (1, 1024)LLM → 你好11等于2。安装和下载都是异步的——你敲了命令不代表东西真的对了。花 30 秒在这里验证省掉后面排查 10 分钟。另外敲了验证代码请耐心等待加载模型需要一定时间超过5min就别等了问AI。配置初始化配置# 进入子包目录新版是 monorepo 结构cd libs/chatchat-server# 创建所需目录新版不会自动创建mkdir -p data/knowledge_base data/media data/temp data/logs# 初始化知识库python3 chatchat/init_database.py --recreate-vs新版没有 copy_config_example.py了首次启动时配置自动生成data目录需要手动创建缺少任一目录启动都会报错。需要修改的配置项配置文件在data/basic_settings.yaml首次启动后自动生成。若使用默认 Ollama 配置则无需修改——项目会自动检测 Ollama 中的模型。如需手动配置# LLM 配置 LLM_MODELS [qwen2.5:7b-instruct-q4_K_M]OLLAMA_API_BASE http://localhost:11434/v1# 嵌入模型配置 EMBEDDING_MODEL BAAI/bge-large-zh-v1.5EMBEDDING_DEVICE cuda# 向量库配置 VECTOR_STORE faissVECTOR_STORE_PATH ./knowledge_base# 文本分割配置 CHUNK_SIZE 500 # 每个文本块最大 token 数CHUNK_OVERLAP 50 # 相邻块重叠 token 数参数含义建议值为什么LLM_MODELS使用的对话模型qwen2.5:7b-instruct-q4_K_M12 GB 显存最佳选择中文效果和显存占用的平衡点OLLAMA_API_BASEOllama 服务地址http://localhost:11434/v1末尾 /v1 不能丢——这是 OpenAI 兼容接口的前缀EMBEDDING_MODEL向量化模型bge-large-zh-v1.5中文检索精度最高的开源嵌入模型之一EMBEDDING_DEVICE嵌入模型运行设备cuda用 CPU 嵌入一份 500 页 PDF 需要几分钟用 GPU 需要几十秒CHUNK_SIZE文本分块大小500太小语义断裂太大检索不准。500 是甜点CHUNK_OVERLAP相邻块重叠量50防止关键信息恰好落在块边界被截断VECTOR_STORE向量数据库faissMeta 出品纯 CPU个人知识库最快最省事启动 #终于要启动了# 确保在子包目录下cd libs/chatchat-server# Windows 版 Ollama 用户在 WSL 里这样调/mnt/c/Users/用户名/AppData/Local/Programs/Ollama/ollama.exe serve # 等 2 秒sleep 2# 启动python3 chatchat/startup.py -a**为什么先 ollama serve **Ollama 不是开机自启。如果没在跑会报 connection refused。**为什么 sleep 2**ollama serve 是异步的2 秒让它初始化完。**为什么 放到后台**不加 会占据终端不返还。**为什么 -a**启动全部服务API WebUI。不加只启动一个。启动成功后显示浏览器打开http://localhost:8501也可能是http://0.0.0.0:8501****进入 Web 界面。现象解决ModuleNotFoundError虚拟环境没激活或依赖没装全。重新 source 激活环境再 pip install -r requirements.txtConnection refusedOllama 没启动。手动 ollama serve 在前台跑一次看日志启动卡住不动第一次要加载两个模型到显存正常需 30-60 秒。超过 2 分钟用 nvidia-smi 看显存端口被占用lsof -i :8501 找到 PIDkill -9 后重试WSL 用户 localhost 打不开ip addr show eth0 找 WSL IP用那个 IP 替代 localhost上传文档并测试 #先快速拿到结果增长信心准备测试文档用你自己的文档做测试。如果没有先用一段文本试试创建 test.txt最好是写一段你擅长的领域知识我是让Hermes直接出了个md格式的测试数据集比如下文为部分片段Hermes 采用声明式工具定义每个工具包括三个核心属性 yaml tool: name: terminal description: Execute shell commands on Linux environment parameters: - name: command type: string required: true - name: timeout type: integer default: 180工具的调用流程为用户输入 → Gateway 解析 → 匹配工具 → 生成 tool_call → 执行 → 结果注入上下文 → 模型生成回复。 大家尽量用自己熟悉的文档测试——AI 答错了你才能立刻判断。第一轮测试决定你对这个工具的信心。 ### 上传到知识库 1. WebUI → 知识库管理 → 新建知识库填好名称、简介 ![](http://cdn.zhipoai.cn/c38e40fd.jpg) 2. 上传知识 ![](http://cdn.zhipoai.cn/c413ef8f.jpg) 3. 看到文档内容被正确分割成片段就代表导入成功 ![](http://cdn.zhipoai.cn/ee2b3c75.jpg) ### 测试问答 在对话界面选择刚才创建的知识库 ![](http://cdn.zhipoai.cn/98138898.jpg) 提问1 plaintext Hermes Agent的核心调度器叫什么它负责哪些职责可以看到匹配到了知识库的内容并引用了来源**正确回答**回答 Gateway列出消息路由/工具调度/模型选择/上下文管理。提问2bge-large-zh-v1.5的输出维度是多少中文MTEB排名第几索引正确。回答正确**1024 维#1**知识库问答最大的风险是 LLM 胡说八道。来源引用让你能追溯到原始文档——没有来源引用的回答默认当它不存在。现象原因解决回答完全不对无来源引用知识库没选对或向量化没完成确认对话界面选了正确知识库。回知识库管理检查向量化状态回答大方向对但细节有误LLM 幻觉——没检索到精确片段把 CHUNK_SIZE 调小如 300让检索更细回答像通用聊天检索没召回内容提问改得更精确直接引用文档里的关键短语常见问题速查问题解决根因nvidia-smi 不显示 CUDA 版本WSL 内需安装 Windows 端的 NVIDIA 驱动WSL 的 GPU 驱动在 Windows 侧Ollama connection refused先执行 ollama serveOllama 是手动启动的嵌入模型下载极慢export HF_ENDPOINThttps://hf-mirror.comHuggingFace 国内直连慢CUDA out of memory关闭其他占用显存的程序 / 调小 CHUNK_SIZE / 换更小 LLM显存被占用faiss 安装失败pip install faiss-cpufaiss-gpu 依赖特定 CUDA 版本以上整体就算搭建完成了如果你跟着我的教程做也难免会遇到很多报错的地方请放宽心态多和Agent对话或者直接后台私聊我我看到了都会第一时间帮你们解决后面也整理了一份踩坑实录以及完整依赖清单希望可以帮到大家。这个工具在我的 AI 链里放在哪Hermes 负责执行任务Obsidian 负责记笔记Langchain-Chatchat 负责检索我的知识库。三个工具串起来知识库查到的东西 → 喂给 Hermes → 结果写进 Obsidian。下一篇预告把 Langchain-Chatchat 的知识库接进 Hermes让 AI 助手直接检索你的私有文档来回答问题。你会发现——你不需要记住任何东西因为你的 AI 链已经帮你记好了。踩坑记录以下是我从零搭建 Langchain-Chatchat 过程中踩过的所有坑。RTX 4070 Ti Python 3.12 国内网络环境实录。坑 1python3 -m venv 报 ensurepip is not available**现象**创建虚拟环境时报错需要 apt install python3-venv但 sudo 需要密码。**解决**用 virtualenv 替代——pip install virtualenv virtualenv ~/langchain-chatchat-env。功能完全相同不需要 sudo。坑 2GitHub git clone 超时或速度慢如蜗牛跑马拉松**现象**Receiving objects 极慢最终 RPC failed: Connection timed out。**解决**用 Gitee 官方镜像 git clone https://gitee.com/mirrors/langchain-chatchat.git速度可达 8 MiB/s。坑 3pip install langchain-chatchat 报 Python 3.12 不支持**现象**所有版本都标记了 !3.12.*pip 拒绝安装。**解决**从本地子包源安装绕过 PyPI 版本检查——cd libs/chatchat-server pip install . --no-deps。坑 4poetry 依赖解析卡死**现象**poetry install 永远停在 “Finding the necessary packages for the current system”。**解决**放弃 poetry手工用 pip 清华源逐组装依赖。坑 5langchain 版本地狱**现象**反复出现 ModuleNotFoundError: langchain_core.pydantic_v1、AttributeError: experimental_dialog、TypeError: proxies 等错误。**原因**langchain-chatchat 0.3.1.3 基于 langchain 0.1.x 开发清华源默认装 1.x大版本 API 不兼容。**解决**锁死版本langchain 系列 → 0.1.x、streamlit → 1.34.0、httpx → 0.27.2。坑 6HuggingFace 模型下载被墙**现象**Network is unreachable即使模型已下载到本地加载时仍超时。**解决**永久方案——echo ‘export HF_ENDPOINThttps://hf-mirror.com’ ~/.bashrc。离线模式——HF_HUB_OFFLINE1 python3 -c “…”。坑 7torch 版本过低导致模型加载失败**现象**ValueError: upgrade torch to at least v2.6。**解决**pip install torch --upgrade。ps教程的安装代码已帮你们排雷已限制只安装torch2.6的版本坑 8WSL 里找不到 Ollama**现象**Command ‘ollama’ not found。**解决**建别名指向 Windows 版——alias ollama“/mnt/c/Users/用户名/AppData/Local/Programs/Ollama/ollama.exe”。坑 9faiss-cpu 版本约束太死**现象**要求 faiss-cpu1.8.0但清华源最低只有 1.8.0。**解决**先 pip install faiss-cpu 装最新版再用 --no-deps 跳过校验。坑 10启动时缺少 data 子目录**现象**RuntimeError: Directory data/media does not exist / sqlite3 unable to open database file。**解决**mkdir -p data/knowledge_base data/media data/temp data/logs 一次性全建好。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】