M. 多模态篇扩展视觉、语音与视频能力1. 多模态接入两路径预融合 vs 后连接预融合指在模型架构上同时处理多种模态。例如CLIP 模型同时接收图像和文本的 embedding并将它们映射到同一语义空间GPT-4视觉可能在进入语言层之前就融合了视觉编码器。这需要训练一个模型或对其进行微调使其能够在上下文中接收图像 token。已有许多研究模型例如 BLIP、Flamingo。优点单一模型处理所有内容模态之间的对齐可能更好。缺点通常需要训练这类模型对自定义任务并不容易且计算开销大、负担重。后连接基于工具保持核心 LLM 只处理文本。对其他模态使用独立模块并通过链式/智能体方式连接• 例如图像用 OCR 工具做文字识别或用视觉模型生成描述再把文本描述输入给 LLM。• 例如音频用语音转文字STT后输入给 LLM输出语音则由 LLM 生成文本再交给 TTS。LLM 看到的只有文本例如“用户说”。优点可以直接使用现有的专用模型通常在各自领域更强且对 LLM 的改动最小。缺点可能不够无缝模型未必会主动询问所需的特定信息。鉴于我们“带路由与工具的平台”架构工具方式更自然我们可以把视觉、音频等都当作智能体可调用的额外工具。2. 图像接入让模型“看到”图片假设用户展示一张图片并问模型“这里发生了什么”方法• 使用图像描述模型如 BLIP-2生成描述例如“一只猫在沙发上睡觉。”• 将该描述放入提示词中“用户附加了一张图片[一只猫在沙发上睡觉]。他们问这里发生了什么”LLM 随后就能继续推理或作答。如果用户明确要求分析例如“检查这张截图里的错误”可以使用专用工具• 如果需要读图中文字比如带错误码的截图就用 OCR。• 也可以允许 LLM 请求“打开图片”并运行例如分类模型来识别物体。LangChain 提供了例如 VisionOpenAI 工具或集成时的ImageCaptionTool。也可以用开源库写代码例如用 PIL pytesseract 做 OCR或接入像 Azure Computer Vision 这样的 API。用例用户“这是一张植物的照片它健康吗”流程Agent 检测到有图像输入可能由前端提示存在图片。Agent 选择 “analyze_image” 工具。工具流水线• 可能调用植物病害检测模型或通用图像分类器。• 返回给 Agent“叶片上有褐色斑点可能表明真菌感染。”LLM基于这段文本分析组织答案“你的植物叶片上有褐色斑点可能是真菌感染。它可能不太健康。”另一种方式预训练多模态模型可以微调一个 VisionTransformerLLM让它直接根据图片问题输出答案。但由于我们的平台是围绕开放工具来构建的我们更可能不训练模型而是集成现成方案off-the-shelf。安全图片可能包含人脸或隐私信息。如果流水线涉及人脸识别或任何敏感分类需要遵守隐私规则。或许要限制 Agent 能对图片做的事情例如禁止明确识别某个具体人物。可以考虑过滤如果图片很可能是现实人物照片则避免任何身份识别以遵守内容规范。也可以实现图像内容审核工具一些视觉 API 能检测成人内容等。3. 语音接入语音识别和合成加入语音输入语音转文字Speech to Text我们使用 ASR自动语音识别模型或服务。• 例如使用 OpenAI Whisper 或 Google Cloud Speech-to-Text提供音频文件得到文本转写结果。• 然后将转写文本作为用户输入送入 LLM 链路。如果用户希望得到语音回复输出文字转语音Text to Speech• 使用 TTS 引擎将 LLM 的文本答案合成为语音。• 将音频流式传输给用户。这本质上是在 LLM 问答前后各包一层在 LLM 之前语音 → 文字在 LLM 之后文字 → 语音。ASR 和 TTS 可以被视为工具或视为超出 LLM 链路的 I/O 接口可以集成在前端或作为链路的一部分LangChain 可能不直接提供这些能力但很容易调用本地库或外部 API 实现。注意事项• ASR 错误如果转写错误改变了语义LLM 可能会回答错问题。可以让用户看到转写结果并确认或修正或选择在该领域非常准确的模型Whisper 对通用场景不错但可能会遇到领域术语等问题。• 实时性将 ASR 的部分结果流式送给 LLM可实现连续对话类似 Alexa。这比较高级可能超出初期范围。• TTS 音色选择与语言如果用户说的是特定语言应确保 TTS 用该语言输出以保持双语/多语的连贯体验。Agent 使用方式• Agent 也可能会对用户说话“我可以继续吗”即多轮语音对话。但更可能先聚焦在单轮语音提问 → 语音回答。多语言• 如果用户说西班牙语ASR 输出西班牙语文本LLM 用西班牙语回复TTS 用西班牙语音色合成。最好有语言检测机制或让 LLM 保持语言一致。记忆• 对持续对话而言记忆很关键因为转写文本会不断累积。可以对之前的语音内容做摘要以维持上下文而不必反复带上全部对话转写。唤醒词• 如果集成在常开监听设备中需要语音唤醒与停用机制。但这更像平台层能力通常不属于 LLM 本身的职责范围。4. 视频接入用文字描述视频内容视频可以这样处理• 将视频拆分成帧或抽取关键帧 → 把每一帧当作图片来处理做图像描述或目标检测。• 如果视频包含音频就把音频转写出来也就是用户给了一个视频智能体还能利用其中的语音内容。• 如果视频自带字幕就提取字幕也许还能用于 RAG 的向量化。• 也可以用专门的视频问答模型例如使用类似 CLIP 的时序建模。但更简单的做法把视频当作多张图片 可能的音频来处理。一种思路混合方案如果问题是关于视频内容定位例如“这个视频里 X 是在什么时候发生的”• 用工具去找事件发生的时间戳比如用帧差分析或用能输出事件时间线的视频描述模型。• 总结视频构建一个场景列表例如“0–10 秒一名男子进入房间10–15 秒男子拿起手机……”• 把这份摘要提供给 LLM再让 LLM 回答问题。如果是开放式问题“这个视频里有什么”就做多帧描述再合并可能让智能体“每 5 秒采样一帧分别生成描述然后合并为整体描述”。我们可以定义一个 “VideoSummaryTool”在内部用算法抽取关键帧并生成描述最后返回一段文本摘要。时间信息• 如果要回答“X 什么时候发生”通常需要一个能做事件检测与时间定位的专用工具例如分析帧里某个视觉事件并返回时间戳。这超出一般 LLM 的能力但可以集成一些传统算法或模型来实现。内容规模视频可能很长摘要会产生大量文本可能需要分块或分层摘要先对每个片段分别摘要再对“摘要的摘要”做最终汇总。视频上的 RAG• 可以为视频帧或场景文本创建 embedding用户提问时检索相关场景把每个场景的文本描述当作文档。• 或者如果有转写文本例如会议录屏就对转写做 RAG以回答诸如“10 分钟时他们讨论了什么”之类的问题。工具方式可能最简单的是给定问题智能体调用GetVideoInfoTool(video_id, query”…”)其内部实现完成繁重工作例如调用外部服务或一个微调过的视频问答模型然后把答案或关键事实返回给智能体。5. 多模态RAG将图像/视频纳入知识库知识不仅存在于文本文件中想象一个知识库里面包含图表、地图、扫描版 PDF 等。我们可以扩展 RAG• 在知识入库阶段如果文档是图片例如信息图或照片可以生成一份文本表示通过 OCR 或图像描述并将其索引同时也可以存储图片指针/引用。• 对视频也类似可以索引转写文本或内容描述。然后在查询阶段• 如果文本查询命中了一份图片文档我们可以把它的描述文本或 OCR 内容作为上下文检索出来如果 UI 支持也可以把实际图片展示给用户与答案一起呈现或作为引用“见 image1 的示意图”。例如用户问“2021 年的销售增长图表显示了什么”如果知识库里有一张图片 “SalesChart2021.png”我们应当在入库时存一段可索引的文本描述比如“柱状图显示 2021 年销售增长第四季度出现明显峰值。”RAG 检索到这段文字作为上下文但更好的做法可能是在答案里直接展示图片或至少引用它“见附图中的图表”。因此多模态 RAG 意味着• 使用多模态 embedding可以把图片和查询嵌入到同一向量空间例如使用 CLIP 的联合嵌入。这样用户的文本就能通过语义相似度直接检索到图片CLIP 支持图文检索。但更简单的做法是把图片的 caption 当作文本来索引避免训练自定义的多模态 embedding。• 一个不错的方案是如果我们有 CLIP在查询时把 query 用 CLIP 的文本编码器嵌入在图片 embedding 库中检索相关图片例如“猫”→ 返回 cat.jpg。这种方式可以在 caption 缺失或不完整时仍然依靠内容检索到图片但需要预先存储图片 embeddings。LangChain 可能没有内置的多模态检索但可以自行实现例如为图片存储 CLIP embeddings作为另一套向量库查询时用 CLIP 文本编码得到向量去检索。Agent 与多模态数据库• Agent 可以决定是否在答案中展示图片。可以提供一个工具“ShowImage(id)”当 Agent 认为加入图片有帮助时就调用。这类似于 Bing Chat当回答某个地点相关问题时如果相关它可能会展示地图或照片。多模态输出• 如果最终答案包含图片或视频链接UI 应当按对应媒体渲染或者 Agent 输出一段 markdown 的 链接到它。2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理 实战应用 职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书