随着人工智能向更复杂、更贴近真实世界的应用演进单一模态的模型已难以满足对多源信息融合与理解的需求。多模态大模型Multimodal Large Language Models, MLLMs应运而生通过整合图像、文本、语音、视频等多种信息形式实现跨模态的语义理解与生成能力。这类模型以Transformer架构为基础将不同模态的数据统一转化为可处理的token序列在统一的嵌入空间中完成特征对齐与信息融合从而支持视觉问答、图像描述、多模态对话等丰富任务。近年来从双编码器到LLM-based架构的演进再到轻量化、可扩展、端到端统一建模的探索多模态理解正逐步迈向更高效、更智能的新阶段。0****1基本概念多模态大模型普遍基于Transformer based架构NLP对文本进行embeddingCV对图像patch进行Embedding从图像、视频、文本、语音数据中提取特征转换为tokens进行不同模态特征的对齐送入类Transformer进行运算。这类模型将LLM的生成与推理能力扩展到超越文本的数据能够在多种信息模态下实现丰富的语义理解。现有方法大多集中于视觉-语言理解VLU通过融合视觉如图像与视频与文本输入实现对空间关系、物体、场景及抽象概念的综合理解。这些模型运行在混合输入空间中其中文本数据以离散表示方式编码视觉信号则被编码为连续表示。与传统LLM类似这类模型的输出以离散token形式生成通常采用基于分类的语言建模和特定任务的解码策略。 下图展示了多模态理解模型的典型架构。多模态理解模型的架构包括多模态编码器、连接器与大语言模型LLM多模态编码器将图像、音频或视频转换为特征这些特征通过连接器处理后输入LLM。连接器的架构大致可分为三类基于投影的连接器、基于查询的连接器和基于融合的连接器。视觉语言模型VLM两个大类别Dual-Encoder早期VLM模型主要采用双编码器架构通过分别编码图像与文本并在对齐的潜在空间中联合推理代表性方法包括CLIP、ViLBERT、VisualBERT与UNITER。这些开创性模型奠定了多模态推理的核心原则但过度依赖基于区域的视觉预处理和独立编码器限制了模型的可扩展性与泛化能力。该类模型构建方法又称为“跨模态注意力架构方法”cross-attention-based该方法特点是引入交叉注意力机制。LLM-Based随着强大LLM的兴起VLU模型逐渐转向仅解码器架构通常以冻结或微调的LLM为基础该类模型构建方法又称为“统一嵌入解码器架构方法”decoder-only。 这些方法主要通过结构各异的连接器转换图像嵌入例如MiniGPT-4采用单层可学习投影层将CLIP提取的图像嵌入映射到Vicuna的token空间。0****2VLM前沿动态GPT-4V在GPT-4框架基础上扩展图像输入能力虽为闭源模型但展现出强大的视觉推理、图像描述与多模态对话能力。Gemini基于解码器架构支持图像、视频与音频模态其Ultra版本在多模态推理任务中树立了新基准。Qwen系列展示了可扩展的多模态设计Qwen-VL集成视觉接收器与定位模块Qwen2-VL引入动态分辨率处理与M-RoPE机制增强对多样输入的稳健性。LLaVA-1.5与LLaVA-Next结合CLIP视觉编码器与Vicuna风格LLM在VQA视觉语言问答与指令跟随任务中表现出色。InternVL系列探索统一多模态预训练策略联合学习文本与视觉数据提升各类视觉-语言任务表现。Ovis通过可学习的视觉嵌入查找表引入结构嵌入对齐机制使视觉嵌入结构上对齐文本token。近期部分模型进一步探索可扩展、统一的多模态处理架构。DeepSeek-VL2采用专家混合MoE架构提升跨模态推理能力。总体而言这些模型展现出向指令微调、token中心化框架演进的趋势能够以统一、可扩展的方式处理多样化多模态任务。03图像Patch为什么需要将图像处理成 Patch传统的图像处理主要依赖于卷积神经网络CNNCNN 通过局部感受野和层层抽象来提取图像特征。然而当前许多强大的 MLLMs 的基础架构是 Transformer 模型这种模型最初为处理文本等序列数据而设计其核心优势在于通过自注意力机制捕捉序列中元素之间的长距离依赖关系。将原始图像直接输入 Transformer 面临两大挑战巨大的维度高分辨率图像包含海量像素点直接将像素矩阵作为输入维度过高计算和内存消耗巨大难以处理。结构不匹配Transformer 处理的是一维序列而图像是二维网格结构。需要一种方式将二维图像转化为一维序列同时尽可能保留原有的空间信息。将图像分割成固定大小的“补丁”patches并排成序列提供了一种优雅的解决方案。这种方法将图像类比于文本中的“词语”或“tokens”使得 Transformer 模型能够以处理文本序列的方式来处理图像。图像 Patch 处理的详细过程将原始图像转化为模型可接受的 Patch 序列通常包括以下几个步骤1.图像分割 (Image Segmentation into Patches):将原始图像按照固定大小例如 16×16 或 32×32 像素分割成一系列互不重叠的小块。目的是将大型二维图像分解成可管理的、标准大小的基本处理单元。2.展平 (Flattening):将每个 P×P×C高 × 宽 × 通道数的图像块的像素数据按顺序展平为一个长度为 P×P×C 的一维向量。目的是将每个图像块转换为一个标准的向量格式适配后续的线性变换。3.初始 Patch 嵌入 / 线性投影 (Initial Patch Embedding / Linear Projection):对每个展平后的 patch 向量应用一个线性变换一个全连接层。这个线性层将高维的展平向量维度 P2C投影到模型内部统一的嵌入维度 D。它学习将原始像素数据映射到模型所在的嵌入空间中具有语义意义的向量表示类似于文本处理中的词嵌入层。这一步将原始像素信息转化为模型能够理解的、低维稠密的特征嵌入。4.位置编码 (Positional Encoding):在 Patch 嵌入向量中加入一个表示该 patch 在原始图像中空间位置的向量位置编码。位置编码可以是预设的如正弦/余弦函数或可学习的。通过这种方式为每个 patch 嵌入注入空间上下文信息使模型能够理解 patch 之间的相对和绝对空间关系从而捕捉图像的整体结构。Patch 之间的排序方式将二维图像块排列成一维序列时最常用和标准的方式是采用从左到右、从上到下的顺序即raster scan顺序。这意味着序列的第一个元素是图像左上角的 patch然后依次是同行的右侧 patch直到行末。接着是下一行的第一个 patch再是同行的右侧 patch以此类推直到图像右下角的 patch 成为序列的最后一个元素除了可能的 CLS Token。这种排序方式简单直观并且与位置编码的生成方式紧密配合使得每个序列索引都能唯一对应到原始图像中的一个空间位置。将原本在二维空间中相邻的 patches如上下相邻的 patch在序列中隔开这确实与CNN通过局部卷积核处理邻近区域的方式不同。这会破坏某些依赖于严格二维邻近性的局部特征吗Transformer 模型依靠其独特的机制来克服这个问题并不会因此“破坏”特征。自注意力机制的全局连接能力与 CNN 的局部感受野不同Transformer 的自注意力机制允许序列中的每一个 patch 嵌入与所有其他 patch 嵌入直接计算注意力权重并进行信息交换无论它们在序列中是相邻还是相隔很远。这意味着即使上下相邻的 patch 在序列中距离较远模型也可以在单个注意力层中捕捉到它们之间的关系。位置编码提供的空间语境位置编码确保了模型知道每个 patch 在原始二维图像中的真实空间位置。模型学习到序列中相隔较远的两个 patch例如序列索引为 i 和 j 的 patch在原始图像中是上下相邻的例如基于它们的位置编码从而可以在处理过程中有效地整合它们的信息。04多模态编码器又称为视觉骨干网络在将图像 Patch 转换为初始嵌入序列后这些序列会被输入到一个视觉骨干网络中进行更深层次的特征提取和抽象。这个视觉骨干网络是 MLLM 中专门负责处理图像信息的部分。以下是一些常见的视觉部分选择及其分析。传统的卷积神经网络 (CNN)**代表模型**ResNet、ResNeXt、EfficientNet 等。核心思想利用卷积和池化进行层次化特征提取。优点技术成熟计算效率相对较高对于局部特征对局部结构敏感。缺点缺乏原生处理长距离依赖的能力输出格式需转换缺乏原生的跨模态对齐。应用场景早期或特定需求如边缘设备的 MLLMs或作为混合模型的一部分。原生视觉 Transformer (ViT)代表模型Vision Transformer (ViT) 原始版本及其变体。核心思想在 Patch 序列上直接应用标准的 Transformer Encoder。优点强大的全局建模能力与 Transformer 架构天然兼容可扩展性强。缺点对局部细节捕捉相对弱计算量大高分辨率缺乏原生的跨模态对齐。应用场景许多现代 MLLMs 的首选特别是需要强大全局视觉理解能力的模型。层次化视觉 Transformer (Hierarchical ViT)代表模型Swin Transformer、PVT 等。核心思想结合层次化思想和 Transformer逐步扩大感受野。优点兼顾局部和全局信息计算效率更高特别是高分辨率输出多尺度特征。缺点结构相对复杂缺乏原生的跨模态对齐。应用场景处理高分辨率图像、对计算效率有要求或需要多尺度视觉特征的 MLLMs。图文对齐模型 (Image-Text Alignment Models) 的图像编码器**代表模型**CLIP其 Vision Transformer 或 ResNet 图像编码器、ALIGN、Florence、CoCa 等。核心思想在大规模图文对数据上进行对比学习等联合训练使图像和文本在共享空间中对齐。优点强大的预训练跨模态对齐能力泛化能力强简化后续融合。缺点可能牺牲部分纯视觉任务性能依赖预训练数据质量。应用场景当前绝大多数领先的 MLLMs 首选特别是需要理解图文关联和开放世界概念的模型。0****5多模态连接器(VL-Adapter)多模态模型中有效地融合和处理图像信息是构建强大 MLLMs 的关键挑战之一。无论选择哪种视觉骨干网络其输出的视觉特征例如 ViT 的 [CLS] Token 输出CLIP 的图像嵌入或 CNN 的最终特征图通常需要一个额外的转换步骤以便与模型中的其他模态尤其是文本信息进行有效的融合和交互。这个转换通常由一个或多个线性层有时是更简单的 MLP完成我们称之为 Projector投影层。如上图所示图像Embedding和文本Embedding需要进行融合就需要一个叫做多模态连接器的模块该模块作用统一的多模态嵌入空间可以将多种模块的潜在语义空间进行对齐维度对齐另外也可以将两类Embedding的hidden_state维度进行对齐。Projector 在不同视觉骨干和训练场景下的必要性使用基于图像任务预训练的视觉骨干CNN, 原生 ViT, 层次化 ViT这些骨干网络在图像分类等任务上预训练其特征空间主要反映视觉本身的特征与语言嵌入空间是独立的。在这种情况下Projector 层是至关重要且必不可少的。它需要学习一个复杂的映射将纯视觉空间中的特征有效地转换到语言模型的嵌入空间以实现模态间的对齐。Projector 承担着主要的跨模态对齐学习任务。多模态Projector的通常结构简单可以使用线性投影例如SmolVLM-256M-Instruct模型的Projector结构就是一个线性投影最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】