算法实习Day04-MinerU2.5-pro
一、MinerU2.5-pro整体结构总览这张图完整展示了 MinerU2.5-Pro 用来打造训练数据的“数据引擎”流水线核心分为三大阶段多样性难度感知采样DDAS从海量PDF中筛选出多样、均衡的候选数据跨模型一致性校验CMCV自动给数据打“Easy/Medium/Hard”难度标签难样本标注流水线对Hard样本进行高精度修正与人工标注最终产出分层数据分别用于预训练、微调、强化学习三个阶段。1. 多样性难度感知采样DDAS核心目标解决「数据分布不均、难场景缺失」的问题流程拆解输入PDF Pool海量PDF池所有待处理的原始PDF文件。ViT-Base Embedding把PDF页面转成向量特征相当于给每个页面拍了一张“特征身份证”方便后续聚类。K-Means Clustering用K-Means算法把页面按特征分成不同簇按Layout版面、Text文本、Table表格、Formula公式四个维度分别聚类。这一步的作用是把“长得像”的页面分到一起保证最终数据覆盖所有版面类型比如单栏、双栏、多栏、密集表格、复杂公式等避免数据单一。2. 跨模型一致性校验CMCV核心目标自动给数据打难度标签零成本判断“难不难”流程拆解输入上一步聚类后的样本每个页面的文本、表格、公式内容。多模型推理同时用三个不同架构的模型处理这些样本MinerU2.5目标模型要提升的那个PaddleOCR-VL-1.5OCR专用模型Qwen3-VL-30B通用多模态大模型成对一致性校验Pairwise metrics对不同类型的内容用专门的指标判断输出是否一致文本EDIT编辑距离表格TEDS表格相似度指标公式CDM公式匹配度难度分级Consistency根据三个模型的输出一致性自动分成三档Easy约60%目标模型和至少一个外部模型结果一致标注可信Medium约25%两个外部模型结果一致但目标模型不一致是目标模型的短板Hard约15%三个模型结果全不一致属于“谁都搞不定”的难题需要后续精修3. 难样本标注流水线Annotation Pipeline for Hard Case核心目标把“谁都搞不定”的Hard样本变成高质量标注数据分为两步层层兜底① Judge and Refine Annotation自动判断修正这是整个流程的“黑科技”输入Hard样本原图 模型生成的结构化标注比如一张带表格的图片和模型生成的HTML表格代码。生成配对输入Paired Inputs把模型生成的标注如HTML表格、LaTeX公式重新渲染成图片得到“原图”和“渲染图”两张图。Judger裁判模型用大模型如Gemini对比原图和渲染图找出标注错误的位置和原因。Refiner修正模型根据裁判的反馈修正标注内容再重新渲染、对比直到修正成功。这一步能修复绝大多数模型标注错误解决“模型能生成结构但不知道结构对不对”的问题。分支修正成功 → 得到高质量Hard标注数据修正失败 → 进入下一步人工兜底② Targeted Expert Annotation专家人工标注针对自动修正也搞不定的样本用Gemini 3 Pro先做一轮辅助处理降低人工成本再由人工专家进行标注和QA校验最终得到100%准确的Hard样本标注约19.2万条最终数据产出 用途整个流水线跑完会产出三层数据分别对应不同训练阶段数据类型数量用途Easy Medium~65.5M大规模预训练打基础Hard自动修正大量微调阶段针对性解决短板Hard人工精标~192K强化学习RL阶段对齐评测指标一句话总结这张图MinerU2.5-Pro 的 Data Engine就是一套全自动、分层级的高质量训练数据生产流水线先用聚类保证数据多样性再用多模型一致性自动分级难度最后用“渲染对比人工兜底”解决难样本标注问题最终给模型提供了“广、全、准、难”的训练数据。这实是完整的数据采样流水线分为“页面级” → “元素级” → “最终产出”三个核心阶段。整体逻辑这张图展示了如何从原始PDF池中经过广度采样Page-level和深度采样Element-level最终产出均衡、高质量、可直接用于SFT有监督微调的约6000万页样本。① 第一阶段Page-level sampling页面级采样这一步解决**“数据广覆盖、分难度、定比例”** 的问题。PDF Pool输入池原始海量PDF文档。ViT-Base Embedding K-MeansViT把每一页PDF图片转换成向量特征Embedding用数字表示页面的“长相”布局、元素密度等。K-Means把特征相似的页面聚类Page-Level Clusters保证采样到的页面类型多样不会全是单栏文本也有复杂表格、多栏布局等。CMCV跨模型一致性校验判难度对每个簇的页面进行难度判断输出分级✅Easy简单少采Down Sample。⚖️Medium中等按比例采Ratio Sample。Hard困难多采Up Sample。❌Invalid无效直接丢弃Drop。产出经过这一步得到约6000万页的基础样本集且整体难度分布符合预期。② 第二阶段Element-level sampling元素级采样这一步解决**“细粒度、学难点”** 的问题。在页面级数据基础上拆解到最小单元。Page Data页面数据上一步的页面级样本。Layout Detection版面检测把页面拆分成4类核心元素Layout版面块Txt纯文本Formula公式Table表格分元素聚类 CMCV对每一类元素分别做聚类和难度判断再次执行CMCV逻辑确保每一类元素的采样都覆盖其自身的复杂度梯度。Final Sample最终样本整合所有元素的采样结果形成多维度、高难度、全覆盖的最终样本库。③ 最终输出SFT Data最终生成的高质量样本集SFT Data直接用于模型的有监督微调确保模型既能学懂通用版面又能攻克复杂公式、表格等硬骨头。一句话总结先按页面整体特征做广度采样和难度分级再按文本/公式/表格等细粒度元素做深度采样层层筛选最终产出完美适配微调需求的高质量数据。