2026年初一篇发表在《Nature Biotechnology》的论文对四种主流长读长组装软件进行测试总结了三代宏基因组组装中的注意事项。实验设计1、对四种主流长读长组装软件HiCanu v2.2、hifiasm-meta v0.3、metaFlye v2.9.5 和 metaMDBG v1进行测试2、测试数据集21个PacBio HiFi宏基因组。从简单到复杂模拟群落Zymo-HiFi D6331和ATCC MSA-1003、厌氧消化器、肠道微生物组人、鸡、羊以及海洋表层水样本HADS系列。主要错误类型一.reads比对相关基础错误这类错误是组装序列与原始reads不匹配的直接体现也是鉴定组装错误的核心指标主要包括1、reads截断事件read 比对到 contig 时中间某处无法匹配说明contig组装错误。研究发现 metaFlye 和 metaMDBG 的截断事件数量是 HiCanu 和 hifiasm-meta 的最高 180 倍海洋复杂样本中该差异更显著metaMDBG 的截断事件较 hifiasm-meta 高出三个数量级。2、零覆盖区域Contig 上存在一段长度超过 1000bp 的区域没有任何一条原始 read 能比对上去这类区域为组装软件凭空生成的 “幻影序列”。该问题在所有软件中均存在metaMDBG 表现最突出其长度大于 10000bp 的 Contig 中高达 5.3% 存在零覆盖区域。3、单核苷酸变异SNV与插入缺失INDEL错误● 一种是少数变异组装序列选择了仅被少数reads支持的核苷酸 / INDEL未遵循多数reads的共识序列HiCanu 和 hifiasm-meta 此类错误更多● 另一种是不支持变异组装序列的核苷酸 / INDEL 无任何原始reads支持属于严重的组装错误metaFlye 和 metaMDBG 此类错误占主导且会导致上千个基因的开放阅读框被破坏产生错误的氨基酸序列。图1 组装中的错误类型和频率二.序列结构相关核心错误这类错误由组装算法的拼接逻辑缺陷导致会直接产生错误的基因组结构对下游物种鉴定、功能分析、进化研究造成严重误导是三代宏基因组组装中最需要警惕的类型1、多结构域嵌合体metaMDBG 组装出包含广古菌门、假单胞菌门、拟杆菌门、蓝细菌门序列的嵌合 Contig。这类错误容易造成误导性发现、水平基因转移研究的噪音、污染数据库。该错误可通过GC 含量突变、reads覆盖度、基因水平分类学冲突、单拷贝核心基因异常识别。图2 多嵌合体结构2、过早环化丢失的关键功能基因软件将不完整的基因组序列错误报告为 “环状完整基因组”是三代组装中极具迷惑性的错误 —— 环状 Contig 被默认为高质量完成图但其实际缺失了关键基因组区域。研究发现 metaMDBG 的过早环化事件是 HiCanu 和 metaFlye 的 4 倍、hifiasm-meta 的 2 倍。图3 甲烷菌基因组的过早循环化3、单倍型混淆与假重复针对密切相关的微生物亚群组装算法无法准确区分其基因组差异产生三类错误一是嵌合构建将两个亚群的特异性序列拼接成一条 Contig二是少数亚群偏好未选择多数reads支持的共识序列而是拼接了仅由少数reads支持的稀有亚群序列三是假重复序列组装出原始reads中不存在的重复区域。图4 单倍型混淆错误与假重复思考与讨论本文章通过分析4种常见的长读长组装软件总结了长读长数据在宏基因组组装过程中带来的错误与偏差。最后作者提到了一个新的组装软件 myloasm该软首创性地使用SNPmer即中间碱基存在差异的k-mer对来捕捉样本内的自然多态性使其无需依赖误差校正即可区分相似序列避免了传统纠错方法在低覆盖度或高多样性种群中的错误。代表下一代组装算法的方向。图5 myloasm算法概述凌恩生物紧跟CNS步伐已完成对myloasm软件的测评发现与metaflye、hifiasm相比myloasm可以获得更多中高质量MAGs。更多测序服务请联xi图 测始数据效果参考文献[1] Troubleshooting common errors in assemblies of long-read metagenomes.Nature Biotechnology,2026.[2] High-resolution metagenome assembly for modern long reads with myloasm.Preprint at bioRxiv,2025.