阿里达摩院:细胞状态硅基模拟+扰动响应分析
摘要细胞状态建模及细胞扰动响应预测是计算生物学与虚拟细胞研发领域的核心挑战。现有单细胞转录组学基础模型虽能提供高效的静态表征却未对细胞状态分布进行显式建模无法实现生成式模拟。本研究提出款掩码离散扩散模型Lingshu-Cell灵枢-细胞该模型可学习转录组状态分布并支持扰动条件下的细胞状态条件模拟。灵枢-细胞直接在离散令牌空间中运行与单细胞转录组数据稀疏、非序列的固有特征相适配无需通过高变异性筛选、表达量排名等先验基因选择手段即可捕捉约18,000个基因间复杂的全转录组表达依赖关系。在跨多种组织和物种的验证实验中灵枢-细胞能精准复现转录组分布、标记基因表达模式及细胞亚型比例体现出捕捉复杂细胞异质性的能力。此外该模型将细胞类型/供体身份与扰动信息联合嵌入潜空间可预测身份和扰动新型组合下的全转录组表达变化。在虚拟细胞挑战赛H1基因扰动基准测试中灵枢-细胞取得领先性能在人外周血单个核细胞的细胞因子诱导响应预测中模型同样表现优异。上述研究结果表明灵枢-细胞是款可实现细胞状态硅基模拟与扰动响应分析的灵活型细胞世界模型为生物发现与扰动筛选新范式的建立奠定了基础。{deli.zdl, royrong.ry}alibaba-inc.com#灵枢细胞 #单细胞转录组学 #掩码离散扩散模型 #细胞世界模型 #生成式建模 #基因扰动 #细胞因子扰动 #虚拟细胞 #硅基模拟研究结果灵枢-细胞模型框架概述图1灵枢-细胞模型框架示意图a 灵枢-细胞采用掩码离散扩散模型学习并生成单细胞转录组数据正向过程中基因表达值从t0逐步掩码至完全掩码态tT反向过程中模型迭代预测掩码的基因表达值最终生成具有生物学真实性的单细胞RNA测序表达谱。b 生成范式对比与自回归模型依赖固定生成顺序、去噪扩散概率模型以连续噪声破坏所有位点不同灵枢-细胞以与顺序无关的方式随机掩码并预测基因表达值与基因表达数据的无序结构天然适配。c 灵枢-细胞的应用场景包括跨不同人类组织和物种的细胞状态无条件生成以及基因扰动、细胞因子扰动的响应预测条件生成。灵枢-细胞可精准模拟跨物种、跨组织的细胞状态表1灵枢-细胞在人类组织和非人物种中的无条件生成性能图2灵枢-细胞跨物种、跨组织的细胞状态无条件生成结果a 来自PARSE-外周血单个核细胞数据集的真实细胞与生成细胞各随机抽取10,000个的UMAP可视化结果按细胞类型注释左和各细胞类型经典标记基因的归一化表达量log1p着色。b 真实数据与生成数据的细胞类型比例对比。c 灵枢-细胞、scDiffusion、scVI在PARSE-外周血单个核细胞数据集上的定量基准对比采用皮尔逊相关系数、斯皮尔曼相关系数、最大均值差异、基因平均一阶沃斯斯坦距离、整合局部逆辛普森指数5项指标评估。d 人类组织的无条件生成结果涵盖新皮层、心脏、肺、结肠UMAP图中上下分别为真实细胞和生成细胞按细胞类型着色。e 多物种的无条件生成结果涵盖小鼠、恒河猴、斑马鱼、果蝇。灵枢-细胞可精准预测细胞系中基因扰动引发的单细胞转录组响应图3灵枢-细胞精准预测细胞系中基因扰动引发的单细胞转录组响应a 基于成簇规律间隔短回文重复序列的基因扰动及由此引发的转录组变化示意图。b 扰动预测的条件生成框架将细胞类型和扰动靶点作为条件输入掩码扩散模型迭代预测基因表达值生成扰动特异性的表达谱。c 灵枢-细胞的3大设计模块分类器无引导、序列压缩、生物先验注入。d 分类器无引导引导权重的消融实验柱状图展示在虚拟细胞挑战赛H1测试集100个扰动靶点上模型在差异表达重叠准确率、扰动区分度、平均绝对误差、差异基因数斯皮尔曼相关系数、对数倍变化斯皮尔曼相关系数、精确召回曲线下面积、皮尔逊差值相关系数、平均得分8项指标上的预测性能。e 序列压缩的消融实验对比未压缩输入与补丁尺寸为8、32时的模型性能。f 生物先验注入的消融实验对比加入与未加入生物先验注入时的模型预测性能。d-f 中红色标注的指标表示该条件下模型性能相较于对应基线有所提升。表2虚拟细胞挑战赛排行榜的基因扰动预测结果团队按最终排名排序平均排名为前25名团队的各指标平均排名列中加粗为最优值。灵枢-细胞可精准预测人外周血单个核细胞中细胞因子扰动引发的单细胞转录组响应图4灵枢-细胞精准预测人外周血单个核细胞中细胞因子扰动引发的单细胞转录组响应a 细胞因子诱导的转录组扰动示意图。b 细胞因子扰动预测的条件生成框架将供体身份和细胞因子条件作为条件输入掩码扩散过程迭代预测基因表达值生成扰动特异性的表达谱。c 灵枢-细胞、PerturbMean、STATE、scGPT、scVI在PARSE 1,000万外周血单个核细胞数据集上的预测性能采用图3d中8项指标评估测试集包含12名供体中的4名每名供体保留70%的细胞因子条件90种中的63种作为测试集柱形代表供体间的平均性能误差棒为4分位距第1四分位-第3四分位散点为单个供体的性能值灵枢-细胞在各方法中表现最优的指标以红色标注。详细总结思维导图Lingshu-Cell无条件生成核心性能指标关键数据集Lingshu-Cell与主流模型细胞因子扰动预测平均得分对比参考Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells.https://doi.org/10.48550/arXiv.2603.25240260327Lingshu-Cell.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。