SMC++实战：从VCF到种群历史动态的完整分析指南

张

张建站

2026/6/25 21:19:06

10分钟阅读

1. SMC简介与安装指南SMC是一款强大的种群遗传学分析工具专门用于从全基因组序列数据中估计种群大小历史。相比其他同类工具它的优势在于支持多样本联合分析并且可以直接处理VCF格式的输入文件大大简化了前期数据准备的工作量。我在实际项目中使用过多次发现它不仅能提供准确的种群历史动态估计运行速度也相当可观。最新版本的SMCv1.15.4之后已经不再支持conda安装改为推荐使用Docker运行。这种改变虽然一开始让我有点不适应但实际使用后发现Docker方式反而更简单可靠。下面我就详细介绍一下安装步骤首先确保你的系统已经安装了Docker引擎。如果还没安装可以执行以下命令以Ubuntu为例sudo apt-get update sudo apt-get install docker.io安装完Docker后SMC的安装就变得异常简单sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest这条命令会自动从Docker Hub下载最新的SMC镜像。第一次运行时会花费一些时间下载镜像之后就可以直接使用了。为了确保安装成功可以运行以下命令检查sudo docker images你应该能看到terhorst/smcpp这个镜像出现在列表中。如果想查看SMC的所有可用命令和参数可以运行sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest -h2. 输入文件准备与格式转换SMC虽然可以直接处理VCF文件但还是需要一些预处理步骤。根据我的经验这个阶段最容易出问题需要特别注意几个关键点。首先你需要准备好目标群体的VCF文件。假设你已经有了一个名为population.vcf的文件第一步是用vcftools进行样本筛选和格式转换vcftools --vcf population.vcf --recode --keep samples.txt --out smc_input这里的samples.txt文件包含你要分析的所有样本ID每行一个。这个步骤会生成一个名为smc_input.recode.vcf的新文件。接下来需要对VCF文件进行压缩和索引这对大文件处理特别重要bgzip smc_input.recode.vcf tabix smc_input.recode.vcf.gz现在就可以进行格式转换了将VCF转换为SMC专用的smc格式。这里有个小技巧建议按染色体分别处理这样既可以利用并行计算提高效率也方便后续调试。下面是一个示例脚本for chr in {1..22} X Y do sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest vcf2smc \ ./smc_input.recode.vcf.gz \ ./output/chr${chr}.smc.gz \ $chr \ PopulationName:sample1,sample2,sample3 done这个命令有几个关键参数需要注意第一个参数是输入的VCF文件第二个参数是输出文件路径和名称第三个参数是染色体编号最后一个参数指定群体名称和样本列表格式为群体名:样本1,样本2,...3. 种群历史估计参数详解有了smc格式的文件后就可以开始进行种群历史估计了。这是整个分析最核心的部分参数设置直接影响结果质量。下面我结合自己的踩坑经验详细解释每个关键参数。基本命令格式如下sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest estimate \ --spline cubic \ --knots 15 \ --timepoints 1000 1000000 \ --cores 16 \ -o ./estimate_results/ \ 2e-8 \ ./output/*.smc.gz--spline参数指定使用的样条曲线类型。cubic三次样条是最常用的选择能提供平滑的种群大小变化曲线。如果你预期种群历史有剧烈波动也可以尝试linear。--knots参数决定曲线的节点数量。节点越多曲线越灵活但也更容易过拟合。经过多次测试我发现15-20个节点在大多数情况下都能取得不错的效果。--timepoints参数设置要估计的时间范围单位是世代数。这个需要根据你的研究物种来调整。比如人类研究常用1000到1000000代而模式生物如果蝇可能需要更短的时间范围。突变率参数命令最后的2e-8就是突变率。这个值必须根据你的研究物种准确设置它对结果影响非常大。如果不知道确切值一定要查阅相关文献或进行敏感性分析。4. 结果可视化与解读分析完成后SMC提供了plot命令来可视化结果。但根据我的经验直接生成的图形往往需要进一步调整才能发表。下面介绍几种可视化方案。最基本的绘图命令sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest plot \ ./population_plot.pdf \ ./estimate_results/*.final.json \ -g 25 \ --ylim 0 1000000这里-g参数指定世代时间人类通常用25年一代小鼠用1年其他物种需要根据实际情况调整。如果想获得更专业的图形我建议导出数据后在R中绘制。添加-c参数可以生成CSV文件sudo docker run --rm -v $PWD:/mnt terhorst/smcpp:latest plot \ ./population_plot.pdf \ ./estimate_results/*.final.json \ -g 25 \ -c这会生成一个包含所有绘图数据的CSV文件你可以用以下R代码进行高级定制library(ggplot2) data - read.csv(population_plot.csv) ggplot(data, aes(xtime, ypopulation_size)) geom_line(size1.2) scale_x_log10() scale_y_log10() labs(xGenerations ago, yEffective population size) theme_minimal()在结果解读时有几个常见问题需要注意。首先是时间尺度转换SMC输出的时间单位是世代数需要乘以世代时间才能得到实际年份。其次曲线末端的波动最近几百年通常不太可靠这是所有类似工具的共同局限。最后不同染色体结果间的差异可能反映了真实的历史事件也可能是技术误差需要谨慎判断。

intv_ai_mk11开源模型部署：支持国产化环境的Llama中文适配版

intv_ai_mk11开源模型部署：支持国产化环境的Llama中文适配版 1. 模型概述 intv_ai_mk11是基于Llama架构开发的中文文本生成模型，专为国产化环境优化设计。这个中等规模的模型特别适合处理通用问答、文本改写、解释说明和简短创作等任务。与原始Llama…...

2026/6/24 5:30:09 阅读更多 →

5分钟免费生成专业法线贴图：浏览器在线工具终极指南

5分钟免费生成专业法线贴图：浏览器在线工具终极指南【免费下载链接】NormalMap-Online NormalMap Generator Online 项目地址: https://gitcode.com/gh_mirrors/no/NormalMap-Online 想要为3D模型添加逼真细节却担心软件复杂？法线贴图在线生成器…...

2026/6/24 19:33:16 阅读更多 →

java面试必问14：MySQL 索引类型：从基础到优化，面试官给你点赞

MySQL 索引类型：从基础到优化，一篇讲透面试官：“MySQL 有哪些索引类型？” 你：“主键索引、唯一索引、普通索引、复合索引、全文索引。索引能大大加快查询速度，但会降低增删改的性能。” 面试官：…...

2026/6/23 17:54:18 阅读更多 →

Python自动化抢票：5个实战技巧提升成功率90%

Python自动化抢票：5个实战技巧提升成功率90% 【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 还在为抢不到心仪的演唱会门票而烦恼吗？传统手动抢票方式…...

2026/6/25 18:21:50 阅读更多 →

当你的网盘下载速度只有几十KB时，这个开源工具如何帮你找回时间

当你的网盘下载速度只有几十KB时，这个开源工具如何帮你找回时间【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云…...

2026/6/24 15:19:37 阅读更多 →

Pearcleaner终极指南：如何彻底清理macOS应用释放磁盘空间

Pearcleaner终极指南：如何彻底清理macOS应用释放磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾发现，即使卸载了ma…...

2026/6/24 16:34:27 阅读更多 →

408计算机网络考试大纲|408计算机网络知识点总结|法硕考试分析pdf

408计算机网络考试大纲|408计算机网络知识点总结|法硕考试分析pdf资料全科都有408网络法硕 PDFhttps://tool.nineya.com/s/1jpq3effr 【计算机408真题】1. 下列关于迪杰斯特拉算法的说法正确的是（ ） A. 适用于求单源最短路径 B. 适用于求所有顶点间最短路…...

2026/6/25 18:45:17 阅读更多 →