倾向性得分控制混杂偏倚【9天实用统计学公益训练营Day4-2】
关注公众号的朋友都知道郑老师我之前连续4年开设了“30天学会医学统计学”从理论到实操一步一步教会大家统计学、SPSS课程。2026年我们对这门课程进行全新升级课程时间大幅度缩短内容大幅度提升我称为9天实用医学统计学公益训练营。课程介绍“9天实用医学统计学”公益训练营即将启动更高效、更高级的统计课本课程是浙江中医药大学医学统计学教研室的公益、免费公开视频课不是骗人入坑收费的广告。本课程公益视频课定期开课欢迎您参与学习。欢迎报名本公众号“医学论文与统计分析”后台回复“报名”加入微信学习群吧。Day 4-2 利用倾向性得分控制混杂偏倚现在我们继续学习倾向性得分方法。倾向性得分方法控制混杂偏倚主要有四类倾向得分分层、倾向得分校正即回归、倾向得分匹配、倾向得分加权。本文主要介绍前面三个倾向得分加权在后面再讲。倾向得分分层分层这个概念在之前的课程当中讲过好几次但都没有细讲。因为在观察性研究里面分层分析用得少。一般的观察性研究有很多混杂因素而分层分析能处理的混杂因素不多一般就是一到两个。所以我们碰到观察性研究通常用的是回归方法。但是在倾向性得分方法里面因为我们只有一个复合的混杂因素——倾向得分这时就可以用分层分析了。√什么是分层分析分层分析指的是当我们算出每个对象的倾向性得分之后根据分值将其分成若干层也就是把一个定量数据变成一个多分类数据。例如小于0.2一层0.2-0.35一层0.35-0.45一层大于0.45一层。分层之后每一层内部的倾向性得分都相似组间就可比了。√那么怎么分析呢先在每一层内部估计效应比较暴露组与对照组之间的差异。因为这一层内部两组是可比的所以算出来的效应值没有混杂偏倚。同样的道理我们对每一层都这样做每一层都算出一个没有偏倚的效应值。最后我们把所有层的效应值合并起来得到一个总的处理效应。合并时样本量越大的层权重越大。这样最终的总效应值也是没有偏倚的。这种思路叫“先分后合”——先分层分析再合并起来。经典的分层分析方法叫分层卡方也叫CMH检验。对于生存分析可以用分层log-rank检验。√分层分析示意图光讲理论太干我们来看示意图。一开始暴露组和对照组的观察对象混在一起组间不均衡。我们按照倾向得分把它们分成不同的层。在每一层内部暴露组和对照组的个体特征相似、可比。我们在每一层内部计算一个效应值如RR值。因为每一层内部都是可比的所以这些RR值都没有混杂偏倚。最后我们把所有层的RR值通过加权平均合并起来得到总的RR值。样本量越大的层权重越大。这样总的RR值也没有偏倚。√分层分析的局限性分层分析在临床试验中用得多因为临床试验的混杂因素很少在观察性研究中用得少。在倾向得分方法里分层分析用得也不多因为分层还是比较粗糙的不够精细。所以我们更多的可能会选用倾向得分回归校正。倾向得分回归校正倾向得分回归校正的概念其实很简单。在进行统计分析的时候我们可以构建一个方程将暴露因素连同预测概率即倾向得分一起纳入回归模型进行多因素回归分析。线性回归、Logistic回归、Cox回归都可以。公式为这样就能控制倾向得分带来的混杂偏倚。倾向得分匹配匹配这个方法之前我已经讲过很多回--组间通过找到两个相似的个体分配到两组去就可以达成均衡可比。倾向得分匹配也是同样的道理找到暴露组和对照组中倾向得分相似的个体凑成一对这样配对后的两组就是可比的。这是一种非常好的方法。该方法的优点是可以实现组间均衡可比性比一般的回归好得多。但缺点也很直观如果个体无法进行匹配那就不能纳入后续的分析。√倾向性得分匹配的过程第一步构建统计模型计算倾向得分。根据临床和实际要求以暴露作为应变量混杂因素作为自变量构建Logistic回归计算出个体概率即倾向性得分。第二步根据倾向得分进行匹配。软件会根据一定的算法给你匹配出对子。匹配方法有很多常见的有两种近邻匹配法也叫贪婪匹配给每个暴露组个体找一个倾向得分最接近的对照组个体配成对子。缺点是可能产生同一个体被多次匹配的情况而且存在“拉郎配”的问题——明明两个倾向得分差别很大为了配对强行凑在一起。强扭的瓜不甜。卡钳匹配这是现在更常用的方法。首先设置匹配的阈值卡钳值只有倾向得分在设定范围内才能匹配。我们要“门当户对”。卡钳值越大能匹配上的对子越多样本量损失越小卡钳值越小能匹配上的对子越少样本量损失越大。· 最佳的卡钳值是多少有研究建议使用倾向性得分对数标准差的20%。在R语言中做倾向得分匹配时参数设置的就是这个比例如0.2、0.25等不是实际的倾向得分差值。一般设置为0.2或0.25如果不容易凑对子条件宽松一点用0.25如果容易凑对子条件严格一点用0.15。第三步分析均衡性。匹配完成后分析匹配前后的均衡性看P值和SMD值判断SMD是否小于0.1。我们来看一个具体的例子倾向性得分匹配案例某项研究进行了倾向性得分匹配匹配前后的差异性结果如下表匹配前样本量11553例P值多数小于0.05SMD多数大于0.1说明不均衡。匹配后样本量只有4834例损失了一倍多超过50%但SMD多数小于0.1说明均衡性改善。这就是倾向得分匹配的劣势——样本量损失较大。需要注意的是匹配也不能保证所有变量都均衡。比如ADL得分日常生活能力得分可能是偏态分布的问题匹配效果不好匹配后P值仍然小于0.05SMD也大于0.1。这是常见现象倾向得分匹配不能完全保证所有变量都匹配得好。从倾向得分概率分布图看匹配前分布不均衡匹配后大为改善基本均衡可比。从SMD图看匹配前unadjusted大多数变量SMD大于0.1匹配后几乎所有变量SMD都小于0.1虚线是0.1的界值说明匹配效果不错没有很大偏倚。第四步匹配后统计分析匹配后的数据分析有两类方法第一类普通方法普通的t检验、卡方检验普通的回归线性回归、Logistic回归、Cox回归第二类配对方法配对卡方、配对t检验配对的Logistic回归、分层的Cox回归、稳健Cox回归、Cox脆弱模型等——这些都是处理聚集性数据的方法。匹配就是数据聚集在一起。我的推荐能用配对法就用配对法。配对后的数据更加均衡可比而且配对法处理聚集性数据在一定程度上可能会提高检验效能。但用普通法问题也不大。如果匹配后还存在某些自变量分组不均衡可以开展多因素回归把这些自变量作为潜在混杂因素纳入模型也没问题。匹配后的生存分析以抑郁症状与心血管病的关系为例。在生存曲线图中红色代表无抑郁症状组蓝色代表有抑郁症状组。Y轴是生存率初始100%X轴是随访时间。结果显示随着时间的流逝不断有人发生心血管病事件生存率不断下降。有抑郁症状组下降得更快。同时log-rank检验结果显示P值小于0.05。单因素Cox回归结果显示HR1.36大于1说明有抑郁症状会加速心血管病的发生风险比为1.36。√倾向性得分匹配的局限性倾向得分匹配以前很流行现在用得少了一些因为它有缺点暴露组和对照组的样本都有损失。剩下的4000多例既不代表所有抑郁者也不代表所有调查对象代表性就差了一些。我们希望通过样本的推论结果对背后的总体有代表性所以样本损失是个问题。后面我们会讲倾向得分加权那个方法就能很好地保留样本代表性。最后提醒要学习本推文的完全对应的课程视频请发送关键词“报名”至公众号加入高校公益免费课程群来学习吧。关于郑老师团队及公众号全国较大的医学统计服务平台专注于医学生、医护工作者学术研究统计支持郑老师团队可以提供诸多统计支持各式统计课程、临床试验设计构建预测模型与真实世界研究“双库”保发表训练营、医学数据库挖掘详情联系助教小董咨询微信号aq566665