除了CFPS,还有哪些宝藏微观调查数据?CHFS、CHARLS等国内数据库横向对比
国内五大微观调查数据库深度横评CHFS、CHARLS、CFPS等如何选当我们需要研究中国家庭金融行为、老龄化趋势或教育代际流动时手里握着的问卷设计稿往往面临一个现实问题自建样本成本高、周期长且难以保证全国代表性。这时成熟的微观调查数据库就成了破局关键。但面对CFPS、CHFS、CHARLS这些专业缩写很多研究者就像站在自助餐厅里——选择很多却不确定哪道菜最对胃口。1. 主流数据库全景扫描国内持续运营的微观调查项目主要分为三类综合型、专题型和区域型。其中综合型数据库覆盖变量最广适合多学科交叉研究专题型则在特定领域变量采集上更具深度区域型则聚焦地方特色。我们重点对比五个全国性项目数据库英文全称启动年份主管机构核心特色CFPSChina Family Panel Studies2010北京大学家庭动态追踪CHFSChina Household Finance Survey2011西南财经大学金融资产深度测量CHARLSChina Health and Retirement2008北京大学中老年健康与养老Longitudinal StudyCLDSChina Labor-force Dynamics2012中山大学劳动力迁移与就业SurveyCHIPChina Household Income1988北京师范大学收入分配长期监测Project提示CHIP虽然历史最悠久但非年度调查最新公开数据为2018年第七轮这些数据库的共性在于都采用多阶段分层抽样样本量基本在1-3万户之间。但具体到使用场景差异可能比想象中更大。比如研究数字金融对农村家庭的影响CHFS的金融变量丰富度就明显优于CFPS而分析代际照护对老人健康的影响CHARLS的体检数据和用药记录则是独门武器。2. 核心变量深度对比2.1 家庭经济模块CHFS在金融变量上的优势体现在三个层面资产负债表级精度区分11类金融资产含P2P、数字货币等新兴品类动态追踪机制记录股票、基金等高频变动资产的历史操作主观态度测量包含风险偏好、金融素养等心理指标// CHFS典型金融变量示例 hhid // 家庭编号 fin_asset_total // 金融资产总额 fin_a1 // 现金与活期存款 fin_a6 // 股票市值 risk_preference // 风险偏好(1-5级)相比之下CFPS的经济模块更侧重收支结构适合研究消费分层而CHIP则长于隐性收入测算其补贴、福利等非工资收入项目细分程度最高。2.2 健康老龄模块CHARLS的医疗数据采集堪称行业标杆客观指标血压、肺功能、握力等13项体检数据就医行为门诊/住院记录精确到ICD-10编码生物样本部分轮次包含血液、唾液检测数据健康变量对比表变量类别CHARLSCFPSCHFS慢性病诊断√√×用药记录√××日常生活能力√√×抑郁量表CES-D简版×认知测试7项2项×2.3 教育与社会流动CFPS的教育模块优势在于覆盖从学前教育到成人教育的全周期记录包含课外辅导支出等影子教育指标2018年起新增教育代际流动专题问卷而CLDS则聚焦劳动力市场中的教育回报率其工作史模块能还原完整的职业发展路径特别适合研究学历贬值等热点问题。3. 数据获取实操指南3.1 申请流程差异各数据库的开放政策形似而神异CFPS北大开放平台注册即下但需签署保密协议CHARLS需提交研究计划审核周期约2周CHFS分公开版和受限版后者含敏感地理信息注意CHFS的金融资产明细变量属于受限数据需额外伦理审查3.2 数据清洗要点微观调查数据的常见坑点包括缺失值编码混乱-1表示拒绝回答-2表示不适用-8表示不知道样本权重复杂CFPS有跨年追踪权重CHARLS有城乡分层权重变量名版本差异CHFS2017年后金融变量前缀从fin改为finance# 处理缺失值的推荐方式 library(haven) df - read_dta(CHFS2019.dta) %% mutate(across(where(is.numeric), ~na_if(., -1))) %% mutate(across(where(is.numeric), ~na_if(., -2)))3.3 学术引用规范主流数据库都要求论文中注明数据版本CFPS数据来源于北京大学中国社会科学调查中心CHARLS感谢CHARLS团队提供数据支持CHFS需额外注明基金项目编号4. 研究场景匹配策略4.1 家庭金融研究优选方案对于P2P暴雷对家庭资产结构的影响研究核心数据库CHFS含网贷专项模块辅助数据CFPS补充消费行为数据关键变量fin_a11网络借贷余额consum_emergency应急消费能力risk_attitude风险态度变化4.2 老龄化研究组合拳研究社区养老服务对健康的影响主数据库CHARLS含社区设施问卷匹配数据CLDS补充护理人员就业数据分析技巧使用CHARLS的GPS模糊定位匹配社区POI数据4.3 教育代际流动创新思路突破传统问卷限制的三种方法CFPSCHIP用CHIP的历史数据构建父辈收入指标CHARLS回溯利用人生史问卷重建教育历程CLDS工作史分析第一学历与职业晋升的关联性5. 前沿扩展与创新应用微观调查数据的价值不仅在于原始变量更在于与其他数据的融合创新。比如空间分析将CHARLS的县域代码与夜间灯光数据匹配文本挖掘对CFPS的开放题进行情感分析机器学习用CHFS数据训练家庭财务风险预测模型最近值得关注的趋势是各数据库开始提供API接口。例如CFPS的R语言包cfpsr可以直接从GitHub调用数据避免了本地存储压力。而CHFS2021年推出的数据实验室模式允许研究者在受控环境中使用包含精确地理编码的敏感数据。微观数据的使用就像拼乐高——同样的积木块不同研究者能搭建出完全不同的学术大厦。关键在于先想清楚自己要研究什么故事再选择最适合讲这个故事的数据工具包。