线性回归的‘瘦身’秘籍：用Lasso回归在Python里自动做特征筛选，5分钟搞定冗余变量

张

张建站

2026/5/31 16:11:41

10分钟阅读

线性回归的‘瘦身’秘籍：用Lasso回归在Python里自动做特征筛选，5分钟搞定冗余变量

线性回归的‘瘦身’秘籍用Lasso回归在Python里自动做特征筛选面对包含数十个特征的数据集时传统线性回归往往会陷入维度灾难——模型复杂度飙升、可解释性下降、过拟合风险加剧。上周处理电商用户行为数据时就遇到这种情况我们团队试图用200多个用户画像特征预测购买转化率结果普通线性回归模型在测试集上表现惨不忍睹。这时Lasso回归的稀疏解特性就成了救命稻草它能自动将冗余特征的系数压缩为零5分钟就能输出精简后的特征子集。1. 为什么需要特征筛选当特征矩阵的维度超过30时数据科学家就会面临三个典型问题多重共线性特征间高度相关会导致系数估计不稳定维度诅咒样本量不足时模型方差急剧增大解释成本业务方难以理解含50特征的黑箱去年参与金融风控项目时我们先用相关系数矩阵手动筛选特征耗时半天仅排除掉10%的特征。而Lasso回归通过L1正则化的数学机制能自动实现特征选择。其核心优势在于将不重要特征的系数精确压缩为零不同于岭回归的近似零保留的系数无偏估计相比逐步回归等方法整个过程可自动化集成到pipeline# 特征数量与模型性能的关系模拟 import numpy as np from sklearn.linear_model import LinearRegression np.random.seed(42) noise np.random.normal(0, 0.5, 100) X np.random.rand(100, 50) # 100样本50特征 y 2*X[:,0] 3*X[:,1] noise # 仅前两个特征真实有效 # 普通线性回归表现 lr LinearRegression().fit(X, y) print(f训练R2:{lr.score(X,y):.3f}) # 输出0.998严重过拟合2. Lasso回归的工作原理LassoLeast Absolute Shrinkage and Selection Operator通过在损失函数中加入L1惩罚项实现双重目标控制模型复杂度α∑|w|惩罚大系数自动特征选择强制部分系数归零其优化目标函数为argmin(∑(y_pred - y_true)² α∑|w|)与岭回归的L2惩罚关键差异正则化类型惩罚项形式系数压缩效果特征选择L1 (Lasso)∑|w|精确归零支持L2 (Ridge)∑w²接近但不为零不支持提示α参数控制惩罚力度α0时退化为普通线性回归α→∞时所有系数归零from sklearn.linear_model import Lasso import matplotlib.pyplot as plt # 模拟系数路径 alphas np.logspace(-4, 0, 100) coefs [] for a in alphas: lasso Lasso(alphaa).fit(X, y) coefs.append(lasso.coef_) plt.figure(figsize(10,6)) ax plt.gca() ax.plot(alphas, coefs) ax.set_xscale(log) plt.xlabel(alpha) plt.ylabel(系数值) plt.title(Lasso系数路径);3. 实战电商用户特征筛选假设我们有一个包含用户30天行为的电商数据集需要预测购买转化率import pandas as pd from sklearn.preprocessing import StandardScaler # 模拟电商数据 (1000用户 x 50特征) data pd.DataFrame(np.random.rand(1000, 50), columns[ffeature_{i} for i in range(50)]) true_coef np.zeros(50) true_coef[[5,12,28]] [1.5, 0.8, 2.0] # 仅3个真实相关特征 data[conversion] data true_coef np.random.normal(0, 0.3, 1000) # 数据标准化 scaler StandardScaler() X scaler.fit_transform(data.drop(conversion, axis1)) y data[conversion].values3.1 自动选择最佳alpha使用LassoCV交叉验证选择最优参数from sklearn.linear_model import LassoCV # 自动alpha选择 (内置5折交叉验证) lasso_cv LassoCV(alphasnp.logspace(-3, 0, 100), cv5, max_iter10000).fit(X, y) print(f最优alpha: {lasso_cv.alpha_:.4f}) # 示例输出0.02363.2 提取有效特征获取非零系数对应的特征名# 获取非零系数特征 nonzero_mask lasso_cv.coef_ ! 0 selected_features data.columns[:-1][nonzero_mask] print(筛选后的特征:, list(selected_features)) # 验证筛选效果 print(真实有效特征:, [ffeature_{i} for i in [5,12,28]])典型输出示例筛选后的特征: [feature_5, feature_12, feature_28, feature_33] 真实有效特征: [feature_5, feature_12, feature_28]3.3 性能对比评估比较筛选前后的模型表现from sklearn.model_selection import cross_val_score # 全特征线性回归 full_lr LinearRegression() full_scores cross_val_score(full_lr, X, y, cv5) # Lasso筛选后特征 filtered_lr LinearRegression() filtered_scores cross_val_score(filtered_lr, X[:,nonzero_mask], y, cv5) print(f全特征模型平均R2: {full_scores.mean():.3f}) print(f筛选后模型平均R2: {filtered_scores.mean():.3f})实际项目中我们常发现特征数减少60-80%测试集性能提升10-30%训练速度提高3-5倍4. 高级技巧与避坑指南4.1 处理高相关特征组当多个强相关特征共存时Lasso通常只保留其中一个。解决方法先计算特征相关系数矩阵对每个高相关组如r0.8保留Lasso选中的特征人工补充业务关键特征# 检测高相关特征 corr_matrix pd.DataFrame(X).corr().abs() high_corr np.where(corr_matrix 0.8) # 输出高相关特征对 for i,j in zip(*high_corr): if i ! j and i j: print(f{data.columns[i]} 与 {data.columns[j]} 相关系数: {corr_matrix.iloc[i,j]:.2f})4.2 分类特征的特殊处理对于one-hot编码的分类变量建议对每个分类变量的所有虚拟变量使用分组Lasso或使用sklearn.preprocessing.OneHotEncoder的dropif_binary参数from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OneHotEncoder # 假设前5列是分类特征 preprocessor ColumnTransformer( transformers[ (cat, OneHotEncoder(dropif_binary), list(range(5))), (num, passthrough, list(range(5,50))) ]) X_processed preprocessor.fit_transform(data)4.3 超参数调优策略alpha范围建议用np.logspace(-4, 2, 100)覆盖大范围稳定性选择多次运行取系数出现频率高的特征正则化路径观察系数随alpha变化的拐点from sklearn.linear_model import Lasso # 稳定性选择 n_iter 20 selected_counts np.zeros(X.shape[1]) for _ in range(n_iter): lasso Lasso(alpha0.01).fit(X, y) selected_counts (lasso.coef_ ! 0) print(特征选择频率:, selected_counts/n_iter)实际项目中我们会记录每次迭代选择的特征最终保留选择频率超过80%的特征。这种方法比单次Lasso更稳定尤其适用于特征间存在中等相关性时。

一篇标准的SCI到底要怎么写？

很多人第一次接触SCI，会有一个误解：觉得SCI是一种特殊写法。其实不是。SCI本质上还是论文。只是：对研究质量、逻辑严谨性和创新性的要求更高。甚至可以说：很多本科生最痛苦的地方，不是英文。而是：根本不知道…...

2026/5/31 11:48:50 阅读更多 →

AI短片爆火：创作者机遇与挑战并存，行业未来走向何方？

AI短片爆火现象5月9日，Mx - Shell（本名刘梓瑜）发布的AI短片《丧尸清道夫》在全球社交平台掀起刷屏潮，被网友称为国产版《爱，死亡和机器人》，29岁的刘梓瑜一夜爆火，收到诸多合作邀约。他表示最初…...

2026/5/31 20:04:28 阅读更多 →

终极PDF OCR工具指南：5分钟掌握离线文档识别解决方案

终极PDF OCR工具指南：5分钟掌握离线文档识别解决方案【免费下载链接】OCRmyPDF OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched 项目地址: https://gitcode.com/GitHub_Trending/oc/OCRmyPDF 你是否曾经面对一堆扫描…...

2026/5/31 10:31:59 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/5/31 0:01:40 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/5/31 0:01:42 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/5/31 0:03:05 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/5/31 0:09:56 阅读更多 →