Scikit-learn OneHotEncoder 缺失值报错怎么办？教你一招避坑

张

张建站

2026/6/11 23:20:27

10分钟阅读

Scikit-learn OneHotEncoder 缺失值报错怎么办？教你一招避坑

博客主页瑕疵的CSDN主页 Gitee主页瑕疵的gitee主页⏩ 文章专栏《热点资讯》被 OneHotEncoder 的 NaN 坑到凌晨三点终于搞定了目录昨晚写特征工程OneHotEncoder 突然炸了。报错信息刺眼得像深夜的键盘声ValueError: Input contains NaN, infinity or a value too large for dtype(float64)我盯着屏幕看了半小时才反应过来它根本不吃 NaN数据里有缺失值比如空字符串或np.nan直接塞给 OneHotEncoder 就崩。核心根源scikit-learn 的 OneHotEncoder 设计时就默认输入必须是干净的数值。它不处理缺失值也不认 NaN。你得先清理数据它才肯干活。错误示范我踩过坑fromsklearn.preprocessingimportOneHotEncoder# 假设 df[country] 有 NaN 值encOneHotEncoder()Xdf[[country]]# 有缺失值的列X_encodedenc.fit_transform(X)# 报错直接崩为啥崩因为 OneHotEncoder 会检查输入发现 NaN 就直接抛异常。它不负责填缺失你得先处理。正确姿势直接上代码fromsklearn.composeimportColumnTransformerfromsklearn.pipelineimportPipelinefromsklearn.imputeimportSimpleImputerfromsklearn.preprocessingimportOneHotEncoder# 关键用 SimpleImputer 先填充缺失再编码preprocessorColumnTransformer(transformers[(cat,Pipeline(steps[(imputer,SimpleImputer(strategymost_frequent)),# 用最常见值填充缺失比如填Unknown(onehot,OneHotEncoder(handle_unknownignore))# 处理未知类别避免额外报错]),[country])# 要处理的列名])# 一次性搞定填充缺失编码X_transformedpreprocessor.fit_transform(df)为什么这样写SimpleImputer(strategymost_frequent)把缺失值替换成该列最常出现的值比如China填了 50 次就用它。handle_unknownignore避免新类别比如测试集有Japan但训练集没出现导致崩溃。ColumnTransformer把缺失值处理和编码打包成流水线省得手动分步。图数据输入 → 缺失值填充 → OneHot编码 → 输出特征避坑总结别跳过缺失值处理OneHotEncoder 不会自动填 NaN你得先喂它干净数据。用 Pipeline 统一处理别分开写 imputer 和 encoder容易漏步骤。handle_unknown别忘测试集有新类别时这个参数能救命。验证数据df.isnull().sum()先跑一遍别让 NaN 悄悄混进来。我昨天就是死磕了 2 小时以为是 OneHotEncoder 的 bug。结果发现是自己忘了数据清洗。现在写代码先加一行df.fillna(Missing, inplaceTrue)再套编码器——省下半夜摸鱼的时间。记住数据脏了再牛的模型也得跪。

2026 Django+Llama 4 AI应用实战 | 第 19 讲：让 AI 不退化——Django 集成 Eval 框架实现自动化回归测试

前言欢迎回到《2026 DjangoLlama 4 AI应用实战》！ 在上一讲中，我们为应用构筑了安全护栏，防止恶意输入和输出。但还有一种更隐蔽的危机，常常在夜深人静时摧毁你的 AI 应用——模型退化。当你微调了 Prompt、更换了 RAG 切片策…...

2026/6/11 23:19:52 阅读更多 →

Python通达信数据接口：如何免费获取A股行情数据的完整解决方案？

Python通达信数据接口：如何免费获取A股行情数据的完整解决方案？ 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx 你是否曾经为了获取A股市场数据而烦恼？无论是量…...

2026/6/11 23:10:56 阅读更多 →

Java毕设选题推荐：基于 SpringBoot 的家庭影像管理小程序基于springboot的家庭影像管理系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/6/11 23:10:55 阅读更多 →

CSDN AI数字营销卡片配置手册（跳转权限解禁版）：官方未公开的3种合规跳转变通方案

更多请点击： https://codechina.net 第一章：CSDN AI 数字营销的引流卡片支持跳转官网、小程序链接吗？ CSDN AI 数字营销平台提供的引流卡片，是面向技术创作者与企业用户的核心转化组件，其核心能力之一即为外链跳转。目…...

2026/6/11 23:47:29 阅读更多 →

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南

如何3分钟找回遗忘的压缩包密码：免费开源工具的终极指南【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能对加密压缩包进行自动化测试密码项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经面对一个加密…...

2026/6/11 23:47:29 阅读更多 →

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？

Linux桌面便签神器：Sticky如何让你的工作效率提升300%？ 【免费下载链接】sticky A sticky notes app for the linux desktop 项目地址: https://gitcode.com/gh_mirrors/stic/sticky 在Linux桌面上，你是否经常需要快速记录一闪而过的灵…...

2026/6/11 23:47:29 阅读更多 →

YOLO11部署优化：OpenVINO推理 | 在Intel CPU上利用OpenVINO异构推理加速，无需GPU也能实时检测

我在Intel i7-13700上实测，YOLO11n经过OpenVINO INT8量化后推理延迟从原始的92ms降至19ms，配合异构调度实现CPU+GPU双核并行后进一步压缩到11ms，无需独立GPU即可跑满30FPS实时检测写在前面：一个被低估的部署痛点过去两年，我在三个不同的工业视觉项目中遇到同样的困境—…...

2026/6/10 7:12:49 阅读更多 →