merge、concat、join：三张表合并搞崩你的不是语法是逻辑

张

张建站

2026/7/5 14:51:58

10分钟阅读

merge、concat、join三张表合并搞崩你的不是语法是逻辑数据分析里很少只用一张表。订单表、用户表、商品表——三张拼一起才能出洞察。但表合并是 Pandas 新手最容易写错的地方。今天把 concat、merge、join 的区别一次说清。concat简单粗暴的拼接concat 就像在 Excel 里把两张表头一样的表上下贴在一起。importpandasaspd df1pd.DataFrame({A:[1,2],B:[3,4]})df2pd.DataFrame({A:[5,6],B:[7,8]})# 纵向拼接默认resultpd.concat([df1,df2],ignore_indexTrue)print(result)# A B# 0 1 3# 1 2 4# 2 5 7# 3 6 8# 横向拼接resultpd.concat([df1,df2],axis1)print(result)列不一样怎么办df1pd.DataFrame({A:[1,2],B:[3,4]})df2pd.DataFrame({B:[5,6],C:[7,8]})# joinouter取并集缺的地方填 NaNresultpd.concat([df1,df2],joinouter)# A B C# 0 1.0 3 NaN# 1 2.0 4 NaN# 0 NaN 5 7.0# 1 NaN 6 8.0# joininner取交集只保留共有的列resultpd.concat([df1,df2],joininner)# B# 0 3# 1 4# 0 5# 1 6merge像 SQL 的 JOIN# 用户表userspd.DataFrame({user_id:[1,2,3,4],name:[张三,李四,王五,赵六],city:[北京,上海,广州,深圳]})# 订单表orderspd.DataFrame({order_id:[101,102,103,104,105],user_id:[1,2,2,3,5],# 注意user_id5 不在用户表里amount:[150,200,300,100,500]})四种连接方式# inner只保留两边都有的交集resultpd.merge(users,orders,onuser_id,howinner)print(finner:{len(result)}行)# 4行user_id5被排除# left保留左边全部右边没有的填 NaNresultpd.merge(users,orders,onuser_id,howleft)print(fleft:{len(result)}行)# 5行赵六没有订单# right保留右边全部resultpd.merge(users,orders,onuser_id,howright)print(fright:{len(result)}行)# 5行user_id5的用户信息是NaN# outer两边都保留resultpd.merge(users,orders,onuser_id,howouter)print(fouter:{len(result)}行)# 6行怎么选记住这个需求用“所有用户和他们的订单”用户必须有leftusers 在左“有订单的用户信息”inner“所有用户和所有订单全都要”outer列名不一样时userspd.DataFrame({uid:[1,2,3],name:[张三,李四,王五]})orderspd.DataFrame({user_id:[1,2,2],amount:[150,200,300]})# left_on 和 right_on 分别指定resultpd.merge(users,orders,left_onuid,right_onuser_id)print(result)# 合并后删掉重复列result.drop(columns[user_id],inplaceTrue)join按索引合并df1pd.DataFrame({A:[1,2,3]},index[a,b,c])df2pd.DataFrame({B:[4,5]},index[a,c])# join 按索引合并默认 leftresultdf1.join(df2,howleft)print(result)# A B# a 1 4.0# b 2 NaN# c 3 5.0merge 也可以按索引pd.merge(df1, df2, left_indexTrue, right_indexTrue)。合并后数据验证防丢数据# 合并前后行数检查print(fusers:{len(users)}, orders:{len(orders)})resultpd.merge(users,orders,onuser_id,howleft)print(f合并后:{len(result)})# 检查有没有丢数据lost_usersset(users[user_id])-set(result[user_id])iflost_users:print(f丢失的用户ID:{lost_users})# 检查重复ifresult.duplicated(subset[user_id]).any():print(警告有重复的 user_id)实战订单用户商品三表联查# 三张表userspd.DataFrame({user_id:[1,2,3],name:[张三,李四,王五],level:[VIP,普通,VIP]})productspd.DataFrame({product_id:[101,102,103],product_name:[手机,电脑,耳机],category:[电子,电子,配件]})orderspd.DataFrame({order_id:[1001,1002,1003,1004,1005],user_id:[1,1,2,3,2],product_id:[101,102,101,103,102],quantity:[1,1,2,5,1],price:[2999,5999,2999,199,5999]})# 三表合并fullorders.merge(users,onuser_id)\.merge(products,onproduct_id)print( 完整订单明细 )print(full.head())# 分析各等级用户消费print(\n 各等级消费总额 )print(full.groupby(level)[price].sum())# 分析各品类销量print(\n 各品类销量 )print(full.groupby(category)[quantity].sum())# 各用户最常买的品类print(\n 用户偏好 )preffull.groupby([name,category])[quantity].sum()print(pref)新手常见坑坑1合并后行数变多# 右表有重复的关联键 → 行数膨胀# 比如一个用户有3条订单合并后这个用户出现3次# 这是正常的但要注意检查print(f合并前行数{len(df1)}{len(df2)}{len(df1)len(df2)})print(f合并后行数{len(result)})坑2关联键类型不一致# df1 的 id 是 intdf2 的 id 是 str → 合并不上df1[id]df1[id].astype(str)# 或者df2[id]df2[id].astype(int)坑3concat 时列顺序不对# 列名对不上会创建新列# 先统一列名df2.columnsdf1.columns resultpd.concat([df1,df2])动手试试创建两张表用 merge 做 inner join 并检查结果把三个 CSV 文件用 concat 拼成一个做一个三表联查的分析输出汇总结果写在最后表合并是数据分析的基本功。三点建议合并前print(len(df))确认行数合并后检查有没有丢数据搞清楚 inner/left/right/outer 的区别别瞎试下一篇开始画图——Matplotlib 入门。

原子力显微镜（AFM）常见问题（二）

1. AFM可以分析材料的亲疏水性吗？如何判断？可以分析，需要用液下模式。2. 为什么AFM测试样品颗粒或者表面粗糙度不能过大？一般来说AFM仪器测试的Z相范围是10um左右（有些仪器可能只有2um），因此样品…...

2026/7/5 14:50:01 阅读更多 →

Py-GCMS 与 FTIR 的性能比较

热解气相色谱-质谱法 (Py-GCMS) 和傅里叶变换红外光谱法 (FTIR) 是用于分析微塑料和其他复杂样品的两种主要分析技术。 FTIR 是一种光谱方法，通过产生红外吸收光谱来识别分子中的化学键，作为分子指纹。 Py-GCMS 是一种热分析方法，在高温下分…...

2026/7/5 14:49:47 阅读更多 →

电子结构分析：如何分析态密度及相关性质

能带结构和态密度（DOS）如前所述，能带结构图的横轴对应于波矢k（与电子的晶体动量成正比），纵轴表示能量E。能带结构曲线上的每个点都对应一个具有特定( k , E )值的允许电子状态。相比之下，态密度…...

2026/7/5 14:49:09 阅读更多 →

2026年AI论文助手推荐：从开题到答辩的一站式智能解决方案

一、传统论文写作的痛点写论文是一场持久战。从选题到答辩，中间要经历开题报告、文献综述、论文撰写、查重降重、格式排版等多个环节。每个环节都可能成为绊脚石：选题不知道怎么选、文献看不完、写不出来、查重过不了、格式调不对…… 2026年&#xf…...

2026/7/5 0:03:29 阅读更多 →

EM3080-W条码扫描模块与PIC32MX695F512L集成指南

1. EM3080-W条形码扫描模块解析EM3080-W是新大陆自动识别技术有限公司推出的一款高性能条码解码芯片，专为嵌入式系统设计。这款芯片在工业级应用中表现出色，具有低功耗、高解码成功率的特点，特别适合集成到各种便携式和固定式扫描设备中。1.1…...

2026/7/5 0:05:34 阅读更多 →

工业级传感器控制系统硬件选型与配置实战

1. 工业级传感器控制系统的硬件选型逻辑在工业自动化领域，构建一个稳定可靠的传感器/执行器控制系统需要精心设计的硬件架构。AD74115H、ADP1034和PIC18F86K90这三款芯片的组合，恰好覆盖了信号采集、电源管理和主控计算这三个关键环节。AD74115H作为ADI公…...

2026/7/5 0:24:27 阅读更多 →

计算机Java毕设实战-美容美发门店收银台账管理系统的设计与实现基于 JavaWeb 的理发店技师排班管理系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/7/5 0:32:10 阅读更多 →

更多精彩文章