别再死记硬背！用两个真实PySpark代码例子，彻底搞懂Job/Stage/Task的生成逻辑

张

张建站

2026/4/23 10:30:04

10分钟阅读

别再死记硬背！用两个真实PySpark代码例子，彻底搞懂Job/Stage/Task的生成逻辑

从代码反推Spark执行计划两个实战案例拆解Job/Stage/Task生成逻辑当你第一次接触Spark的Job、Stage、Task概念时是否曾被各种抽象解释绕得云里雾里本文将通过逆向思维带你看代码→猜执行计划→验证UI的完整推理过程。不同于传统教学路径我们将从两个典型PySpark代码片段出发像侦探破案一样一步步还原Spark底层的执行逻辑。1. 逆向学习法为什么从代码反推更有效大多数Spark教程会先抛出Job/Stage/Task的定义再给出代码示例。这种概念→实例的教学路径往往让初学者陷入看似明白实则模糊的状态。而逆向学习法的优势在于问题导向从具体代码出发带着明确问题去探索验证闭环推理结果可通过Spark UI直接验证记忆深刻自主推导的过程比被动接受更易形成长期记忆提示本文所有案例均在Spark 3.2环境验证建议读者边阅读边在本地pyspark shell中复现2. 案例一基础转换与行动操作让我们从一个基础代码片段开始rdd sc.parallelize([1,3,2,5,7,9,3,5,4], 3) rdd.distinct().collect() # [9, 3, 1, 4, 7, 5, 2] rdd.filter(lambda x:x % 2!0).collect() # [1, 3, 5, 7, 9, 3, 5]2.1 第一步识别行动算子(Action)Spark的懒执行机制决定了只有遇到行动算子才会触发实际计算。在这段代码中collect()出现了两次每次collect()都会触发一个独立的Job执行因此可以确定总Job数22.2 第二步分析Stage划分Stage的划分取决于Shuffle操作的存在。让我们分别分析两个JobJob1: distinct().collect()distinct()操作需要全局去重必然引发ShuffleShuffle前后会形成Stage边界collect()作为结果收集操作本身也是一个StageJob2: filter().collect()filter()是窄转换(narrow transformation)不涉及Shuffle整个流水线可以合并为一个Stage因此得出总Stage数2(Job1)1(Job2)32.3 第三步计算Task数量Task数量由Stage内的分区数决定。初始RDD明确指定了3个分区Job1Stage0(distinct): 3个分区 → 3个TaskStage1(collect): distinct输出默认保持分区数 → 3个TaskJob2单个Stage: filter保持分区不变 → 3个Task汇总得总Task数6(Job1)3(Job2)92.4 Spark UI验证在Spark UI的Jobs标签页我们确实能看到两个独立的Job记录第一个Job显示2个Stages第二个Job显示1个StageTasks计数与我们的推理完全一致3. 案例二Join操作的执行计划现在来看一个涉及Shuffle Join的复杂案例x sc.parallelize([(a, 1), (b, 4)]) y sc.parallelize([(a, 2), (a, 3), (c, 5)], 3) r x.join(y) r.collect() # [(a, (1, 3)), (a, (1, 2))]3.1 Job数量分析这段代码中只有一个行动算子collect()因此只产生1个Job3.2 Stage划分逻辑Join操作是典型的宽转换(wide transformation)Stage0执行join前的准备工作需要对两个RDD按key重新分区这是一个Shuffle边界Stage1实际执行join后的collect操作因此总Stage数为2其中Stage0包含join前的所有操作Stage1负责最终结果收集3.3 Task数量计算这里的分区情况更复杂RDD x未指定分区数默认2(执行器数量)RDD y明确指定3个分区join操作会产生分区继承Stage0需要处理x(2分区)和y(3分区)的Shuffle读写实际Task数2(x)3(y)5Stage1join结果的分区数默认继承父RDD的最大值3但collect操作会合并所有分区数据到Driver实际Task数3注意不同Spark版本对join后分区数的处理可能略有差异3.4 UI验证要点在Spark UI中重点关注DAG可视化图中的Stage划分输入数据大小与Shuffle数据量的对应关系每个Stage的Task执行时间分布4. 高级技巧优化执行计划的方法理解了基本原理后我们可以主动优化代码4.1 减少Shuffle操作# 非优化写法两次Shuffle rdd.distinct().groupByKey() # 优化写法一次Shuffle rdd.groupByKey().mapValues(list(set))4.2 合理设置分区数# 在Shuffle后调整分区数 rdd.join(otherRdd).coalesce(10)4.3 缓存中间结果# 避免重复计算 processed rdd.filter(...).distinct().cache() res1 processed.map(...) res2 processed.reduceByKey(...)5. 调试实战当结果不符合预期时遇到执行计划与预期不符的情况可以检查explain()输出rdd.join(otherRdd).explain()确认Shuffle操作是否真的发生检查自定义分区器的实现对比不同Spark版本的执行计划差异在最近的一个数据处理项目中我们发现同样的join操作在Spark 3.1和3.3中产生了不同的Stage划分最终通过调整spark.sql.shuffle.partitions参数解决了性能问题。

SSL 证书有效期要缩到 47 天了！用 ACME 协议 + Certbot 在亚马逊云科技 EC2 上实现自动续期全攻略

SSL 证书有效期要缩到 47 天了！用 ACME 协议 Certbot 在亚马逊云科技 EC2 上实现自动续期全攻略 CA/Browser Forum 去年通过了一个让运维集体头疼的决议：SSL/TLS 证书有效期要分阶段缩短，到 2029 年只剩 47 天。意味着一年要续 8 次以上&…...

2026/4/23 10:29:37 阅读更多 →

AI核心知识135—大语言模型之 OpenClaw（简洁且通俗易懂版）

OpenClaw 是目前（特别是在 2025 年底到 2026 年）在开源社区和 AI 极客圈子里最炙手可热的开源自主智能体 (Autonomous AI Agent) 框架。如果说大模型（如 GPT-4、Claude）是拥有绝顶智慧的“大脑” ，那么 OpenClaw 就是一…...

2026/4/23 10:27:23 阅读更多 →

Windows下Python包安装终极排雷指南：从C++报错到whl手动安装，一篇讲透

Windows下Python包安装终极排雷指南：从C报错到whl手动安装，一篇讲透在Windows环境下进行Python开发时，包安装问题堪称新手进阶路上的"拦路虎"。不同于Linux/macOS的友好环境，Windows特有的动态链接库依赖、编译器缺失…...

2026/4/23 10:25:22 阅读更多 →

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

1. 全志T3与T5处理器核心架构解析全志T3（A40I）和T5（T507）作为两代工控处理器，在核心架构上有着显著差异。T3采用四核Cortex-A7架构，主频1.2GHz，搭配Mali400MP2 GPU，属于经典的"…...

2026/4/22 17:12:14 阅读更多 →

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全图解实战）一、前言二、列出 ES 所有索引：整体流程流程图三、Elasticsearch 列出所有索引：核心命令3.1 方法1：_cat/indices（最常用、运维…...

2026/4/22 18:00:32 阅读更多 →

SAP PI/PO HTTPS接口调用实战：从SSL证书导入到彻底告别iaik.security.ssl.SSLCertificateException

1. 当SAP PI/PO遇到HTTPS接口报错时发生了什么？ 最近在帮客户调试SAP PI系统调用外部HTTPS接口时，遇到了一个让人头疼的问题。系统在调用Swagger Petstore的API时，控制台突然抛出"iaik.security.ssl.SSLCertificateException: Peer cert…...

2026/4/22 11:40:58 阅读更多 →