别再死记硬背了！用PyTorch的nn.Linear和nn.Softmax，5分钟搞懂分类模型最后两层

张

张建站

2026/6/2 4:04:45

10分钟阅读

别再死记硬背了用PyTorch的nn.Linear和nn.Softmax5分钟搞懂分类模型最后两层很多深度学习初学者在学习分类模型时常常被全连接层和Softmax层的概念搞得一头雾水。教科书上的理论解释往往过于抽象让人难以与实际代码联系起来。今天我们就用PyTorch的几行代码带你直观理解这两个关键层的作用和关系。1. 从零搭建分类模型的最后两层让我们从一个简单的例子开始。假设我们正在构建一个图像分类器输入的特征向量维度是256需要分类到10个类别。在PyTorch中我们可以这样定义最后两层import torch import torch.nn as nn # 定义模型最后两层 final_layer nn.Linear(256, 10) # 全连接层 softmax nn.Softmax(dim1) # Softmax层 # 模拟一个batch的输入数据 (batch_size32, feature_dim256) features torch.randn(32, 256) # 前向传播 logits final_layer(features) # 得到logits probs softmax(logits) # 转换为概率这段代码展示了分类模型最后两层的典型结构。nn.Linear将256维的特征向量映射到10维的输出空间对应10个类别而nn.Softmax则将这些输出转换为概率分布。关键概念解析Logits全连接层的原始输出可以理解为每个类别的得分概率分布Softmax处理后所有类别的概率之和为1的输出2. 深入理解nn.Linear的工作原理全连接层(nn.Linear)是深度学习中最基础的组件之一。它执行的操作可以用以下数学公式表示output input × weight^T bias让我们通过代码来看看它的具体行为# 创建一个输入维度3输出维度2的全连接层 linear_layer nn.Linear(3, 2) # 查看层的参数 print(权重矩阵形状:, linear_layer.weight.shape) # (2, 3) print(偏置项形状:, linear_layer.bias.shape) # (2,) # 模拟输入数据 (batch_size4, input_dim3) input_data torch.randn(4, 3) # 前向计算 output linear_layer(input_data) print(输出形状:, output.shape) # (4, 2)从输出形状可以看出全连接层完成了从3维到2维的映射。在实际分类任务中输出维度通常等于类别数量。全连接层的重要特性特性说明可学习参数包含权重矩阵和偏置项线性变换仅进行线性运算无非线性能力输入输出关系输出维度由构造函数参数决定3. Softmax层的作用与实现细节Softmax层的核心作用是将logits转换为概率分布。它的数学定义是softmax(x_i) exp(x_i) / Σ exp(x_j)让我们通过实际数据观察这个转换过程# 模拟3个类别的logits输出 logits torch.tensor([[2.0, 1.0, 0.1]]) # 应用Softmax probs softmax(logits) print(Logits:, logits) print(Probabilities:, probs) print(概率和:, probs.sum()) # 应为1.0输出示例Logits: tensor([[2.0000, 1.0000, 0.1000]]) Probabilities: tensor([[0.6590, 0.2424, 0.0986]]) 概率和: 1.0Softmax的关键特性输出值在0到1之间所有输出值之和为1保持原始logits的大小顺序对较大的logits值有放大效应注意在实践中我们通常将Softmax和交叉熵损失合并计算以提高数值稳定性。PyTorch中的nn.CrossEntropyLoss已经内置了这个优化。4. 完整分类模型的实战示例现在让我们把这些知识应用到一个完整的简单分类模型中class SimpleClassifier(nn.Module): def __init__(self, input_dim, num_classes): super().__init__() self.fc nn.Linear(input_dim, num_classes) def forward(self, x): # 直接返回logits训练时使用CrossEntropyLoss return self.fc(x) # 创建模型 (输入维度51210个类别) model SimpleClassifier(512, 10) # 模拟输入数据 input_data torch.randn(16, 512) # batch_size16 # 前向传播 logits model(input_data) print(Logits形状:, logits.shape) # (16, 10) # 计算概率 (仅在推理时需要) probs softmax(logits)训练时的常见模式前向传播得到logits使用nn.CrossEntropyLoss计算损失内部自动应用Softmax反向传播更新参数推理时的步骤前向传播得到logits应用Softmax得到概率取概率最大的类别作为预测结果5. 常见问题与调试技巧在实际使用中你可能会遇到一些典型问题。以下是几个常见场景及其解决方法问题1数值不稳定当logits值过大时exp计算可能导致数值溢出。解决方案# 使用log_softmax代替原始softmax log_probs nn.LogSoftmax(dim1)(logits)问题2理解输出形状全连接层的输出形状由两个因素决定输入数据的batch维度层定义的输出维度例如输入形状(64, 256)nn.Linear(256, 10)输出形状(64, 10)问题3与损失函数的配合PyTorch提供了两种常见选择# 选项1分开Softmax和NLLLoss criterion nn.NLLLoss() output model(input) loss criterion(nn.LogSoftmax(dim1)(output), target) # 选项2使用CrossEntropyLoss推荐 criterion nn.CrossEntropyLoss() # 内置Softmax output model(input) loss criterion(output, target)性能优化技巧对于分类任务优先使用nn.CrossEntropyLoss推理时如果只需要预测类别可以直接取logits的最大值无需计算Softmax使用torch.no_grad()上下文管理器加速推理过程理解这些层的工作原理后你会发现它们并不像最初看起来那么神秘。全连接层只是一个线性变换而Softmax层则是将这个变换的结果转化为概率分布。记住在PyTorch中实践这些概念比单纯理论学习要直观得多。

《变量的定义》

一、变量的定义与分类包括变量的命名规则、作用域、生命周期、使用注意 1、变量的概念变量是用来存储数据的被命名的内存位置。变量需要用一个有名字的、具有特定属性的存储单元来存放数据。变量必须先定义后使用或先声明后使用，定义时指定名字和类型，…...

2026/6/2 4:04:02 阅读更多 →

从MTBF公式到芯片选型：如何为你的高速FPGA系统选择合适的器件与时钟方案

从MTBF公式到芯片选型：高速FPGA系统的器件与时钟方案决策指南在数据中心光通信、高频交易系统或5G基站等对时序极度敏感的场景中，工程师们常面临这样的困境：明明通过了静态时序分析(STA)的FPGA设计，在实际运行中却出现难以复现的数…...

2026/6/2 4:01:58 阅读更多 →

SonarQube 里给 AI 代码做扫描

在 SonarQube 里给 AI 代码做扫描，核心就是三件事：把项目标记为含 AI 代码 → 用更严的质量门（Quality Gate）→ 配更严的规则模板（Quality Profile）。下面按步骤讲，直接照着就能配。一、先开启“…...

2026/6/2 3:59:58 阅读更多 →

Windows防撤回终极指南：如何永久保存微信QQ撤回消息

Windows防撤回终极指南：如何永久保存微信QQ撤回消息【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/…...

2026/6/1 2:02:21 阅读更多 →

终极视频下载解决方案：VideoDownloadHelper 完全指南

终极视频下载解决方案：VideoDownloadHelper 完全指南【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网络上的精彩…...

2026/6/1 16:51:08 阅读更多 →

小微企业合作网络与成长预测解析方案【附代码】

✨ 长期致力于小微企业、合作网络、网络结构、企业成长、成长预测研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于提名生成法的合作网络构建与结构…...

2026/6/1 16:51:08 阅读更多 →

终极键盘映射工具：如何免费解决游戏按键冲突问题

终极键盘映射工具：如何免费解决游戏按键冲突问题【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否曾在激烈的游戏中因为同时按下左右方向键而让角色卡顿不前？是否在关键时刻因为按键…...

2026/6/1 5:51:17 阅读更多 →