成功实现首个pytorch编写的softmax模型并调优的记录

张

张建站

2026/5/8 22:52:23

10分钟阅读

第一次编写softmax模型测试通过跟随经典的深度学习“Dive-into-DL-Pytorch”编写softmax模型使用FashionMNIST数据集6万张训练数据集1万张测试数据集含10个类别的预测普通办公电脑cpuvscode编辑器jupyter上运行跑通。备注代码获取地址在“Dive-into-DL-Pytorch”中可从github上直接拉取。以下是第一次运行配置batchsize256, epoch5 lr0.1使用SGD随机优化器运行结果包含损失值、准确率评估结果思考每一轮训练损失loss都在下降准确率accurary预测准确数/数据集总数上升到百分80十几。想进一步提高准确率于是进一步调参重跑。第二模型调优加大epoch下降次数第二次运行配置batchsize256, epoch10 lr0.1使用SGD随机优化器优化点加大epoch继续下降、降低损失值运行结果结果思考可以发现第6个epoch开始损失没变化准确率也没多少提升。是已经收敛到最佳性能还是收敛异常想到可能原因是学习率过大或固定不变于是进一步调参重跑。第三模型调优使用学习率衰减第三次运行配置batchsize256, epoch10 lr使用torch.optim.lr_scheduler.StepLR使用SGD随机优化器优化点在训练过程中如果学习率太大优化器会在“最低损失点”附近反复横跳无法落入最深的谷底如果学习率固定epoch后期就无法进行更精细的收敛。 torch.optim.lr_scheduler.StepLR是pythorch中的学习率调度器每隔固定轮数将学习率乘以一个衰减系数。运行结果结果思考效果和第二步差不多试下调整优化器。第四模型调优使用Adam优化器第四次运行配置batchsize256, epoch10lr0.01 使用Adam优化器优化点 SGD优化器收敛速度慢且容易陷入局部最优解 Adma优化器带有“动量”和“自适应学习率” 如果梯度方向一致就会加速如果振荡就会减速。运行结果结果思考准确率有小小幅提升但不多当前的网络是单层线性网络只能处理线性边界考虑加大模型复杂度。第五模型调优加大模型复杂度引入多层网络和激活函数第四次运行配置batchsize256, epoch10 使用Adam优化器模型从nn.linear-softmax变为nn.Linear - ReLU - nn.Linear - Softmax优化点原来的模型是单层线性softmax模型只能处理线性边界。图像分类数据可能是非线性的模型能力不够就会出现欠拟合。引入多层网络和激活函数能更好的拟合复杂的曲线。运行结果结果思考准确率有小幅提升难道这就是图像识别的极限了继续学习CNN等待后续使用CNN网络继续识别测试。。。。。。

Windows生产力终极指南：为什么每个用户都需要PowerToys系统增强工具

Windows生产力终极指南：为什么每个用户都需要PowerToys系统增强工具【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending…...

2026/5/8 22:48:38 阅读更多 →

评估结果总被质疑？SITS2026专家揭秘7项隐性质量衰减因子，90%团队第4步已失效

更多请点击： https://intelliparadigm.com 第一章：SITS2026专家：AISMM评估质量保障 AISMM评估的核心原则 AISMM（AI System Maturity Model）是SITS2026框架中用于系统性衡量AI工程化成熟度的关键模型。其质量保障机制…...

2026/5/8 22:39:20 阅读更多 →

Nemo：面向闪存的小对象低写放大缓存系统设计

1. 项目概述Nemo是一种面向日志结构闪存设备的小对象低写放大缓存系统，由Xufeng Yang等人在ASPLOS 26会议上提出。该系统针对当前闪存缓存系统中存在的高写放大问题，提出了一种创新的集合组（Set-Group）结构和概率刷新机制&#xf…...

2026/5/8 22:38:36 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/8 5:15:02 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/7 9:19:11 阅读更多 →