如何给网站做备案免费的招标网站有哪些

张小明 2026/3/12 17:41:04
如何给网站做备案,免费的招标网站有哪些,关于课题网站建设的协议,优秀毕业设计网站设计1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题#xff1a;Pasted image 20251110104620现在假设这就是我们的网络的损失图像#xff0c;我们通过一次次迭代#xff0c;让损失下降到最低点。这里展开两个问题#xff1a;#xff08;…1. Momentum 梯度下降法1.1梯度下降中的“震荡”现象我们用课程里的图来看一下这个问题Pasted image 20251110104620现在假设这就是我们的网络的损失图像我们通过一次次迭代让损失下降到最低点。这里展开两个问题1为什么迭代过程会让损失上下震荡因为每个批次的样本不可能完全相同不同的特征倾向会指引参数向不同的方向更新。甚至如果一个批次中大多是噪声反而会让参数反向更新增加损失。就像猫狗分类中一个批次可能白猫多一些一个批次可能橘猫多一些而还有一些批次甚至有和狗长得很像的猫这都会影响该次迭代中的学习效果从而影响参数更新而这前后的不同就会让损失“震荡”。2为什么不改变学习率震荡也会越来越小因为在收敛的过程中损失函数变平坦梯度变小更新步长随之减小。同时样本间的梯度差异噪声也随之变小使震荡幅度下降。来看一下参数更新公式参数参数学习率梯度在学习率不变的情况下梯度越来越小了自然更新量就会变小影响损失的变化量也会变小。依旧用下山举例就像越靠近山谷底部地面越平坦即使走偏一步你也走不上多高的坡自然“来回晃动”的幅度越来越小。但这只是理想情况如果学习率设置不当就会出现这中情况你快到谷底了却还在大步流星根本刹不住车一脚又上了另一座山。你走得太慢了甚至可能在谷底附近的浅坑里转圈圈迟迟到不了真正的低点而且说到底震荡现象依然存在只是在收敛中随着整体移动量变小而没那么明显了如何解决这种情况又不影响正常收敛呢1.2 解决震荡的直接方法通过上面一部分我们现在已经知道了出现震荡的本质原因是批次训练中样本的差异导致的单次迭代的结果差异。那么你可能已经猜到了一个解决这个问题的最直接的方法增加批次样本量没错只要我们增加批次样本量模型一次学习更多的样本自然就学到了更多的特征分布出现“噪声集中”的几率也会变少。就像刚刚的猫狗分类里原来模型看完白猫就学白猫然后看橘猫学橘猫之后再看“狗猫”学“狗猫”就像对什么都很好奇的小孩每遇到新的一批样本都要调整自己对猫的认知就是一次震荡。现在我把黑白红蓝猫一次让模型看完模型就知道这些颜色的猫都是猫了就像见识广了的成年人遇到新样本发现其实里面的特征自己之前已经见过了自然不会有那么多的震荡。可是这样就又出现新问题了在本周第一部分里我们就已经论述了选择Mini-batch梯度下降是成本和性能的权衡考虑如果不计其他因素地增加批次样本那不就是批次梯度下降即一次就使用所有样本来训练吗这会带来显存暴涨单步计算量巨增训练速度不一定更快大 batch 收敛容易“卡平坦鞍点”Pasted image 20251110125009因此Batch 不是越大越好而是追求成本与梯度稳定之间的平衡。而这也引出了一个核心动机我们希望在小 batch 的成本下获得“大 batch 才有的稳定梯度效果”。这正是 Momentum 要解决的。1.3 Momentum 梯度下降法我们已经通过气温的例子学习了指数加权平均的概念。回忆一下气温的例子每天的气温都有波动直接看“当天温度”得到的曲线会忽高忽低、不够平滑就像“震荡”。但如果对气温做 EMA今天的气温占 70%昨天占 21%前天占 6%…那得到的温度曲线就会 更平滑、更稳定、更能代表真实趋势。再看看我们现在要解决的震荡问题它的核心在于每次更新只依赖该批次样本计算的梯度。现在的更新方式是不是就相当于“当天温度”那是不是同理只要我们对梯度进行EMA,让一次迭代不只依赖本次样本计算的梯度而是多批次样本梯度的指数加权平均是不是就相当于变相地增加了批次样本量我们再换个角度加深一下理解再次回看这副图先强调一下真实的图像和方向代表的信息要远比图里的复杂的多我们只是简化来帮助理解。Pasted image 20251110133009就像图里画的一样我们抽出其中两次迭代并假定他们所代表的特征。这样如果第二次迭代使用的是EMA梯度那它就得到了更平衡更指向核心特征的信息。就像把每个人自己独特的观点综合考量而每个人都赞同的观点那大概是对的就大力采纳。而这就是Momentum 梯度下降法的核心观点对多次计算的梯度做EMA,用EMA来更新参数。如果梯度方向总是在某个方向上保持一致那我们就应该越走越快。如果梯度方向来回变化就不要轻易被改变。其公式如下记参数为梯度为动量项为动量系数为学习率为则其中相当于累积了之前多次梯度的“指数加权平均”当梯度方向稳定时会越来越大加快下降速度。当梯度方向来回变化时会相互抵消减少震荡。这样我们使用Momentum 梯度下降法,用指数加权平均后的梯度更新参数既增加了核心特征上的收敛速度又缓解了个性化特征带来的震荡现象。2.“人话版”总结概念 原理 比喻梯度下降中的震荡 每个批次样本不同导致每次迭代的梯度方向不一致参数更新“来回晃动”。 就像走山路有时被小石头绊偏走两步又回到原路来回摇摆。学习率不变时震荡减小 随着收敛损失函数变平坦梯度变小更新步长减小自然震荡幅度下降。 越靠近山谷底部地面平坦即使走偏也不会翻到对面山坡。增大批次解决震荡直接方法 一次学习更多样本梯度更稳定噪声影响减小。 小孩学猫时只看一种颜色的猫会不断调整认知一次看多种颜色的猫就稳了。Momentum 梯度下降法 对多次迭代的梯度做指数加权平均EMA用EMA更新参数稳定方向加速震荡方向抵消。 就像综合多个人的意见大多数人一致的方向就加速采纳意见分歧的方向就减缓。Momentum 梯度下降法公式EMA累积前几次梯度相当于“记住过去的方向”走路更稳、更快。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站策划书ppt怎么查网站是谁建的

STM32F103C8T6微控制器全面解析与开发实战指南 【免费下载链接】STM32F103C8T6中文数据手册 本资源文件提供了STM32F103C8T6微控制器的中文数据手册。STM32F103C8T6是一款基于ARM Cortex-M3内核的32位微控制器,具有高性能、低功耗和低电压特性,同时保持了…

张小明 2026/3/5 6:09:42 网站建设

四川网站建设找珊瑚云wordpress 代码结构

行业趋势:AI办公从工具走向智能体,进入“超级员工”时代 据艾瑞咨询《2025年中国AI办公软件市场研究报告》显示,中国AI办公市场规模已达308.64亿元,同比增长135.55%,预计2028年将突破1900亿元。更关键的是&#xff0c…

张小明 2026/3/5 6:01:59 网站建设

网站服务器服务商北京协会网站建设

三部曲解锁:SDL驱动的VR心理治疗技术革命 【免费下载链接】SDL Simple Directmedia Layer 项目地址: https://gitcode.com/GitHub_Trending/sd/SDL 你是否想过,一个开源多媒体库竟然能成为心理治疗的革命性工具?当传统疗法遇到技术瓶颈…

张小明 2026/3/5 6:09:10 网站建设

做网站销售经常遇到的问题网页设计图片与图片的位置

PaddleDetection GPU 算力优化:构建高效计算机视觉系统的实战路径 在智能制造工厂的质检线上,一台工业相机每秒捕捉数十帧高清图像,系统必须在毫秒级时间内判断产品是否存在划痕、缺件或装配偏差。传统基于CPU的目标检测方案常常因延迟过高而…

张小明 2026/3/5 6:01:58 网站建设

自己做彩票网站简单吗合肥企业网站设计制作

雷递网 雷建平 12月21日通用人工智能(AGI)公司MiniMax(稀宇科技)今日通过上市聆讯,有望刷新记录,成为从成立到IPO历时最短的AI公司。截至2025年9月30日,MiniMax持有的现金结余10.46亿美元。Mini…

张小明 2026/3/5 6:02:03 网站建设