博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【深度学习最优化方法】
阅读量:5024 次
发布时间:2019-06-12

本文共 538 字,大约阅读时间需要 1 分钟。

基本优化算法:

一、SGD

  1.含义:

  随机抽取m个小批量样本,计算梯度平均值,再进行梯度的更新。

  2.算法:

 

  3.学习率衰减:

  ,α=k/τ

      说明:初始以ε0的学习率进行线性衰减,直到τ次迭代,τ次迭代之后学习率稳定在ετ。

  4.参考:

 

二、momentum

  1.含义:

  通过累积前t-1次的动量,来影响本次的梯度更新,使得前进方向相同时,加速收敛,方向相反时,抑制震荡。

  2.算法:

 

  3.参考:

 

三、Nesterov(牛顿动量)

  1.含义:

  与momentum类似,不同是先计算临时点,然后在临时点计算梯度。

  2.算法:

 

  3.参考:

 

 

自适应参数的优化算法:

四、AdaGrad

  1.含义:

  设置全局学习率,每个参数的学习率不同,为全局学习率/历史梯度的平方和的平方根,注意是逐元素的。

  2.算法:

 

  3.参考:

 

五、RMSProp

  1.含义:

  对AdaGrad的改进,加入对历史的衰减。

  2.算法:

 

  3.参考:

 

六、Adam

  1.含义:

  Momentum+RMSProp的结合,然后再修正其偏差。既利用了历史的动量,又对使得每个参数学习率不同。

  2.算法:

 

  3.参考:

 

转载于:https://www.cnblogs.com/EstherLjy/p/9453559.html

你可能感兴趣的文章
每天一个Linux命令(6):rmdir命令
查看>>
oracle连接的三个配置文件(转)
查看>>
Vim配置文件(Vimrc)
查看>>
RecyclerView 局部刷新(获取viewHolder 去刷新)
查看>>
PHP表单(get,post)提交方式
查看>>
使用vbs或者bat脚本修改IE浏览器安全级别和选项
查看>>
Silverlight入门
查看>>
Silverlight动态调用WEBSERVICE,WCF方法
查看>>
LeetCode 895. Maximum Frequency Stack
查看>>
模仿segmentfault 评论
查看>>
一个简单的日志函数C++
查看>>
Java 8 中如何优雅的处理集合
查看>>
IOS程序的启动过程
查看>>
连接Linux下 XAMPP集成环境中部署的禅道的数据库MariaDB
查看>>
Java操作Excel和Word
查看>>
Oracle 体系结构之ORACLE物理结构
查看>>
ORA-12538: TNS: no such protocol adapter
查看>>
盒子模型
查看>>
局域网协议
查看>>
[HNOI2012]永无乡 线段树合并
查看>>