文章目录
- 深度学习中的优化算法(Optimization)
- 1. 深度学习中的优化问题
- 2. 基于梯度的优化算法
- (1) 超参数的选择
- ① 超参数 batch size
- ② 超参数 learning rate
- ③ 选择超参数
- (2) 从不同角度理解梯度下降
- ① 动力学角度
- ② 逼近角度
- ③ 概率角度
- 3. 常用的梯度下降算法
- 4. 其他优化算法
- ⚪ [Averaging Weights Leads to Wider Optima and Better Generalization](https://0809zheng.github.io/2020/11/29/swa.html)&