博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
神经网络与深度学习(2):梯度下降算法和随机梯度下降算法
阅读量:4589 次
发布时间:2019-06-09

本文共 992 字,大约阅读时间需要 3 分钟。

本文总结自《》第1章的部分内容。 

 

使用梯度下降算法进行学习(Learning with gradient descent)

1. 目标

我们希望有一个算法,能让我们找到权重和偏置,以至于网络的输出y(x) 能够拟合所有的训练输入x。

2. 代价函数(cost function)

定义一个Cost function (loss function, objective function): 目标函数,如下:
C: 被称为二次代价函数;有时也被称为均方误差或者MSE
w: weight 权重
b: bias 偏向
n: 训练数据集实例个数
x: 输入值
a: 输出值 (当x是输入时)
||v||:  向量v的模
 
C(w,b) 越小越好,输出的预测值和真实值差别越小越好。
 
那么我们的目标就转为: 最小化C(w,b)。
 
我们训练神经网络的目的是找到能最小化二次代价函数C(w; b) 的权重和偏置。

3. 梯度下降

最小化问题可以用梯度下降解决(gradient descent)。

C(v) v有两个变量v1, v2,通常可以用微积分解决,如果v包含的变量过多,无法用微积分解决。

梯度下降算法工作的方式就是重复计算梯度∇C,然后沿着相反的方向移动,沿着山谷“滚落”。

即每下降到一个地方,就要计算下一步要往哪个方向下去。

权重和偏置的更新规则:

4. 随机梯度下降算法 (stochastic gradient descent)

实际中使用梯度下降算法会使学习变得相当缓慢。这是因为:

对于每个训练实例x, 都要计算梯度向量∇C。如果训练数据集过大,会花费很长时间,学习过程太慢。

所以实际中使用随机梯度下降算法 (stochastic gradient descent)。
 
基本思想: 从所有训练实例中取一个小的采样(sample): X1,X2,…,Xm   (mini-batch),来估计 ∇C, 大大提高学习速度。
 
如果样本够大,
 
代入更新方程:
然后,重新选择一个mini-batch用来训练,直到用完所有的训练实例,一轮epoch完成。 
 
 
作者:
出处:
本文版权归作者和博客园共有,欢迎转载,未经同意须保留此段声明,且在文章页面明显位置给出原文链接。欢迎指正与交流。

转载于:https://www.cnblogs.com/tsiangleo/p/6146911.html

你可能感兴趣的文章
IaaS,PaaS,SaaS 的区别
查看>>
Python复习基础篇
查看>>
关于Cocos2d-x中背景音乐和音效的添加
查看>>
.Net持续集成 —— Jenkins+Git+WebDeploy
查看>>
01_Numpy基本使用
查看>>
checkbox和文字对齐
查看>>
JConsole远程连接配置 服务器监控工具
查看>>
了解HTTP协议栈(实践篇)
查看>>
loj10035. 「一本通 2.1 练习 1」Power Strings
查看>>
%s的用法
查看>>
调用底层不能直接访问的类和方法
查看>>
清理缓存的方法 #DF
查看>>
JAVA array,map 转 json 字符串
查看>>
2017-12-27练习
查看>>
NET设计规范(二) 命名规范
查看>>
VMware 9.0.1安装Mac OS X Mountain Lion 10.8.2
查看>>
SSL延迟
查看>>
android新手关于左右滑动的问题,布局把<android.support.v4.view.ViewPager/><ImageView/> 放在上面就不行了。...
查看>>
深入理解DIP、IoC、DI以及IoC容器
查看>>
赋值文件
查看>>