线性回归
最大似然估计
SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。
vanishingGrandient
神经网络中的训练难点
前一层的学习率远远低于后一层的学习率
δlj=∂C∂bljδjl=∂C∂bjl
造成 vaninshing gradient problem 的原因
zj=wjaj−1+bjzj=wjaj−1+bj
∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4
简单证明:
对于b1b1的一个小变化引起CC的变化
∂C∂b1≈ΔCΔb1∂C∂b1≈ΔCΔb1
a1=σ(z1)=σ(wqa0+b1)a1=σ(z1)=σ(wqa0+b1)
Δa1≈∂σ(w1a0+b1)∂b1Δb1=σ′(z1)Δb1Δa1≈∂σ(w1a0+b1)∂b1Δb1=σ′(z1)Δb1
a1的变化又引起z2的变化:z2=w2⋅a1+b2a1的变化又引起z2的变化:z2=w2⋅a1+b2
Δz2≈∂z2∂a1Δa1=w2Δa1Δz2≈∂z2∂a1Δa1=w2Δa1
所以
Δz2≈σ′(z1)w2Δb1Δz2≈σ′(z1)w2Δb1
依次可以推出
ΔC=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4Δb1ΔC=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4Δb1
∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4
σ′σ′函数的最大值为 0.25
按照平均随机从正太分布(0,1)(0,1)中随机产生权重的方法 大部分|w|<1|w|<1
所以 |wjσ′(zj)|<0.25|wjσ′(zj)|<0.25
对以上公式的多项乘积来讲,层数越多,连续乘积越小
使用Rel解决vanishing gradient问题
sigmod函数造成输出层的activation大部分饱和
解决vanishing gradient方法
Sigmoid unit
f(x)=11+e(−x)f(x)=11+e(−x)
Tanh unit
f(x)=tanh(x)f(x)=tanh(x)
Rectified linear unit(ReLU)
f(x)=∞∑i=1σ(x−i+0.5)≈log(1+ex)f(x)=∑i=1∞σ(x−i+0.5)≈log(1+ex)
softpluslog(1+ex)log(1+ex)函数可以被max(0,x+N(0,1))max(0,x+N(0,1))函数模拟
max函数叫做Rectified Linear Function(ReL)
总结:
sigmoid和ReL函数的区别
-
igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数
-
Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)
Rectified Linear Unit在神经网络中的优势:
不会产生vanishing gradient的问题