最大似然估计

 

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

vanishingGrandient

 

神经网络中的训练难点

前一层的学习率远远低于后一层的学习率

δlj=Cbljδjl=∂C∂bjl

造成 vaninshing gradient problem 的原因

zj=wjaj1+bjzj=wjaj−1+bj

Cb1=σ(z1)w2σ(z2)w3σ(z3)w4σ(z4)Ca4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4

简单证明:

对于b1b1的一个小变化引起CC的变化

Cb1ΔCΔb1∂C∂b1≈ΔCΔb1

a1=σ(z1)=σ(wqa0+b1)a1=σ(z1)=σ(wqa0+b1)

Δa1σ(w1a0+b1)b1Δb1=σ(z1)Δb1Δa1≈∂σ(w1a0+b1)∂b1Δb1=σ′(z1)Δb1

a1z2:z2=w2a1+b2a1的变化又引起z2的变化:z2=w2⋅a1+b2

Δz2z2a1Δa1=w2Δa1Δz2≈∂z2∂a1Δa1=w2Δa1

所以
Δz2σ(z1)w2Δb1Δz2≈σ′(z1)w2Δb1
依次可以推出
ΔC=σ(z1)w2σ(z2)w3σ(z3)w4σ(z4)Ca4Δb1ΔC=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4Δb1

Cb1=σ(z1)w2σ(z2)w3σ(z3)w4σ(z4)Ca4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4

σσ′函数的最大值为 0.25
按照平均随机从正太分布(0,1)(0,1)中随机产生权重的方法 大部分|w|<1|w|<1
所以 |wjσ(zj)|<0.25|wjσ′(zj)|<0.25
对以上公式的多项乘积来讲,层数越多,连续乘积越小

使用Rel解决vanishing gradient问题

sigmod函数造成输出层的activation大部分饱和

解决vanishing gradient方法

Sigmoid unit
f(x)=11+e(x)f(x)=11+e(−x)
Tanh unit
f(x)=tanh(x)f(x)=tanh(x)
Rectified linear unit(ReLU)
f(x)=i=1σ(xi+0.5)log(1+ex)f(x)=∑i=1∞σ(x−i+0.5)≈log(1+ex)

softpluslog(1+ex)log(1+ex)函数可以被max(0,x+N(0,1))max(0,x+N(0,1))函数模拟
max函数叫做Rectified Linear Function(ReL)

总结:
sigmoid和ReL函数的区别

  • igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数

  • Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势:

不会产生vanishing gradient的问题

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄