线性回归

佚名 6年前 (2018-09-28) 人工智能 2207人围观抢沙发百度已收录

最大似然估计

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

vanishingGrandient

神经网络中的训练难点

前一层的学习率远远低于后一层的学习率

δlj=∂C∂bljδjl=∂C∂bjl

造成 vaninshing gradient problem 的原因

zj=wjaj−1+bjzj=wjaj−1+bj

∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4

简单证明:

对于b1b1的一个小变化引起CC的变化

∂C∂b1≈ΔCΔb1∂C∂b1≈ΔCΔb1

a1=σ(z1)=σ(wqa0+b1)a1=σ(z1)=σ(wqa0+b1)

Δa1≈∂σ(w1a0+b1)∂b1Δb1=σ′(z1)Δb1Δa1≈∂σ(w1a0+b1)∂b1Δb1=σ′(z1)Δb1

a1的变化又引起z2的变化:z2=w2⋅a1+b2a1的变化又引起z2的变化:z2=w2⋅a1+b2

Δz2≈∂z2∂a1Δa1=w2Δa1Δz2≈∂z2∂a1Δa1=w2Δa1

所以
Δz2≈σ′(z1)w2Δb1Δz2≈σ′(z1)w2Δb1
依次可以推出
ΔC=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4Δb1ΔC=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4Δb1

∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4∂C∂b1=σ′(z1)⋅w2⋅σ′(z2)⋅w3⋅σ′(z3)⋅w4⋅σ′(z4)⋅∂C∂a4

σ′σ′函数的最大值为 0.25
按照平均随机从正太分布(0,1)(0,1)中随机产生权重的方法大部分|w|<1|w|<1
所以 |wjσ′(zj)|<0.25|wjσ′(zj)|<0.25
对以上公式的多项乘积来讲，层数越多，连续乘积越小

使用Rel解决vanishing gradient问题

sigmod函数造成输出层的activation大部分饱和

解决vanishing gradient方法

Sigmoid unit
f(x)=11+e(−x)f(x)=11+e(−x)
Tanh unit
f(x)=tanh(x)f(x)=tanh(x)
Rectified linear unit(ReLU)
f(x)=∞∑i=1σ(x−i+0.5)≈log(1+ex)f(x)=∑i=1∞σ(x−i+0.5)≈log(1+ex)

softpluslog(1+ex)log(1+ex)函数可以被max(0,x+N(0,1))max(0,x+N(0,1))函数模拟
max函数叫做Rectified Linear Function(ReL)

总结:
sigmoid和ReL函数的区别

igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数
Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)