损失函数是学习的指挥棒—记一次实践经历

佚名 4年前 (2020-07-08) 人工智能 777人围观抢沙发百度已收录

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

博客：博客园 | CSDN | blog

写在前面

损失函数是学习的指挥棒。

前段时间有个活，让我对定义损失函数有了新的认识，遂记录一下。

这里隐去具体的背景，只描述问题。

给定一个训练集（可视为全集的有效采样）\(X\)，\(N\)个样本，每个样本\(x_i\)有\(D\)维特征，样本已做归一化处理，现希望将\(D\)维映射成1维，尽量保留样本原有远近关系。

PCA投影

一个直接的想法是，最大方差投影，即PCA第一主成分对应的投影向量，

投影（内积），将N维映射成1维
方差最大，保留尽可能多的信息

投影后，得到的分布如下，

分布特点：单峰、偏斜、陡峭、长尾……

因为一些后处理操作的要求，希望投影得到的分布尽可能对称且均匀，能否找到更好的投影方向？

基于偏度与峰度构建损失函数

如果采用学习的方法，待学习的参数很好定义，1个D维的投影向量，关键是如何构建损失函数。

我们希望投影后的分布具有如下特点，

对称
均匀
方差尽可能大

显然这是个无监督问题，令投影向量为\(p\)，\(x_i\)投影后为\(y_i = p\cdot x_i\)，\(y_i\)为标量，我们希望\(y_1, y_2, \dots, y_N\)的分布具有如上特点。

在概率统计中，有两个指标，偏度（Skewness）和峰度（Kurtosis），

偏度（Skewness），用于衡量随机变量相对于平均值的对称程度，计算方式为随机变量的三阶标准中心矩，如下，

\[\operatorname{Skewness}[X]=\mathrm{E}\left[\left(\frac{X-\mu}{\sigma}\right)^{3}\right]=\frac{\mathrm{E}\left[(X-\mu)^{3}\right]}{\left(\mathrm{E}\left[(X-\mu)^{2}\right]\right)^{3 / 2}}=\frac{\mu_{3}}{\sigma^{3}} \]
其值越接近0表示越对称，负值表示长尾在左，正值表示长尾在右，如下图所示，
峰度（Kurtosis），用于衡量随机变量分布的集中程度，计算方式为随机变量的四阶标准中心矩，如下，

\[\operatorname{Kurt}[X]=\mathrm{E}\left[\left(\frac{X-\mu}{\sigma}\right)^{4}\right]=\frac{\mathrm{E}\left[(X-\mu)^{4}\right]}{\left(\mathrm{E}\left[(X-\mu)^{2}\right]\right)^{2}}=\frac{\mu_{4}}{\sigma^{4}} \]
其值越大表示越集中，标准正态分布的峰度为3，均匀分布的峰度为1.8。所以可以用\(\operatorname{Kurt}[X]-3\)来衡量分布表与标准正态分布相比是更陡峭还是平坦，如下图所示，

偏度（Skewness）和峰度（Kurtosis）都无量纲，在这个问题中，恰好可以用它们来构建损失函数，同时考虑方差，将损失定义如下，令\(||p|| = 1\)，移除投影向量模对方差的影响，

\[L = \frac{1}{Std[pX]} + \lambda_1(\operatorname{Skewness}[pX])^2 + \lambda_2\operatorname{Kurt}[pX] \]

自动微分交给pytorch，

class My_loss(nn.Module):
    def __init__(self):
        super().__init__()
        
    def forward(self, x, y=None):
        mu = x.mean()
        var = x.var(unbiased=False)
        loss = lambda1 * (x - x.mean()).pow(3).mean().pow(2) / (x.var(unbiased=False).pow(3)) + lambda2 / x.std(unbiased=False) \
             + lambda3 * (x - x.mean()).pow(4).mean() / (x.var(unbiased=False).pow(2))

        return loss

训练得到投影方向，投影后的分布如下，与之前相比，更符合期望。