模型在验证集(开发集)上的效果比在测试集上好,或者说,测试集上的效果不如验证集,这个时候该怎么办?

这可以理解为模型对验证集过拟合了。模型在验证集上的效果并不能代表模型的实际泛化能力。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

这个时候,可以做的:
1)检查验证集和测试集是不是同一分布,验证集应该更像测试集而不是训练集。
2)换个验证集,或者增大验证集。
3)检查代码是不是有问题,验证集是不是被拿去训练参数了。

如下情况,可能是正常的:
1)测试集比验证集更难进行预测,尽管算法做得足够好了,却很难有进一步的提升空间。
2)当验证集和测试集差的不多时,如 1% 左右,可能是正常的。

References

《Machine Learning Yearning》机器学习训练秘籍 -- Andrew Ng
Validation and Testing accuracy widely different -- stackoverflow
test accuracy is so much lower than validation accuracy by 6~10%. What could be the reason? -- StackExchange

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄