这篇文章将为大家详细讲解有关大数据机器学习中的过拟合与解决办法,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
什么是过拟合
对于机器学习项目而言,过拟合(overfitting)这个问题一般都会遇到。什么是过拟合呢?
维基百科:
这里不展开说明欠拟合现象,后续补上。总的来说,是学习得过头了,死记硬背的那种学习,对于训练数据预测得非常准确,但当遇到新的问题时候,泛化能力不行,无法作出正确的预测。

绿线代表过拟合模型,黑线代表正则化模型。虽然绿线完美的匹配训练数据,但太过依赖,并且与黑线相比,对于新的测试数据上具有更高的错误率。
知乎
知乎上有个帖子:用简单易懂的语言描述「过拟合 overfitting」?
过拟合其实就是一种机器学习没找到正确的规律情况,所以要搞懂什么是过拟合首先得搞懂为什么机器学习能找出正确规律。

具体情况
实际中遇到的问题,训练和测试曲线如下:

可以看到训练损失一直下降,但测试损失先下降后上升。
解决办法
在统计和机器学习中,为了避免过拟合现象,须要使用额外的技巧,以指出何时会有更多训练而没有导致更好的一般化。具体有以下几种方法:
获取更多数据;
使用合适的模型;
结合多种模型;
贝叶斯方法;

增大训练数据后,加入earlystopping,曲线稍微好点。

关于大数据机器学习中的过拟合与解决办法就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。