监督式学习gydF4y2Ba

监督式学习gydF4y2Ba是gydF4y2Ba机器学习gydF4y2Ba确定的任务gydF4y2Ba函数gydF4y2Ba带安全标签的数据。例如，在一个检测帖子是否是垃圾邮件的机器学习算法中，训练集将包括标记为“垃圾邮件”的帖子和标记为“非垃圾邮件”的帖子，以帮助教会算法如何识别两者的区别。监督学习算法推断gydF4y2Ba函数gydF4y2Ba并在新示例中使用此函数。监督学习是机器学习的一个核心概念，被应用于诸如gydF4y2Ba生物信息学gydF4y2Ba，gydF4y2Ba计算机视觉gydF4y2Ba,gydF4y2Ba模式识别gydF4y2Ba．gydF4y2Ba

一个监督学习算法的例子。该算法通过查看数据点的<em>k</em>的最近邻居来确定数据点的分类。gydF4y2Ba 的一个例子gydF4y2Ba再邻居gydF4y2Ba，一个监督学习算法。该算法通过观察数据点来确定数据点的分类gydF4y2BakgydF4y2Ba最近的邻居。gydF4y2Ba^[1]gydF4y2Ba

概述gydF4y2Ba

监督学习从操作一个gydF4y2Ba培训gydF4y2Ba数据集，用其适当的输出标记的数据点。例如，在上图中，训练集将是蓝色正方形和红色三角形的位置，每个数据点的标签将是这个点是蓝色正方形还是红色三角形。学习算法寻找一个函数gydF4y2Ba $g (x)gydF4y2Ba$ 可以映射输入数据gydF4y2Ba $xgydF4y2Ba$ 给他们贴上适当的标签gydF4y2Ba $ygydF4y2Ba$ 好。算法的总体目标是gydF4y2Ba概括gydF4y2Ba这个函数使它在未知的例子上执行得很好。gydF4y2Ba

应用最广泛的监督学习算法有:gydF4y2Ba

风险gydF4y2Ba

在确定一个特定的监督学习算法有多好时，有两种gydF4y2Ba风险gydF4y2Ba可以最小化:gydF4y2Ba

经验风险gydF4y2Ba-经验风险是gydF4y2Ba预期gydF4y2Ba损失gydF4y2Ba函数的gydF4y2Ba $ggydF4y2Ba$ 监督学习算法从训练数据集中推断。例如,如果gydF4y2Ba $ggydF4y2Ba$ 正确映射所有训练数据点gydF4y2Ba $x_igydF4y2Ba$ 他们各自的标签gydF4y2Ba $y_igydF4y2Ba$ ，经验风险为0。的经验风险函数gydF4y2Ba $NgydF4y2Ba$ 训练数据点是gydF4y2Ba $R (g) = \压裂{1}{N} \ \和limits_ {i = 1} ^ {N} L (y_i g (x_i))gydF4y2Ba$ ,在那里gydF4y2Ba $lgydF4y2Ba$ 是用户定义的gydF4y2Ba损失函数gydF4y2Ba这决定了不正确标记特定数据点的惩罚。gydF4y2Ba

在最小化经验风险的前提下，指导学习算法尽可能匹配训练数据。然而，如下图所示，一个解决方案可以将经验风险最小化，而无需成为未知数据点的良好候选函数。这就是所谓的gydF4y2Ba过度拟合gydF4y2Ba，当提出的函数更多地关注噪声而不是实际数据时，就会出现这种情况，如下图中蓝色线所示。gydF4y2Ba

对于给定的红色输入点集，绿线和蓝线都将误差最小化到0。然而，绿线在预测未知数据点的坐标方面可能更成功，因为它看起来是这样的gydF4y2Ba概括gydF4y2Ba更好的数据。gydF4y2Ba^{[２]gydF4y2Ba}

结构风险gydF4y2Ba-结构风险用于防止监督学习算法对训练数据进行过拟合。结构性风险最小化引入了一个gydF4y2Ba正规化的点球gydF4y2Ba他们会更喜欢某些解决方案。数学上，正则化惩罚是一个函数gydF4y2Ba $C (g)gydF4y2Ba$ 这与经验风险一起被用来确定解决方案。具体来说，结构性风险最小化gydF4y2Ba $R(g) + \ λ C(g)gydF4y2Ba$ ,在那里gydF4y2Ba $R (g)gydF4y2Ba$ 是经验风险gydF4y2Ba $\λgydF4y2Ba$ 是控制正则化惩罚值的用户定义参数。例如,如果gydF4y2Ba $\λ= 0gydF4y2Ba$ ，优化问题使经验风险最小化。gydF4y2Ba

确定合适值的好方法gydF4y2Ba $\λgydF4y2Ba$ 是使用gydF4y2Ba交叉验证gydF4y2Ba，一种在训练数据上训练监督算法并在对象上测试其性能的方法gydF4y2Ba验证gydF4y2Ba数据集(已知正确标签的数据点)。然后对算法进行更新，使其在验证集上的误差最小化，同时仍然在训练数据集上进行训练。其中描述了一个实际的例子gydF4y2Ba岭回归gydF4y2Ba，它被广泛用于确定在未知数据上执行良好的函数。gydF4y2Ba

挑战gydF4y2Ba

构建监督学习算法有许多挑战，下面描述四个重要的挑战。gydF4y2Ba

偏见方差权衡gydF4y2Ba-假设一个监督学习算法在多个数据集上训练。如果算法不能正确地标记一个特定的数据点，就被称为是gydF4y2Ba有偏见的gydF4y2Ba输入。此外，如果算法在不同的数据集上训练时产生不同的输出值，则称其具有高gydF4y2Ba方差gydF4y2Ba．经验风险侧重于偏差，而结构风险侧重于方差。通常在偏差和方差之间有一个权衡，其中低偏差意味着高方差，反之亦然。监督算法的一个问题是在这两个概念之间找到平衡，使其在未知数据点下工作得最好。gydF4y2Ba蓝色曲线使数据点的误差最小化(低偏差)，但具有较高的方差。相反，黑线没有最小化误差(具有较高的偏差)，但很好地符合数据(方差低)。gydF4y2Ba^[3]gydF4y2Ba
复杂性gydF4y2Ba-监督学习算法试图模仿的功能可以是简单的，也可以是复杂的。如果期望的函数很简单，算法应该具有较低的方差来很好地拟合数据。然而，如果期望函数是复杂的，算法需要有较高的方差来适应未知的数据点。监督学习算法应该能够根据数据量和期望的函数类型适当地确定方差。gydF4y2Ba
许多方面gydF4y2Ba当一个监督学习算法得到一个由多个维度组成的数据集时，它可能会试图识别不相关因素之间的趋势。这就增加了gydF4y2Ba方差gydF4y2Ba而会降低算法的精度。解决这个问题的两种方法包括运行不同的算法来丢弃不相关的变量和将输入数据减少到更低的维度数。gydF4y2Ba
格式的数据gydF4y2Ba—如果训练数据在标签或数据值上有错误，监督学习算法不应该试图精确匹配训练示例。这可能会导致gydF4y2Ba过度拟合gydF4y2Ba对于未知值将不能很好地执行。此外，如果训练数据包含冗余信息，监督学习算法可能会由于过度依赖特定的示例而表现不佳。过滤数据或适当地正则化算法可以缓解这两个问题。gydF4y2Ba

参考文献gydF4y2Ba

Ajanki,。gydF4y2Bak近邻分类的例子gydF4y2Ba．检索于2016年5月28日gydF4y2Bahttps://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm#/media/File:KnnClassification.svggydF4y2Ba
Nicoguaro。gydF4y2BaRegularization.svggydF4y2Ba．检索于2016年5月31日gydF4y2Bahttps://en.wikipedia.org/wiki/File:Regularization.svggydF4y2Ba
吉莱斯。gydF4y2BaOverfitted_Data.svggydF4y2Ba．检索于2016年5月31日gydF4y2Bahttps://en.wikipedia.org/wiki/File:Overfitted_Data.pnggydF4y2Ba

有关……gydF4y2Ba

内容gydF4y2Ba