无监督学习

无监督学习是机器学习确定一个函数从无标号数据。具体来说，因为数据是未标记的，所以没有错误或奖励让算法知道它离正确的解决方案是近还是远。当机器学习用于解决未知答案的问题时，无监督学习是非常重要的。

无监督聚类算法的例子^[1]

给定一组数据点(如上所示)，无监督学习算法能够将这些点分成三组:红色、蓝色和黄色。由于数据是未标记的，我们不知道分成三组的聚类是否为数据的实际“正确”聚类。

内容

使用
神经网络
潜在的变量
参考文献

使用

无监督学习在许多上下文中使用，下面将详细介绍其中一些。

聚类-聚类是一种流行的无监督学习方法，用于将相似的数据分组在一起(在集群中)。k - means聚类是一种流行的数据聚类方法。如上例所示，由于数据没有标记，所以不能将集群与数据的“正确”集群进行比较。
异常检测—异常检测，也称异常检测异常值检测，是不符合数据集其他部分的数据的标识。这个任务不需要标记数据，只要数据集中的大部分数据点是“正常”的，算法就会寻找与其他数据最不相似的数据点。

离群值的例子^[２]

在这个示例中，我们看到了两个数据集群(G1和G2)，以及异常值O1和O2。异常检测，一种无监督学习的形式，可以确定O1和O2是异常值，即使数据是未标记的。其中一种方法是的变体再邻居，其中一个数据点被标记为异常值或不通过查看其k最近的邻居以及数据点与这些邻居之间的距离。

神经网络

许多人工神经网络使用无监督学习，算法必须学会在无标记数据上达到某个目标。无监督神经网络背后的基本理论是Hebbian理论，描述了神经元在学习期间。它详细介绍了突触可塑性即神经元之间的相互作用随着时间的推移而增强或减弱。

简单地说，当大脑中的神经元(同样地，人工神经元在神经网络中)同时被激活，它们之间的关系就会加强，而当它们没有同时被激活时，它们之间的关系就会减弱。这在无监督学习中发挥作用，其中数据之间的趋势必须在没有反馈(错误或奖励)的情况下确定。通过增强神经网络中神经元之间的权值，机器学习算法可以从给定的未标记数据中提取有用的信息。

潜在的变量

一个统计无监督学习的方法是矩量法，一种估计的方法参数的概率分布．该算法使用时刻未知参数的预期值对参数的幂次，确定参数的分布。

特别地，采用矩量法来学习参数潜变量模型。这些统计模型包含了未被观察到的变量。潜在变量模型的一个例子是基于文档中的单词(观察变量)确定主题(潜在变量)的机器学习任务。例如，一篇带“狗”、“骨头”、“咀嚼”的文档与“狗”的话题有关，一篇带“猫”、“抓”、“喵”的文档与“猫”的话题有关，等等。在这样的任务中，moments(一种无监督学习过程)方法在提取文档主题方面非常有用。

此外,采用(EM)算法是另一种使用无监督学习来寻找潜在变量的方法。该算法使用估计参数的期望，以及最大化这个期望，以确定潜在变量，并在其详细的wiki中进一步描述。总的来说，矩法和矩法是无监督学习在机器学习任务中的重要应用。

参考文献

hellisp。集群- 2. - gif．检索日期:2016年6月1日https://en.wikipedia.org/wiki/File:Cluster-2.svg
Osrecki。二维离群值Example.png．检索日期:2016年6月1日https://commons.wikimedia.org/wiki/File:Two-dimensional_Outliers_Example.png

有关……

内容