无监督学习
使用
无监督学习在许多上下文中使用,下面将详细介绍其中一些。
聚类-聚类是一种流行的无监督学习方法,用于将相似的数据分组在一起(在集群中)。k - means聚类是一种流行的数据聚类方法。如上例所示,由于数据没有标记,所以不能将集群与数据的“正确”集群进行比较。
异常检测—异常检测,也称异常检测异常值检测,是不符合数据集其他部分的数据的标识。这个任务不需要标记数据,只要数据集中的大部分数据点是“正常”的,算法就会寻找与其他数据最不相似的数据点。
在这个示例中,我们看到了两个数据集群(G1和G2),以及异常值O1和O2。异常检测,一种无监督学习的形式,可以确定O1和O2是异常值,即使数据是未标记的。其中一种方法是的变体再邻居,其中一个数据点被标记为异常值或不通过查看其k最近的邻居以及数据点与这些邻居之间的距离。
神经网络
潜在的变量
一个统计无监督学习的方法是矩量法,一种估计的方法参数的概率分布.该算法使用时刻未知参数的预期值对参数的幂次,确定参数的分布。
特别地,采用矩量法来学习参数潜变量模型。这些统计模型包含了未被观察到的变量。潜在变量模型的一个例子是基于文档中的单词(观察变量)确定主题(潜在变量)的机器学习任务。例如,一篇带“狗”、“骨头”、“咀嚼”的文档与“狗”的话题有关,一篇带“猫”、“抓”、“喵”的文档与“猫”的话题有关,等等。在这样的任务中,moments(一种无监督学习过程)方法在提取文档主题方面非常有用。
此外,采用(EM)算法是另一种使用无监督学习来寻找潜在变量的方法。该算法使用估计参数的期望,以及最大化这个期望,以确定潜在变量,并在其详细的wiki中进一步描述。总的来说,矩法和矩法是无监督学习在机器学习任务中的重要应用。
参考文献
- hellisp。集群- 2. - gif.检索日期:2016年6月1日https://en.wikipedia.org/wiki/File:Cluster-2.svg
- Osrecki。二维离群值Example.png.检索日期:2016年6月1日https://commons.wikimedia.org/wiki/File:Two-dimensional_Outliers_Example.png