机器学习

机器学习，有时被称为ML，是计算机科学的一个前沿领域，寻求让计算机执行任务，而不是被明确地编程来执行给定的任务。机器学习使用许多技术来创建算法从数据集中学习和做出预测。它用于数据挖掘这是一种发现数据集中的模式和模型的技术，其中关系是先前未知的。机器学习用于搜索引擎，优化问题，计算机视觉等。这些概念已应用于谷歌的自动驾驶汽车和亚马逊和Netflix等网站的推荐发动机。

机器学习算法通过建立一个模型培训集．训练集是一个数据集，它被输入到算法中，其中已知正确的输出。ML算法在读取训练集时构建模型，读取下一个输入，预测输出，然后检查其对实际输出的预测，并相应地调整。

机器学习有时被认为是纯粹的数据挖掘，但数据挖掘是机器学习的一个子领域，使用无人监督的学习．机器学习是计算机科学家和软件工程师的关键话题，称为“数据工程师”。

计算机学习意味着什么?

“据说计算机程序从经验中学习 $E.$ 对于某些任务 $T.$ 和性能测量 $P.$ 中任务的性能 $T.$ ，用…来衡量 $P.$ ，随经验而改进 $E.$ 。“Carnegie Mellon大学的计算机科学家汤姆米米切尔^［1］

机器学习中的技术

计算机科学家对机器学习算法进行分组有两种方法。一种对它们进行分组的方法是通过算法学习的方式。另一种将它们分组的方法是根据形式或功能的相似性(将相似的算法分组在一起)。例如，有些算法是树，而其他人可能会受到启发神经网络．^[2]

小组学习技巧

监督学习

监督学习是机器学习确定a的任务函数从标记的数据。例如，在检测到帖子的机器学习算法中，训练集将包括标记为“垃圾邮件”的帖子，标记为“不是垃圾邮件”，以帮助教导算法如何识别差异。监督学习算法推断函数在新的例子中使用这个函数。由于算法接收到一个已经有正确答案的数据集作为输入，算法将通过比较输出和正确答案进行学习，如果发现错误，它将相应地调整模型。继续训练，直到算法输出所需精度范围内的信息。

最广泛使用的监督学习算法是：

监督学习通常用于历史数据预测可能未来事件的情况。^[3]

分类是监督学习的关键话题。分类将输入划分为班级或团体。这是算法创建一个模型，将新输入分配给其中一个或多个类。例如，该算法将向“垃圾邮件”类和其他电子邮件分配给“不是垃圾邮件”类的电子邮件。分类也可以通过无监督的学习技术来完成。

无监督学习

无监督学习使用未标记的输入数据。具体而言，因为数据未标记，因此没有错误或奖励来让算法知道它是否靠近或远离正确的解决方案。在使用机器学习时，无监督的学习非常重要，在答案未知的问题上。无监督学习的目标是采取数据并探索它以在数据中找到一些结构。

通过在输入数据中介绍结构和模式，从无监督学习创建模型。

无监督学习主要用于以下几种方法:

聚类

聚类是一种流行的无监督学习方法，用于将类似的数据分组在一起（在集群中）。群集是将一组观察分配成特殊子集或集群。这样，具有相似特征的数据将被分组在一起。k-means聚类是一个流行的聚类数据方式。
异常检测

异常检测，又称异常检测，是对不符合数据集其余部分的数据的标识。这个任务不需要标记数据，只要数据集中的大多数数据点是“正常的”，并且算法寻找与其余数据最不相似的数据点。

许多人工神经网络使用无监督学习，算法必须学会在未标记的数据上达到某个目标。无监督神经网络的基本理论是鹤壁理论，描述了适应的神经元在学习期间。

群体相似之处

在选择使用哪种算法时，要记住的一些考虑是学习方法和培训时间。根据您拥有的数据类型，一个学习方法可能比另一个学习方法更适合任务。算法的训练时间是指训练模型所需的时间。训练时间因算法而异，通常与算法的准确性密切相关。^[4]

以下是一些常见的机器学习算法:

回归算法

回归是用于估计变量之间关系的统计方法。通常，回归涉及在改变独立变量时所属变量的典型值的典型值。回归分析估计条件期望给定独立变量的从属变量。换句话说，它估计当自动变量固定时所属变量的平均值。^[5]

线性回归是一种用于模拟观察变量之间的关系的技术。简单线性回归背后的想法是将两个变量的观察“适合”它们之间的线性关系。图形方式，任务是绘制“最适合”或“最接近”的行 $(x_i y_i),$ 在哪里 $X_I.$ 和 $义$ 观察预计彼此线性的两个变量的观察。^[6]

岭回归是最常用的回归用于确定没有唯一解决方案的等式近似答案的算法。这种问题在机器学习任务中非常常见，其中必须使用有限的数据选择“最佳”解决方案。Ridge回归防止过度装备和磨损。

基于实例的算法

基于实例的学习，有时称为基于内存的学习，是一组学习算法，该算法将新的问题实例与其在训练中看到的实例进行了比较。通过这样做，它直接从培训实例构建假设而不是执行显式泛化。基于实例的学习是一种类型懒惰的学习．

基于实例的学习的优势在于它可以使其模型适应以前的数据。这些算法可以存储新实例或根据从数据学习的内容抛出旧实例。

这 $K.$ 最近邻居算法是一种流行的基于实例的算法。这 $K.$ -nearest-neighbors算法通过使用它对输入进行分类来工作 $K.$ 最近的邻居。

$K.$ 最近的邻居可以用在分类或回归机器学习任务。分类涉及将输入点放入适当的类别，而回归涉及在输入点和数据的其余部分之间建立关系。 $K.$ -NN是机器学习任务中使用的许多算法之一，在诸如计算机视觉和基因表达分析。

内核方法是否有一组指导学习的方法用于模式分析在数据集中查找集群、排名、相关性和分类等关系。^[7]

支持矢量机器是一种内核的方法用于对数据执行二进制分类。支持向量机采用一组训练示例，这些培训示例已经标记为其各自的类。然后支持向量机算法构建一个模型，该模型使得关于新示例输入将去的位置。

决策树算法

决策树算法使用决策树作为预测模型来绘制观测图。主要使用两种树木。分类树木用于分析以预测输入数据所属的类。回归树木用于分析，其中预测结果是实际数量，例如，股票价或博物馆的游客人数。

贝叶斯算法

贝叶斯算法申请贝叶斯的定理用于分类和回归等问题。因此，贝叶斯算法使用概率论中的概念来建立模型。例如，贝叶斯网络可以帮助描述某些症状和某些疾病之间的概率关系。它可以用来帮助预测人们患某种疾病的可能性。^[8]

贝叶斯网络是有向无环图(DAG)，其中节点代表随机变量，可以代表未知参数、可观察特征和潜在变量。DAG中的边表示条件依赖关系。这意味着没有连接的节点表示的是彼此有条件独立的变量。^[8]

普通的贝叶斯算法是朴素贝叶斯分类器．

人工神经网络算法

这些算法使用人工神经网络这是由生物神经网络（有机体脑中的结构）的启发。一种神经网络基本上是连接节点的大集合。每个节点的输出由该操作确定，以及一组特定于该节点的参数集。通过将这些节点连接在一起并仔细设置参数，可以学习和计算非常复杂的功能。

^[9]

深入学习算法

深度学习算法是人工神经网络算法的改进版本。他们使用多层人工神经网络为了塑造人脑处理光和声音的东西，进入视力和听力。一般来说，深度学习算法是在数据的多个级别的无监督学习中建造的。

深度学习用于计算机视觉和语音识别技术。^［1］通过当今可用的大量计算资源可以实现深度学习。深度学习正在应用于面部识别和面部表情识别软件和语音识别和处理软件等领域。

根据麻省理工学院技术审查，“谷歌深度学习系统从YouTube视频中显示了1000万张图片，几乎证明了在识别猫等对象时的任何先前图像识别工作的两倍。”^［10］

人工智能vs机器学习

人工智能和机器学习之间的差异存在一些争论。人工智能使用计算模型，比如神经网络，复制生物学结构。机器学习使用这些方法中的一些（例如神经网络），但更多地关注应用统计和概率理论。

机器学习的焦点是使从数据中学习的预测系统，而人工智能的目标是制作可能或可能无法从数据学习的智能系统。机器学习，有时称为ML，是计算机科学中的尖端字段，寻求让计算机执行任务而不明确地编程以执行给定任务。机器学习使用许多技术来创建算法从数据集中学习和做出预测。它用于数据挖掘这是一种发现数据集中的模式和模型的技术，其中关系是先前未知的。机器学习用于搜索引擎，优化问题，计算机视觉等。这些概念已应用于谷歌的自动驾驶汽车和亚马逊和Netflix等网站的推荐发动机。

机器学习算法通过建立一个模型培训集．训练集是一个数据集，它被输入到算法中，其中已知正确的输出。ML算法在读取训练集时构建模型，读取下一个输入，预测输出，然后检查其对实际输出的预测，并相应地调整。

机器学习有时被认为是纯粹的数据挖掘，但数据挖掘是机器学习的一个子领域，使用无人监督的学习．机器学习是计算机科学家和软件工程师的关键话题，称为“数据工程师”。

参考文献

。机器学习．2016年7月12日，从https://en.wikipedia.org/wiki/Machine_learning
Brownlee，J.一段机器学习算法．2016年7月12日，从http://machinelearningmastery.com/a-tour-of- machine-learning-algorithms/
。机器学习．2016年7月12日，从http://www.sas.com/en_id/insights/analytics/machine-learning.html
Rohrer，B。如何选择Microsoft Azure Machine学习的算法．检索于2016年7月12日https://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-choice/g.
。回归分析．2016年7月12日，从https://en.wikipedia.org/wiki/regression_Analysis.
，R.文件：linear regression.svg．检索于2016年7月12日https://en.wikipedia.org/wiki/file:linear_regression.svg.
。内核的方法．2016年7月12日，从https://en.wikipedia.org/wiki/kernel_method.
。贝叶斯网络．检索于2016年7月12日https://en.wikipedia.org/wiki/Bayesian_network
Z。文件：神经网络瓶颈Achitecture.svg．检索于2016年7月12日https://commons.wikimedia.org/wiki/file：neural_network_bottleneck_achitecture.svg.
HOF，R.深入学习大量的计算能力，机器现在可以识别对象并实时翻译语音。人工智能终于变得聪明了。．2016年7月12日，从https://www.technologyreview.com/s/513696/deep-learning/

有关……

内容