线性回归
线性回归是一种用于模拟观察变量之间的关系的技术。简单线性回归背后的想法是将两个变量的观察“适合”它们之间的线性关系。图形方式,任务是绘制“最适合”或“最接近”的行 在哪里 和 观察预计彼此线性的两个变量的观察。
回归是在现实世界中的许多统计应用中使用的常见过程。有两种主要的应用类型:
预测:在一系列变量观察之后,回归分析给出了变量之间关系的统计模型。该模型可用于生成预测:给定两个变量 和 该模型可以预测值 鉴于未来的观察 这一想法用于预测无数情况下的变量,例如政治选举的结果,股票市场的行为,或专业运动员的表现。
相关性:回归分析给出的模型通常比其他方式更好地符合某种数据。这可以用于分析变量之间的相关性并优化统计模型来包含进一步的输入:如果该模型非常好地描述了数据点的某些子集,但对于其他数据点来说是一种差的预测器,它可以是指导的用于可能的解释的不同类型数据点之间的差异。例如,这种类型的应用是常见的,例如科学测试。拟议药物对受控研究患者的影响。
虽然可以获得许多最适合度的措施,但对于大多数应用,使用该方法可以找到最合适的线最小二乘。也就是说,观看 作为一种线性函数 该方法找到了线性函数 这最小化了近似值中误差的平方和 经过
最小二乘法的方法
最小二乘线的通式
为什么要不正方形?
在找到最佳系列时最小化的数量不能唯一独一无二。错误的总和,或错误的绝对值的总和,通常似乎更自然。为什么为标准最小二乘?
一个原因在于,参与求解最佳配合线的方程是简单的,如上面的示例中所示。涉及绝对值函数的方程比多项式方程更难以使用。另一种定性原因是通常优选惩罚单个大错误而不是许多“中等大小”错误。但这并不一定解释为什么是指数 比如说,是首选, 或者
最令人信服的最小二乘的理由是由于以下结果高斯:
认为 我们测量值 并计算错误 如果这些错误(例如,测量中的错误)是独立的和通常分布,然后考虑任何可能的线性函数 概率 获得测量 如果 是正确的模型。最小二乘线是其中的线 最大化。
也就是说,最小二乘线使模型最有可能是正确的,在对采样误差的自然假设下。
使用线性代数一般回归
以下定理概括了最小二乘过程,并展示了如何使用拟合线路使用矩阵代数:
认为 是一个 矩阵,其中 认为 是一个 柱矢量。这 向量 这最小化 等于 只要 有队伍
这是线性代数的标准定理。这个想法是分裂 作为向量的总和 在列空间 和一个矢量 垂直于列空间 这是空白空间中的矢量 然后 是可解决的,和 是投影 到列空间上 所以它是载体最小化到的距离 如预期的。现在 所以结果叶子。
前面的示例可以以矩阵语言重写:我们寻求最小二乘近似到等式 该等式没有解决方案(因为没有线路通过所有五个点),但是通过乘以两侧来给出最小二乘解 和解决 这是我们通过占用部分衍生品得到的相同的方程式,并再次引导到独特的解决方案 和
参考
- sewaqu,。线性回归。从2010年11月5日恢复了https://en.wikipedia.org/wiki/lest_squares#/media/file:inear_regression.svg.