线性回归

线性回归是一种用来模拟观测变量之间关系的技术。简单线性回归背后的想法是将两个变量的观察值“拟合”成它们之间的线性关系。图形化的任务是画出与点“最拟合”或“最接近”的线 $(x_i y_i),$ 在哪里 $x_i$ 和 $y_i$ 是两个变量的观测值，这两个变量之间是线性相关的。

$变量$x$和$y$之间的最佳拟合线性关系。$ 变量之间最合适的线性关系 $x$ 和 $y$ ．^［1］

在现实世界中统计的许多应用中，回归是一个常见的过程。有两种主要的应用类型:

预测:通过对变量的一系列观察，回归分析给出了变量之间关系的统计模型。这个模型可以用来产生预测:给定两个变量 $x$ 和 $y,$ 该模型可以预测的值 $y$ 鉴于未来的观察结果 $x。$ 这个想法被用于预测无数情况下的变量，如政治选举的结果，股票市场的行为，或职业运动员的表现。
相关:回归分析给出的模型通常会比其他模型更适合某些类型的数据。这可以用来分析变量之间的相关性，并完善统计模型，以纳入进一步的输入:如果模型很好地描述了数据点的某些子集，但对其他数据点的预测能力很差，那么检查不同类型数据点之间的差异以寻求可能的解释是有指导意义的。这种类型的应用在科学试验中很常见，例如，在对照研究中，一种拟议药物对病人的影响。

虽然许多最佳拟合方法是可能的，但对于大多数应用来说，最佳拟合线是用最小二乘．也就是说,看 $y$ 的线性函数 $x,$ 该方法求线性函数 $l$ 使近似误差平方和最小的是什么 $y_i$ 通过 $L (x_i)。$

最小二乘法

下面是一个示例来说明这个过程。

找出数据点的最佳拟合直线 $(1、2),$ $(2、3),$ $(4、7)$ $(5) 5$ $(7日,11)。$

找到直线 $y = mx + b$ 通过这五个点的最佳匹配，目标是最小化两个点之间的差的平方和 $y$ -坐标和预测 $y$ -坐标基于直线和 $x$ 坐标。这是 $(1 m + b - 2) ^ 2 + (2 m +酮)^ 2 + (4 m +害怕鲨鱼)^ 2 + (5 m + b-5) ^ 2 + (7 m + b-11) ^ 2。$ 这是一个二次多项式 $米$ 和 $b,$ 通过取偏导数关于 $米,$ 用链式法则，让它们等于 $0.$ 这给了 $\开始{对齐}2 (1 m + b - 2) + 4 (2 m +酮+ 8(4米+害怕鲨鱼)+ 10 (5 m + b-5) + 14 (7 m + b-11) & = 0 \ \ (1 m + b - 2) + 2 (2 m +酮)+ 4 (4 m +害怕鲨鱼)+ 5 (5 m + b-5) + 7 (7 m + b-11) & = 0,结束\{对齐}$ 这减少了 $\begin{aligned} 95m+19b &= 138 \\ 19m+5b &= 28， \end{aligned}$ 哪个有唯一解 $b = \ frac13$ 和 $m = \压裂{79}{57}。$ 最佳拟合直线是 $y = \压裂{79}{57}x + \ frac13。$ $_ \广场$

注意，没有必要使用直线来建模数据。例如，二次曲线 $y = ax ^ 2 + bx + c,$ 把五个点代入误差平方和的表达式中，再加上例子中的偏导数，就能得到三个未知数的三个方程 $a, b, c。$ 只要有“足够”的点，得到的方程就会有唯一解;请参阅下面更严格的讨论线性代数参与一般。

最小二乘直线的一般公式

上述推导一般可以进行:给定点 $y_1 (x_1), (x_2 y_2) \ ldots (x_n推出),$ 最小二乘直线的斜率和截距满足上述方程

$\{对齐}开始s_2 m + s_1 b & = c_ {xy} \ \ \ \ s_1 m + n b & =提出结束\{对齐}$

在哪里 $s_1、s_2、c_ {xy},提出$ ，由下列公式给出:

$\{对齐}开始s_1 & = \总和x_i \ \ \ \ s_2 & = \总和x_i ^ 2 \ \ \ \ c_ {xy} & =提出by \ x_iy_i总和\ \ \ \ & = \ y_i求和。结束\{对齐}$

在上面的例子中，这些是

$\{对齐}开始s_1 & = 1 + 2 + 4 + 5 + 7 \ \ & = 19 \ \ \ \ s_2 & = 1 ^ 2 + 2 ^ 2 + 4 ^ 2 + 5 ^ 2 + 7 ^ 2 \ \ & = 95 \ \ \ \ c_ {xy} & = 1 \ cdot 2 + 2 \ cdot 3 + 4 \ cdot 7 + 5 \ cdot 5 + 7 \ cdot 11 \ \ &提出by = 138 \ \ \ \ & = 2 + 3 + 7 + 5 + 11 \ \ & = 28。结束\{对齐}$

解 $米$ 和 $b$ 引出方程

$\{对齐}开始m = \压裂{n c_ {xy} - s_1提出}{n s_2 - s_1 ^ 2} & = \压裂{n \离开(\ x_iy_i总和\右)- \左(\ x_i总和\)\左(\ y_i总和\右)}{n \总和x_i ^ 2 - \离开(\ x_i总和\右)^ 2}\ \ \ \ b = \压裂{s_2c_y - s_1 c_ {xy}} {ns_2 -s_1 ^ 2} & = \压裂{\离开(\总和x_i ^ 2 \) \离开(\ y_i总和\右)- \左(\ x_i总和\)\左(\ x_iy_i求和\右)}{n \总和x_i ^ 2 - \离开(\ x_i总和\右)^ 2}\{对齐}结束$

求最适合的直线 $y = mx + b。$

找出适合这些数据点的最佳直线 $(1,0) (2,0)， \ldots，(9,0)，(10,40)。$ 采用最小二乘法:直线应是误差平方和最小的直线 $y$ 坐标。

如果这一行写成 $y = mx + b,$ 在哪里 $m = \压裂pq$ 与 $p$ 和 $问$ 是素数的正整数 $b$ 是整数吗 $p + q + b。$

为什么最小二乘?

在寻找最佳拟合直线时，选择要最小化的数量决不是唯一的。误差的和，或误差的绝对值的和，通常看起来更自然。为什么最小二乘是标准?

原因之一是，求解最佳拟合直线所涉及的方程很简单，如上图所示。涉及绝对值函数的方程比多项式方程更难处理。另一个定性的原因是，它通常倾向于惩罚一个单一的大错误，而不是许多“中等”错误。但这并不能解释为什么指数 $2$ 更倾向于，比如说， $1．5$ 或 $3.$

最小二乘的最令人信服的证明是下面的结果高斯：

假设 $y = f (x)。$ 我们测量值 $x_i, y_i$ 和计算错误 $y_i-f (x_i)。$ 如果这些误差(如测量误差)是独立的和正态分布，然后考虑，对于任何可能的线性函数 $f,$ 的概率 $P_f$ 得到测量值 $(x_i y_i)$ 如果 $y = f (x)$ 是正确的模式。最小二乘线是 $P_f$ 是最大化。

也就是说，在关于抽样误差的自然假设下，最小二乘线给出的模型最有可能是正确的。

使用线性代数的一般回归

下面的定理推广了最小二乘过程，并展示了如何使用最小二乘方法来寻找最佳拟合直线矩阵代数：

假设 $一个$ 是一个 $m \ n$ 矩阵, $m > n。$ 假设 $y \男朋友$ 是一个 $m \ * 1$ 列向量。的 $n \ * 1$ 向量 $\帽子{{\ bf x}}$ ,最大限度地减少 $\ | {x} \ bf - {\ bf y} \ | ^ 2$ = $大\ (^ TA \大)^ {1}^ T {\ bf y}$ $\大($ 只要 $一个^助教$ 有排名 $n \大)。$

这是线性代数的一个标准定理。这个想法是分裂 $y \男朋友$ 作为一个向量的和 $v \男朋友$ 在的列空间中 $一个$ 和一个向量 $z \男朋友$ 垂直于的列空间 $一个,$ 哪个是零空间中的向量 $^ T。$ 然后 $A\hat{\bf x} = \bf v$ 是可以解决的, $v \男朋友$ 是 $y \男朋友$ 到的列空间 $一个,$ 所以它是使距离最小化的向量 $y \男朋友$ 根据需要。现在 $\ (^ TA \大)大\帽子{x} \男朋友= ^ T {\ bf v} = ^ T y}{\男朋友,$ 结果如下。 $_ \广场$

前面的例子可以用矩阵语言改写:我们求方程的最小二乘近似 $\开始{pmatrix} 1 & 1 \ \ 2 & 1 \ \ 4 7 & 1 & 1 & 1 \ \ 5 \ \ \ {pmatrix}结束\开始{pmatrix} m \ \ b \结束{pmatrix} = {pmatrix} \开始2 \ \ 3 \ \ 7 \ \ 5 \ \ 11 \ {pmatrix}结束。$ 这个方程没有解(因为没有一条直线经过所有的5个点)，但是最小二乘解是通过两边乘以得到的 $^ T$ 和解决 $\开始{对齐}\ {pmatrix} 1 &2&4&5&7 \ \ 1开始&1&1&1&1 \ {pmatrix}结束\开始{pmatrix} 1 & 1 \ \ 2 & 1 \ \ 4 7 & 1 & 1 & 1 \ \ 5 \ \ \ {pmatrix}结束\ {pmatrix}开始m \ \ b \ {pmatrix} & =结束\ {pmatrix} 1 &2&4&5&7 \ \ 1开始&1&1&1&1 \ {pmatrix}结束\开始{pmatrix} 2 \ \ 3 \ \ 7 \ \ 5 \ \ 11 \结束{pmatrix} \ \ \ {pmatrix} 95年开始19 \ \ 19和5 \ {pmatrix}结束\开始{pmatrix} m \ \ b \结束{pmatrix} & = \ {pmatrix} 138年开始\ \ 28结束\ {pmatrix}, \{对齐}$ 哪个方程组是我们通过求偏导数得到的，并再次得到唯一解 $m = \压裂{79}{57}$ 和 $b = \ frac13。$ $_ \广场$

参考文献

Sewaqu。线性回归．2010年11月5日，从https://en.wikipedia.org/wiki/Least_squares#/media/File:Linear_regression.svg

有关……

内容