线性回归

线性回归是一种用于模拟观察变量之间的关系的技术。简单线性回归背后的想法是将两个变量的观察“适合”它们之间的线性关系。图形方式，任务是绘制“最适合”或“最接近”的行 $（X_I，Y_I），$ 在哪里 $X_I.$ 和 $义$ 观察预计彼此线性的两个变量的观察。

$变量\（x \）和\（y \）之间的最佳线性关系。$ 变量之间的最佳线性关系 $X$ 和 $y$ 。^[1]

回归是在现实世界中的许多统计应用中使用的常见过程。有两种主要的应用类型：

预测：在一系列变量观察之后，回归分析给出了变量之间关系的统计模型。该模型可用于生成预测：给定两个变量 $X$ 和 $y，$ 该模型可以预测值 $y$ 鉴于未来的观察 $X。$ 这一想法用于预测无数情况下的变量，例如政治选举的结果，股票市场的行为，或专业运动员的表现。
相关性：回归分析给出的模型通常比其他方式更好地符合某种数据。这可以用于分析变量之间的相关性并优化统计模型来包含进一步的输入：如果该模型非常好地描述了数据点的某些子集，但对于其他数据点来说是一种差的预测器，它可以是指导的用于可能的解释的不同类型数据点之间的差异。例如，这种类型的应用是常见的，例如科学测试。拟议药物对受控研究患者的影响。

虽然可以获得许多最适合度的措施，但对于大多数应用，使用该方法可以找到最合适的线最小二乘。也就是说，观看 $y$ 作为一种线性函数 $X，$ 该方法找到了线性函数 $L.$ 这最小化了近似值中误差的平方和 $义$ 经过 $l（x_i）。$

最小二乘法的方法

以下是说明该过程的示例。

找到数据点的最合适线 $（1,2），$ $（2,3），$ $（4,7），$ $（5,5），$ $（7,11）。$

找到线 $y = mx + b$ 最佳融合到这五点，目标是最大限度地减少差异之间的平方和 $y$ - 建结和预测的 $y$ - 基于线路和轴 $X$ - 控制。这是 $（1M + B-2）^ 2 +（2m + B-3）^ 2 +（4m + B-7）^ 2 +（5m + B-5）^ 2 +（7m + B-11）^ 2。$ 这是一种二次多项式 $m$ 和 $B，$ 并且通过拍摄最小化偏导数关于 $米，$ 使用链规则，并将它们设置为等于 $0。$ 这给了 $\开始{对齐} 2（1M + B-2）+4（2M + B-3）+8（4M + B-7）+10（5M + B-5）+14（7m + B-11）＆= 0 \\（1M + B-2）+ 2（2M + B-3）+ 4（4M + B-7）+5（5M + B-5）+7（7m + B-11）＆= 0，\结束{对齐}$ 减少到 $\ begin {对齐} 95m + 19b＆= 138 \\ 19m + 5b＆= 28，\结束{对齐}$ 哪个有独特的解决方案 $B = \ FRAC13$ 和 $m = \ frac {79} {57}。$ 所以最好的线是 $Y = \ FRAC {79} {57} x + \ FRAC13。$ $_\正方形$

请注意，没有必要使用一行来模拟数据。例如，二次曲线 $y = ax ^ 2 + bx + c，$ 用五个点插入表达式的误差的平方和的表达式，并且与局部导数如此，将在三个未知数中给出三个方程 $A，B，C。$ 只要有“足够的”点，所产生的方程将具有独特的解决方案;见下面以获得更严格的讨论线性代数一般参与。

最小二乘线的通式

上述衍生可以一般进行：给定点 $（x_1，y_1），（x_2，y_2），\ ldots，（x_n，y_n），$ 最小二乘线的斜率和截距满足方程

$\ begin {对齐} s_2 m + s_1 b＆= c_ {xy} \\\\ s_1 m + n b＆= c_y，\ neg {对齐}$

在哪里 $s_1，s_2，c_ {xy}，c_y$ 由以下公式给出：

$\ begin {对齐} s_1＆= sum x_i \\\\ s_2＆= \ sum x_i ^ 2 \\\\ c_ {xy}＆= \ sum x_iy_i \\\\ c_y＆= \ sum y_i。\结束{对齐}$

在上面的例子中，这些是

$\ begin {对齐} s_1＆= 1 + 2 + 4 + 5 + 7 \\＆= 19 \\\\ s_2＆= 1 ^ 2 + 2 ^ 2 + 4 ^ 2 + 5 ^ 2 + 7 ^ 2 \\＆= 95 \\\\ c_ {xy}＆= 1 \ cdot 2 + 2 \ cdot 3 + 4 \ cdot 7 + 5 \ cdot 5 + 7 \ cdot 11 \\＆= 138 \\\\ c_y＆= 2+ 3 + 7 + 5 + 11 \\＆= 28. \结束{对齐}$

解决 $m$ 和 $B.$ 导致方程式

$\ begin {对齐} m = \ frac {n c_ {xy} - s_1 c_y} - s_1 c_y} {n s_2 - s_1 ^ 2}＆= \ frac {n \ left（\ sum x_iy_i \ oled） - \ left（\ sum x_i \右）左（\ sum y_i \ light）} {n \ sum x_i ^ 2 - \ left（\ sum x_i \ oled）^ 2} \\\\ b = \ frac {s_2c_y - s_1 c_ {xy}} {NS._2 -s_1^2} &= \frac{\left( \sum x_i^2 \right) \left( \sum y_i \right) - \left( \sum x_i \right) \left( \sum x_iy_i \right)}{n \sum x_i^2 - \left(\sum x_i\right)^2} \end{aligned}$

对于最合适的线 $y = mx + b。$

找到适合数据点的最佳线路 $（1,0），（2,0），\ LDOTS，（9,0），（10,40）。$ 使用最小二乘法：该行应该是最小化错误中的错误的平方和的线 $y$ - 控制。

如果线条被写为 $y = mx + b，$ 在哪里 $m = \ frac pq$ 和 $P.$ 和 $问：$ 作为协调主要整数和 $B.$ 是一个整数，找到 $p + Q + b。$

为什么要不正方形？

在找到最佳系列时最小化的数量不能唯一独一无二。错误的总和，或错误的绝对值的总和，通常似乎更自然。为什么为标准最小二乘？

一个原因在于，参与求解最佳配合线的方程是简单的，如上面的示例中所示。涉及绝对值函数的方程比多项式方程更难以使用。另一种定性原因是通常优选惩罚单个大错误而不是许多“中等大小”错误。但这并不一定解释为什么是指数 $2$ 比如说，是首选， $1.5$ 或者 $3。$

最令人信服的最小二乘的理由是由于以下结果高斯：

认为 $y = f（x）。$ 我们测量值 $X_I，Y_I.$ 并计算错误 $y_i-f（x_i）。$ 如果这些错误（例如，测量中的错误）是独立的和通常分布，然后考虑任何可能的线性函数 $F，$ 概率 $P_F.$ 获得测量 $（x_i，y_i）$ 如果 $y = f（x）$ 是正确的模型。最小二乘线是其中的线 $P_F.$ 最大化。

也就是说，最小二乘线使模型最有可能是正确的，在对采样误差的自然假设下。

使用线性代数一般回归

以下定理概括了最小二乘过程，并展示了如何使用拟合线路使用矩阵代数：

认为 $一种$ 是一个 $m \ times n$ 矩阵，其中 $m> n。$ 认为 $\ bf Y.$ 是一个 $m \ times 1$ 柱矢量。这 $n \ times 1$ 向量 $\ hat {{\ bf x}}$ 这最小化 $\ | a {\ bf x} - {\ bf y} \ | ^ 2$ 等于 $\ big（a ^ ta \ big）^ { - 1} a ^ t {\ bf y}$ $\大（$ 只要 $a ^ ta.$ 有队伍 $n \ big）。$

这是线性代数的标准定理。这个想法是分裂 $\ bf Y.$ 作为向量的总和 $\ bf V.$ 在列空间 $一种$ 和一个矢量 $\ bf z.$ 垂直于列空间 $一种，$ 这是空白空间中的矢量 $a ^ t。$ 然后 $a \ hat {\ bf x} = \ bf v$ 是可解决的，和 $\ bf V.$ 是投影 $\ bf Y.$ 到列空间上 $一种，$ 所以它是载体最小化到的距离 $\ bf Y.$ 如预期的。现在 $\ big（a ^ ta \ big）\ hat {\ bf x} = a ^ t {\ bf v} = a ^ t {\ bf y}，$ 所以结果叶子。 $_\正方形$

前面的示例可以以矩阵语言重写：我们寻求最小二乘近似到等式 $\ begin {pmatrix} 1和1 \\ 2＆1 \\ 4＆1 \\ 4＆1 \\ 5＆1 \\ 7＆1 \ neg {pmatrix} \ begin {pmatrix} m \\ b \ neg {pmatrix} = \ begin {pmatrix} 2 \\ 3 \\ 3\\ 5 \\ 11 \结束{pmatrix}。$ 该等式没有解决方案（因为没有线路通过所有五个点），但是通过乘以两侧来给出最小二乘解 $一个^ T.$ 和解决 $\ begin {squiped} \ begin {pmatrix} 1和2＆4和5＆7 \\ 1＆1和1＆1 \ neg {pmatrix} \ begin {pmatrix} 1＆1 \\ 2＆1 \\ 4＆1 \\ 4＆1 \\ \\ 4＆1 \ the {pmatrix} \ begin {pmatrix} m \\b \结束{pmatrix}＆= \ begin {pmatrix} 1和2＆4＆5和7 \\ 1＆1＆1＆1 \ neg {pmatrix} \ begin {pmatrix} 2 \\ 3 \\ 7 \\ 5 \\ 11 \ neg {pmatrix} \\ \ begin {PMATrix} 95＆19 \\ 19＆5 \ END {PMATRIX} \ begin {pmatrix} m \\ b \ neg {pmatrix}＆= \ begin {pmatrix} 138 \\ 28 \ neg {pmatrix}，\ neg {seconded}$ 这是我们通过占用部分衍生品得到的相同的方程式，并再次引导到独特的解决方案 $m = \ frac {79} {57}$ 和 $B = \ FRAC13。$ $_\正方形$

参考

sewaqu，。线性回归。从2010年11月5日恢复了https://en.wikipedia.org/wiki/lest_squares#/media/file：inear_regression.svg.

相关......

内容