自学西瓜书1：回归

发表于 2022-07-10 更新于 2024-10-31 分类于机器学习阅读次数：本文字数： 5.1k 阅读时长 ≈ 5 分钟

1. 线性回归 (Linear Regression)

线性回归想必大家都不陌生，早在高中的时候就已经有接触过相关问题。笔者还记得高中的时候一道线性回归的题值10分，结果算错了就全错了，印象特别深刻。高中的时候老师给出的线性回归表达式有两种：

（高中的时候纯手算这个真的是噩梦啊）这是一维自变量的最小二乘法表示公式，若x为向量则(2)式可重写为用向量法表示为这就是线性回归最终得到的拟合函数表达式。其中我参数b为误差，通常服从正态分布。将其标准化之后可得运用参数估计中的极大似然估计（MLE）有为了计算方便，我们常常将上述等式取对计算该式中减号之前的部分为常数，接下来计算中可不考虑。故当取最大时，只需要对目标函数求最小值即可这个式子其实就是今后常常会用到的模型性能度量指标之一——均方误差，通常要使其最小。也可以将上式写为矩阵式：通过高中知识可知，要求一个函数的最值或极值常用方法为求导，在导函数等于0处的驻点逐一判断是否为最值获极值。那么我们可以令,并对求偏导并令其等于0 若矩阵满秩，则上式可解得这也是最小二乘法的矩阵表达形式。 小结： （1）线性回归的loss函数可以为均方误差，其表达式为（2）将均方误差写为矩阵式并对求偏导等于零可以得到最小二乘法的矩阵式将其带入最终的拟合函数表达式可得这就是线性回归最终所学得的模型。（3）线性回归是最简单的回归形式之一，但其有丰富的变化，并且在处理一些简单的回归问题上可以得到较好的效果。另外，线性回归也是其他很多回归的基础，比如接下来要介绍的Logistic回归。

2. Logistic回归 (Logistic Regression)

Logistic回归是在线性回归的基础上，将线性回归所得到的结果映射到一个非线性空间当中。为了达成这个目的，我们需要引入一种类似激活函数的东西。在Logistic回归里，这个函数就是大名鼎鼎的Sigmoid函数。 Sigmoid函数表达式为 Sigmoid函数图像如下在Sigmoid函数表达式中，y就是我们最后的输出结果，若y为正例的概率，则1-y则为反例概率，二者相比再取对的结果被称为“对数几率”。上式与线性回归的结果相结合可有该式输出的结果就是”对数几率”，同时也是Logistic回归的输出结果。那么问题来了，式中参数如何得到呢？其实我们可以照葫芦画瓢，参照线性回归的形式，使用MLE来进行参数估计。取对化简有这就是Logistic回归当时的目标函数（loss函数），同样，对其求偏导等于0后可以有最终函数的表达式。如果y为离散型变量，即 $当为反例当为正例$ 令，同样通过极大似然估计有 小结： （1）Logistic时以线性回归为基础，将线性回归的结果通过Sigmoid函数映射到非线性空间中的方法。（2）Logistic回归的目标函数为（3）Logistic回归常用于分类问题，可以直接对分类可能性建模，不需要实现假设数据分析。同时Logistic回归给出的结果并不是具体的“类别”，而是该样本属于该类别的近似概率。此外，Logistic回归的目标函数具有很好的数学性质，在很多优化算法都可以直接求最优解。

3. 岭回归与LASSO回归 (Ridge Regression and LASSO Regression)

岭回归与LASSO回归都是再线性回归的基础上加上一个正则项，其目的是为了防止回归模型过拟合。其中LASSO回归加上的是L1正则项(L2-Normalization)，岭回归加上的是L2正则项(L2-Noarmalization)。我们来看看这两个的目标函数。

岭回归： LASSO回归： 其中表示正则项参与度，是一个超参数，需要用梯度下降等方法调参。关于梯度下降，飞燕将在之后的番外篇里详细讲一下这个东西，因为这个东西真的非常非常重要！ 正则化防止过拟合的原因 这里以岭回归为例，为了描述方便，我们将岭回归的目标函数简写为对其求偏导我们在使用梯度下降(这里以SGD为例)确定超参数的时候就有其中为学习率。因为，所以称上述方法为权重衰减，可以有效减小系数。系数减小了，单个特征影响总体的因素就变小了，最后结果就基本不会出现因为一个特征改变而大幅改变的情况，因此可以有效防止过拟合。

参考文献

[1] 周志华《机器学习》
[2] [中英字幕]吴恩达机器学习系列课程