![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
4.1 线性回归
回归函数可以选择的表示很多。但是根据奥卡姆剃刀准则,应该选择简单而又可行的回归函数。显然,如果可行,线性函数是最简单的回归函数。当回归函数F采用线性模型表示时,我们称该类模型为线性回归(linear regression)。如图4.1所示的简单一元线性回归模型,图中圆圈表示数据点,一元线性回归就是求图中的直线,这条直线能够较好地表示输入数据和输出数据的关系。一元线性方程有如下形式:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00036.jpg?sign=1739537703-iUyocFuvycEmSr0gr4CZKIEpKqz95VJq-0-982fafafd9d30296139e02d4ae355271)
其中,系数w,b∈ℝ称为回归系数(regression coefficient),根据类一致性准则,为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式,所以,一元线性回归函数的损失函数为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00037.jpg?sign=1739537703-S5ovSMQVmndSXMsJP43U4fIfbxn57J3d-0-026def7f1fabc1e0d5d091e4548f2f47)
其中为
对应的观测值,此时,求解一元线性回归函数的问题转化为一个优化问题,即求解:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00033.jpg?sign=1739537703-Bk2drmcYiPkmoISXdw2sZXByJrAcjnCK-0-93a4993a34ab10710a2d852f68053758)
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00038.jpg?sign=1739537703-B6R4IPAqAmd9LE2jHNFrbDBYynJs9bOm-0-ae94942b52e5b8d5bd27705bc1b616c7)
图4.1 一元线性回归示意图
为了最优化目标函数(4.4),对b和w求偏导,令导数为零,即:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00034.jpg?sign=1739537703-jInVxoZKZBdIf9Zu8jKClzAgNjLb6Y5K-0-3f544822a00edbdba41baca6ca4b54cb)
可求得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00035.jpg?sign=1739537703-QZQHgu7N0YhgTdkY4ssGkv5uodpGlCsQ-0-4ef993d63080973a5a8cfbaded2c1b89)
其中。
下面举例说明该回归模型的使用方法。
例4.1 假设我们试图对某一社区中个人的受教育程度(用表示)对年平均收入(用
表示)的影响进行研究。我们从该社区中随机收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表4.1)。请利用该数据判断最佳线性回归模型。(精确到小数点后两位)
表4.1 某小区11名个人的年平均收入与受教育年限
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00042.jpg?sign=1739537703-c5UDvHAVp6eHJVVWxfXmYmw6x3xVZSng-0-df8b5b64bb05a8cc68a40e24348a006a)
解 因为已知数据只有一个输入特征,所以设回归函数为y=wx+b,利用式(4.6),计算各分量。由表4.1可得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00039.jpg?sign=1739537703-jPwhsCoF90kv29d5JpV3pRdgh1ZQ1hTp-0-43741646e74a375f1f04cbfb4968f7c9)
所以,
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00040.jpg?sign=1739537703-GfiHvA4gKUK1Er2OcPHw6xb5rhb4qBOI-0-1408a3bf99435bd68e042a2a46c24707)
故所求的线性回归方程为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00041.jpg?sign=1739537703-6rCRqD8QpDVh60OZMWEzTIrdVRqfmYIj-0-10be613fef3f54b0a40a6032bc81aab7)
当输入数据有p个特征时,给定如下方程进行数据拟合
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00048.jpg?sign=1739537703-LQDxBLmH69YcrSMApDMe7smxHFrpZ5lI-0-b0836beff3986608fe3c7917a5ebc17b)
其中为输入的p维列向量,w∈ℝp为方程系数,b为截距。为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式。对于N个样本,则给定误差平方为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00049.jpg?sign=1739537703-7ut21nCDlo4WXlsXvecTtSn8geWTDtiS-0-426b96a7615dd59dcdb0e119a4fe65f1)
为了表示方便,令A为(p+1)×N的矩阵且第一行为全1的向量,A的第二行至p+1行数据对应于训练数据的输入,B∈ℝN为N个训练数据的输出,w*=(b,wT)T∈ℝp+1,则式(4.11)可写成如下形式
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00043.jpg?sign=1739537703-qMKjONXqOv1tmGQ8zxXBOB1ap6D4CW6L-0-144e2aae521faa54e6d3dafa7cc5723d)
最小化上式求解w*就是对w求偏导数,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00044.jpg?sign=1739537703-KvHddappri0K5UvrqtNpeGNFmk7D0tMw-0-29bc49952b1e960c9f3e0ceda057acbd)
若A为行满秩矩阵,则AAT为正定矩阵,因此可求得w*的闭式解为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00045.jpg?sign=1739537703-bSCGT8Vjbst20I2LyTbstkYz5GPTT0VI-0-69d931becaba4d9c0cc490bd0b6bef03)
以上介绍的回归模型输出只有一个一元变量。当输出本身就是多个(d个)一元变量,会获得如下的线性模型
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00046.jpg?sign=1739537703-RCdUbJzDNNVCu6cLUsCEgNlOEJVoVuXs-0-54263a410950ee6e83099fafc9b1263d)
其中B∈ℝd×N为输出矩阵,A∈ℝ(p+1)×N为输入矩阵,并且其第一行为全1,W∈ℝ(p+1)×d为系数矩阵。为了最小化D(f(X),F(X)),与式(4.11)的形式类似,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00047.jpg?sign=1739537703-JupJvwCAoGAHurTenM49Kv69xhqALocu-0-aae64b96b9d477cdee35ff95bc13e94e)
通过对W求导,可以获得其闭式解为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00050.jpg?sign=1739537703-18lzIFm4r4Lq7eO41Yfqqvdgf2paqnNx-0-a8f191387b56c5ea1f6e43d3e2175fa7)
线性回归模型是最简单的回归模型,可以很简单地扩充成广义线性模型,如,g是一个可逆的单调函数。比较常用的是对数线性回归,此时,