0%

第3章 线性模型

3.1 基本形式

  • 给定由$d$个属性描述的示例$x=(x_1;x_2;…;x_d)$,其中$x_i$是$x$在第$i$个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即,一般用向量形式写成,其中$w=(w_1;w_2;…;w_d)$。$w$和$b$学得之后,模型就得以确定。
  • 由于$w$直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。亦称“可理解性“(understandability)。

3.2 线性回归

  • ”线性回归“(linear regression)试图学得一个线性模型以尽可能准确地预测实际值输出标记。
  • 对离散属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”,“矮”可转化为{1.0,0.0}。若属性值间不存在序关系,假定有$k$个属性值,则通常转化为$k$维向量。例如属性“瓜类”的取值“西瓜”,“南瓜”,“黄瓜”可转化为(0,0,1),(0,1,0),(1,0,0)。
  • 线性回归试图学得$f(x_i)=wx_i+b$,使得$f(x_i) \simeq y_i$,如何确定$w$和$b$呢?显然,关键在于如何衡量$f(x)$与$y$之间的差别。均方误差是回归任务中最常用的性能度量,因此我们可以试图让均方误差最小化,即=$\underset{(w,b)}{arg \,min}\sum\limits_{i=1}^m(y_i-wx_i-b)^2$。
  • 均方误差有非常好的几何意义,他对应了常用的欧几里得距离或简称“欧式距离”(Euclidean distance)。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
  • 求解$w$和$b$使$E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2$最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation)。这里$E_{(w,b)}$是关于$w$和$b$的凸函数,当它关于$w$和$b$的倒数均为零时,得到$w$和$b$的最优解。
  • 跟一般的情形是如本节开头的数据集$D$,样本由$d$个属性描述。这称为“多元线性回归”(multivariate linear regression)。亦称“多变量线性回归。
  • 假设我们认为示例所对应的输出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目标,即。这就是“对数线性回归”(log-linear regression),它实际上是在试图让$e^{w^Tx+b}$逼近$y$。这里的对数函数起到了将线性回归模型的预测值与真实标记联系起来的作用。
  • 跟一般地,考虑单调可微函数$g(·)$,令,这样得到的模型称为“广义线性模型”(generalized linear model),其中函数$g(·)$称为“联系函数”(link function)。

3.3 对数几率回归