对 样本 做如下约定:
X=⎣⎢⎢⎢⎢⎡x1Tx2T⋮xmT⎦⎥⎥⎥⎥⎤∈Rm×n(1)
xi=⎣⎢⎢⎢⎢⎡xi1xi2⋮xin⎦⎥⎥⎥⎥⎤∈Rn,i∈{1,⋯,m}(2)
模型定义
若有权重 w=(w1,w2,⋯,wn)T∈Rn,偏置 b∈R,则线性模型可以表示为:
y^=Xw+b∈Rm(3)
展开公式 (3),即:
{y^=(y^1,y^2,⋯,y^m)Ty^i=xiTw+b=⟨xi,w⟩+b,i∈{1,⋯,m}(4)
损失函数
已知样本 (xi,yi)i=1m,且 xi 的预测值为 yi^,则定义可单个样本是损失函数:
l(i)(w,b)=21(y^i−yi)2,i∈{1,⋯,m}(5)
总损失函数定义为:
L(w,b)=m1i=1∑ml(i)(w,b)=2m1∥Xw+b−y∥2(6)
在训练模型时,我们希望寻找一组参数 (w∗,b∗),这组参数能最小化在所有训练样本上的总损失。如下式:
w∗,b∗=w∗,b∗argminL(w,b)(7)
可以求得解析解:
将 w 与 b 合并为 w,X=(X,1),则公式 (6),可以写作:
L(w,b)=2m1∥Xw−y∥2(8)
这很容易求得解析解:
w∗=(XTX)−1XTy(9)
对于实际问题,往往模型很复杂很难求得解析解,大都仅仅求得其近似解。
梯度下降
由计算梯度得:
∇wL=m1XT(Xw−y)(10)
所以,参数更新:
⎩⎪⎨⎪⎧w←w−mηXT(Xw+b−y)b←b−mη1T(Xw+b−y)(11)
其中 η 表示学习率。