线性回归基本理论
名词汇总
名词 | 说明 | 举例(写法) |
---|---|---|
training data set | ||
sample(data point, data instance数据样本) | $\bold{x}^{(i)}=[x_1^{(i)}+x_2^{(i)}]^T$ | |
label(target) | 试图预测的目标 | $y^{(i)}$ |
features(covariates协变量) | 预测时依据的自变量 | |
batch size | 小批量样本数 | |
learning rate | ||
hyperparameter | 超参数 | |
hyperparameter tuning | 调参 | |
validation data set | 验证数据集 | |
likelihood | 可能性 |
线性回归基本概念
基本要素
- x和y之间呈线性关系
- 噪声正态分布
表达式
例如$y=w_1x_1+w_2x_2+b$,可称之为仿射变换(affine transformation)
通过加权和特征进行线性变换,并通过偏置项进行平移
写成向量形式
记X为特征集合,每行代表一个样本,每列代表一个特征,线性模型为
目标
给定训练数据特征X、已知标签y,求权重向量w和偏置b,当给定从X同分布中取样的新样本特征时,使得新样本预测标签的误差尽可能小。
损失函数
平方误差
常用平方误差:
系数1/2是为了求导之后系数变为1,无特殊含义
一般计算训练集n个样本上的损失均值
与正态分布的联系
正态分布随机变量x具有均值$\mu$和标准差$\sigma$,概率密度函数为
总结:最小化目标函数等价于执行最大似然估计
解析解
线性回归问题可以表示为
存在解析解【但是还不会算】
Minibatch stochastic gradient descent(小批量随机梯度下降)
梯度下降:计算损失函数关于模型参数的导数(梯度)
每次计算更新时随机抽取一小批样本$\Beta$:Minibatch stochastic gradient descent
算法步骤
- 初始化模型参数
- 随机抽取小批量样本,在负梯度方向更新参数
- 不断迭代
参数说明
- $|\Beta|$表示每个小批量的样本数(batch size)
- $\eta$表示学习率(learning rate)
这些参数通常预先指定,可以调整,但不在训练过程中更新,称为超参数(hyperparameter),选择超参数的过程称为调参(hyperparameter tuning)
矢量化加速
利用线性代数库矢量化代码,可以实现对运算数量级的速度提升。
与神经网络的联系
线性回归模型可视为单个人工神经元组成的网络(单层神经网络)
调用API版本
1 |
|
其中还有不少不理解的地方,等待后续补充
【不理解的地方】
线性回归基本理论
http://example.com/2022/12/17/线性回归基本理论/