作者: Sam(甄峰) sam_code@hotmail.com
多元线性回归模型(Linear Regression with multiple variable/
Multivariate Linear Regression):
当我们用来预测的特征有多个时,我们用以下关键词记录:
m: 训练集中数据份数。
n: 每份训练集数据中,包含的特诊数
假设函数(Hypothesis):
为了表示方便,我们在数据集中添加一列: x0. 且x0=1
换句话说:增加了第0个特征,它的值永远为1.
theta是一个n+1的 Vector, theta的转置向量则是一个Matrix.
x 是一个n+1 的Vector。
这些内容,和单变量线性回归类似。如果要编程实现,就要找出实现 代价函数J()偏导的方法:
梯度下降法应用到多元线性回归二次代价函数:
这些内容,和单变量线性回归类似。如果要编程实现,就要找出实现 代价函数J()偏导的方法:
因为x0 = 1. 所以这个公式其实和一元线性回归梯度下降公式统一。
例子:
先选择数据集:
波士顿房价数据集(Boston House Price Dataset)是回归中常用到的数据集。
数据集包含 506
个观察,13 个输入变量和1个输出变量
CRIM:城镇人均犯罪率。
ZN:住宅用地超过 25000 sq.ft. 的比例。
INDUS:城镇非零售商用土地的比例。
CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
NOX:一氧化氮浓度。
RM:住宅平均房间数。
AGE:1940 年之前建成的自用房屋比例。
DIS:到波士顿五个中心区域的加权距离。
RAD:辐射性公路的接近指数。
TAX:每 10000 美元的全值财产税率。
PTRATIO:城镇师生比例。
B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
LSTAT:人口中地位低下者的比例。
MEDV:自住房的平均房价,以千美元计。
这个训练集很多人用过了,应该很完备,就不再检验数据可靠性了。