Quantcast
Channel: Sam的技术Blog
Viewing all articles
Browse latest Browse all 158

机器学习线性回归二

$
0
0
作者: Sam(甄峰) sam_code@hotmail.com

多元线性回归模型(Linear Regression with multiple variable/ Multivariate Linear Regression):
当我们用来预测的特征有多个时,我们用以下关键词记录:



m: 训练集中数据份数。
n:  每份训练集数据中,包含的特诊数

假设函数(Hypothesis):


为了表示方便,我们在数据集中添加一列: x0.  且x0=1
换句话说:增加了第0个特征,它的值永远为1.


theta是一个n+1的 Vector, theta的转置向量则是一个Matrix.
x 是一个n+1 的Vector。


这些内容,和单变量线性回归类似。如果要编程实现,就要找出实现 代价函数J()偏导的方法:
梯度下降法应用到多元线性回归二次代价函数:


这些内容,和单变量线性回归类似。如果要编程实现,就要找出实现 代价函数J()偏导的方法:


因为x0 = 1. 所以这个公式其实和一元线性回归梯度下降公式统一。


例子:
先选择数据集:
波士顿房价数据集(Boston House Price Dataset)是回归中常用到的数据集。

数据集包含 506 个观察,13 个输入变量和1个输出变量

CRIM:城镇人均犯罪率。

ZN:住宅用地超过 25000 sq.ft. 的比例。

INDUS:城镇非零售商用土地的比例。

CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。

NOX:一氧化氮浓度。

RM:住宅平均房间数。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士顿五个中心区域的加权距离。

RAD:辐射性公路的接近指数。

TAX:每 10000 美元的全值财产税率。

PTRATIO:城镇师生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房价,以千美元计。



这个训练集很多人用过了,应该很完备,就不再检验数据可靠性了。





 

Viewing all articles
Browse latest Browse all 158

Trending Articles