作者: Sam (甄峰) sam_code@hotmail.com
学习算法已经深入到各类服务中,如Google,baidu的网页排序。垃圾邮件的过滤,购物app的推荐系统,都使用了learning
algorithm.
机器学习,就是让AI模拟人类大脑的学习方法。是机器学习的一个重要方向。
应用场景包括:数据挖掘(Database mining), 自然语言的处理(NLP),计算机视觉(CV)等。
机器学习(Machine Learning)的定义:
Arthur Samuel(1959)对Machine Learning的定义:
在无明确设置的情况下,使计算机具有学习能力的研究领域。 (Arthur Samuel
编写了一个跳棋算法,让他们自己对弈,实现了棋力的提升)
Tom Michell(1998)对Machine Learning
的定义:计算机程序从经验E中学习,解决某一个任务T, 进行某一个性能度量P。 通过P测定在T上的表现因经验E而提升。
Machine Learning Algorithms:
Supervised Learning,监督学习。
Unsupervised Learning, 非监督学习。
强化学习
推荐系统。
监督学习(Supervised Learning)概念:
我们给算法一个数据集,其中包括正确答案,它根据这些数据,学习出规律。以做出预测。
其中分:
回归问题(Regression), 用来预测连续的数值输出。
分类问题(Classification), 用来预测离散值的输出。
也有人这样陈述,Sam觉得有道理:
回归的输出是连续的,比如:1、2、3、4、5、6。注意,所谓“连续”意味着是有序的,是排序的。比如输出为3,那么我们可以肯定真实为3、4、5、6的可能性顺序减小,真实为2、1的可能性也是顺序减小。
分类的输出是:A类、B类、C类。注意,所谓“分类”意味着ABC之间不存在排序,不存在谁比谁更亲密或更远、可能或更不可能。输出为A,那么不意味着真实为B的可能性比C更大
非监督学习概念:
非监督学习是指,告诉算法,这里有一些数据,你能找到其中的结构么?
其中包括聚类算法,鸡尾酒会算法等。
聚类算法: 把给定的数据集分成不同的簇。 例如:Google
News会自动搜索网络上的新闻,并把他们分簇,同一主题的新闻放在一起。
鸡尾酒会算法:
在混杂的鸡尾酒会现场,有无数人同时说话,有很多麦克风录取声音数据。 用鸡尾酒会算法可以区分出不同人的声音。