Machine Learning Notes 01

Introduction of Machine Learning

Posted by Wang Zhihao on 2017-03-11

What is Machine Learning

Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.
机器学习是一种使计算机具有学习能力但并不需要明确的编程的研究。


Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
一个计算机程序能够从经验E中学习(学习任务是T,学习的表现用P衡量)。这个程序在任务T与表现衡量P下,可以通过经验E得到改进。

假设你的邮件系统可以观察你标记垃圾邮件的行为,基于此它可以学习如果更好地过滤垃圾邮件。

  • T: 将邮件按照正常邮件/垃圾邮件来分类。
  • E: 观察你标记垃圾邮件的行为。
  • P: 正确被标记为正常邮件/垃圾邮件的个数/占比。

总的来说,机器学习算法主要可以分为监督学习(Supervised learning)无监督学习(Unsupervised learning),当然你可能经常听到一些其他的机器学习算法比如增强学习(Reinforcement learning)推荐系统(recommender systems)等。

监督学习(Supervised learning)

监督学习区别于无监督学习的一大特点是:在监督学习问题中,你知道数据里哪些是「正确的答案」。

  • 回归(Regression)
    • 连续变量(比如预测房屋价格)

最开始系统地接触回归是在学习计量经济学的时候,虽然在数学方法上是一样的,但是计量经济学更加强调「因果关系」,更加重视如何解释,或者说怎么把一个故事讲出来。当然啦,经济学里也需要预测。感觉机器学习中的回归会更加「粗暴」,毕竟可能动不动就几百个几千个变量数几十万的数据扔进回归里。计量经济学会特别关注条件期望零值假设等等,但是机器学习似乎并不怎么care这些。

  • 分类(Classification):
    • 不连续变量(比如判断癌症良性/恶性)

无监督学习(Unsupervised learning)

无监督学习问题的特点是你不知道哪些样本是「正确的答案」,你需要在一堆样本中找到一些规律,然后把这些样本分成几种不同的类别。
在监督学习中你看到的样本是这样的,样本有两个特征$x_{1}$和$x_{2}$,并且这些样本都有一个label($y=0, 1$)用来区分这些样本。

img/01.jpg

然而在无监督学习中,你看到的样本是这样子的,样本有两个特征$x_{1}$和$x_{2}$,但是你需要通过一些方法把它们分类。

img/02.png

直观上我们很容易看出上图中的样本可以被分为两类,但是现实中的问题可能并不会这么明显,而且当样本的特征多的时候我们是无法不容易可视化数据的(其实是可以通过一些方式来降维的)。