首页 > 代码库 > 机器学习基石第三讲笔记

机器学习基石第三讲笔记

第三讲介绍了不同类型的机器学习问题,根据4个方面划分:输出空间,标签,方式,输入空间。

1. 根据输出空间y不同划分:通过变换y的种类,可得到不同的机器学习问题

  (1)y = {+1, -1}:二元分类问题,类似于做是非题,机器学习的基础。

  (2)y = {0, 1, 2, ..., k}:k元分类问题,类似于做单选题。

  (3)y = R:回归分析。

  (4)y = structures:structured learning,给定一段序列,判断序列的各个部分属于哪种结构。比如,输入一个句子,判断句子里每个词语的词性;输入一段蛋白质序列,判断序列各部分属于哪种结构域。

2. 根据所用标签不同划分:

  (1)supervised:所有输入的数据xn都有相应的标签yn,类似于老师给出了答案。

  (2)unsupervised:输入的数据没有标签,对应于clustering,类似于老师不给答案。

  (3)semi-supervised:只有部分数据有标签yn,当给所有数据标上标签所需代价很大时使用。

  (4)reinforcement:用goodness来提示标签,当没有明确的标签可以使用时使用。比如,一个广告系统根据客户以及广告的点击数来确定某个广告的好坏。

3. 根据所用学习方式不同划分:

  (1)batch learning:给机器一批已知的资料用于学习。

  (2)online learning:从不断接收到的一笔一笔资料中学习。比如,垃圾邮件过滤器。

  (3)active learning:从资料中提出xn,询问xn对应的yn,用于取得标签很贵的场合,用很少的标签就能完成学习。

4. 根据输入空间不同划分:从不同的input feature,找出最合适的,往往是机器学习成功的关键

  (1)Concrete features: each dimension of x represents ‘sophisticated physical meaning‘, often including ‘human intelligence‘ on the learning task。

  (2)Raw features: ‘simple physical meaning‘; thus more difficult for ML than concrete features; often need human or machines to convert to concrete ones。

  (3)Abstract features: ‘no physical meaning‘; thus even more difficult for ML。

机器学习基石第三讲笔记