首页 > 代码库 > 【读书笔记】机器学习-周志华 & 机器学习实战(Python)
【读书笔记】机器学习-周志华 & 机器学习实战(Python)
这两本放在一起看吧。当然了,我觉得Spark上面的实践其实是非常棒的。有另一个系列文章讨论了Spark。
/Users/baidu/Documents/Data/Interview/机器学习-数据挖掘/《机器学习_周志华.pdf》
一共442页。能不能这个周末先囫囵吞枣看完呢。哈哈哈。
P1 一般用模型指全局性结果(例如决策树),用模式指局部性结果(例如一条规则)。
P3 如果预测的是离散值,那就是分类-classification;如果预测的是连续值,那就叫回归-regression。
P3 聚类,开始不具备标签。根据是否开始就有标签,分为监督学习(supervised learning)(有标签)和无监督学习(无标签)。分类、回归是前者;聚类是后者。
学得模型适用于新样本的能力,称为泛化能力(generalization);强泛化能力,好。假设样本空间中全体样本服从一个未知分布(distribution),我们获得的每个样本是独立地从这个分布上采样取得的,即独立同分布(independent and identically distributed, iid)。一般而言,获得的样本越多,得到分布的信息就越多。
P4 假设空间
归纳(induction)和演绎(deduction)是科学推理的两大手段。前者是从特殊到一般的“泛化”(generalization),后者是从一般到特殊的‘特化’(specialization). 在数学公理系统上,从公理和推导规则推导出定理,是演绎;而从样例中学习,是归纳,又称为归纳学习。
狭义的归纳学习要求从样本中学得概念,但是太难,应用很少,现在学到的大多是黑箱模型。
P6 机器学习过程中对某种类型假设的偏好,成为‘归纳偏好’,或者简称为偏好。
P9 NFL定理,No Free Lunch Theorem,指的是对出现机会“相同”的问题,不管什么解法,效果一样。最重要的寓意是,算法的好坏,一定要根据问题而讨论。
【读书笔记】机器学习-周志华 & 机器学习实战(Python)