首页 > 代码库 > Python机器学习实战<二>:机器学习概述

Python机器学习实战<二>:机器学习概述

1.机器学习的真实含义是利用数据来彰显数据背后的真实含义。

2.机器学习的一般用例:人脸识别、手写数字识别、垃圾邮件过滤、产品推荐等等。

3.机器学习的主要任务是分类,即将实例数据划分到合适的分类中。另一项任务是回归,主要用于预测数值型数据。分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标的分类信息。另一种机器学习方式是无监督学习,此时数据没有类别信息,也没有给定的目标。在无监督学习中,将数据集合分成由类似对象组成的多个类成为聚类,将寻找数据统计值的过程称为密度估计。下表示机器学习的典型算法:


4.如何选择合适的算法:

首先必须考虑两个问题:

a算法想要完成的任务。如果要预测变量的值,则可以选择监督学习算法,反之则选择无监督学习算法。之后如果目标变量时离散的,用分类算法;是连续的,用回归算法。

如果是无监督学习,分析是否需要将数据划分为不同的组,如果只有这个需求,则用聚类算法。如果还需要估计数据和每个组的相似程度,则使用密度估计算法。大部分情况都是这样的

b需要分析的数据。特征值是连续的还是离散的;是否存在缺失的值,什么原因造成的缺失;是否存在异常值;某个特征发生的频率如何(是否极少出现)等等。

一般来说,不存在最好的算法,都是通过反复尝试才能发现最好算法。


5.机器学习开发的一般步骤

(1)收集数据(2)准备输入数据(3)分析输入数据(4)训练算法(5)测试算法(6)使用算法


参考资料:《机器学习实战》page 7-10