首页 > 代码库 > Python机器学习实战<二>:机器学习概述
Python机器学习实战<二>:机器学习概述
1.机器学习的真实含义是利用数据来彰显数据背后的真实含义。
2.机器学习的一般用例:人脸识别、手写数字识别、垃圾邮件过滤、产品推荐等等。
3.机器学习的主要任务是分类,即将实例数据划分到合适的分类中。另一项任务是回归,主要用于预测数值型数据。分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标的分类信息。另一种机器学习方式是无监督学习,此时数据没有类别信息,也没有给定的目标。在无监督学习中,将数据集合分成由类似对象组成的多个类成为聚类,将寻找数据统计值的过程称为密度估计。下表示机器学习的典型算法:
4.如何选择合适的算法:
首先必须考虑两个问题:
a算法想要完成的任务。如果要预测变量的值,则可以选择监督学习算法,反之则选择无监督学习算法。之后如果目标变量时离散的,用分类算法;是连续的,用回归算法。
如果是无监督学习,分析是否需要将数据划分为不同的组,如果只有这个需求,则用聚类算法。如果还需要估计数据和每个组的相似程度,则使用密度估计算法。大部分情况都是这样的
b需要分析的数据。特征值是连续的还是离散的;是否存在缺失的值,什么原因造成的缺失;是否存在异常值;某个特征发生的频率如何(是否极少出现)等等。
一般来说,不存在最好的算法,都是通过反复尝试才能发现最好算法。
5.机器学习开发的一般步骤
(1)收集数据(2)准备输入数据(3)分析输入数据(4)训练算法(5)测试算法(6)使用算法
参考资料:《机器学习实战》page 7-10
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。