首页 > 代码库 > 连续数值特征离散化
连续数值特征离散化
特征工程中 很常见的一步,特征离散化。最优离散化问题是一个 NP-hard问题。所以所谓的离散化方法只是某种启发式,某种情况下及考量下最优的方法。
好处
1. 减少连续特征的个数,减少存储空间大小
2. 更容易被接受。人更容易接受离散的范围,而不是准确的数值。也就是更容易理解,使用和解释
3. 离散化使得部门算法更准确和迅速
4. 有些算法只能应用于离散型数据
5. 降低过拟合
一般流程
1. 排序。数据一大,一般排序有利于提高速度和降低复杂度
2. 选择某些点作为候选点。用所选的具体方法作为衡量这个候选点是否满足要求
3. 可能接下来就进入分裂和合并,选择下一个候选点。
4. 停止条件
常见算法
连续数值特征离散化
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。