首页 > 代码库 > MLlib-聚类
MLlib-聚类
- 聚类
- 例子
- 流聚类
- 例子
聚类
MLlib支持k-means聚类,一种最常用的聚类方法,将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种,叫做kmeansII。MLlib的实现包括以下参数:
- k 设定的聚类数目
- maxIterations 最大循环册数
- initializationMode 随机初始化或使用k-meansII初始化
- runs k-means算法运行册数(k-means不能保证找到全局最优,如果在给定的数据集上运行多次,返回最好的结果)
- initializationSteps k-meansII算法的步骤数
- epsilon k-means的收敛阈值
流聚类
当数据作为流到达时,簇应该被动态估计。MLlib提供了支持流的k-means聚类,使用参数控制估计延迟(或忽略)。算法使用小批量k-means更新规则,针对每一批数据,将他们分配给离他们最近的簇,计算新的簇中心, 然后用
\( c_{t+1}=\frac{c_t n_t \alpha + x_t m_t}{n_t \alpha + m_t} \)
\( n_{t+1} = n_t + m_t \)
更新每个簇。
MLlib-聚类
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。