lucene中facet实现统计分析的思路——本质上和word count计数无异

2024-09-02 10:43:23 217人阅读

http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence

http://www.geeksforgeeks.org/find-the-k-most-frequent-words-from-a-file/

http://cs.stackexchange.com/questions/26427/word-frequency-with-ordering-in-on-complexity

思路大致如下：

（1）hash表统计单词出现次数，然后寻找top k出现的，其中top k可以使用n*log(k)的堆思路，或者快排思路，或者是桶排序思路（以前fbt里实现实时的积分排序）；

（2）使用trie来统计单词出现次数，然后便利trie，利用堆排序思路求top k；

（3）使用桶排序，尤其是当你知道最大出现次数时候，类似以前做fbt实现的实时积分排序，然后从大到小取出top k；

（4）用map reduce。

lucene中facet实现统计分析的思路——本质上和word count计数无异

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们