海量数据处理--bloom filter

2024-07-16 08:28:47 225人阅读

例题：给定两个大文件，各含有50亿条url，要求利用4G内存快速找出共同的url

解答：

假设两个文件为A和B，4G内存有32G位，可以表示5G的url。

本文采用bloom filter解答：

首先简单介绍一下bloom filter的思想，其核心是：位数组；K个hash函数。

通过对大量数据处理，通过k个hash函数将大量数据压缩存储到多个位当中。

查找的时候，根据K个hash函数的结果，如果有0那么就不在集合中，如果没有0那么就在集合中（可能会误判）。

这道题可以先通过对A处理，然后得到bloom filter，再对B处理，判断是否重复url。由于通过位压缩，位数组可以存在内存里，

然后减少文件访问次数，能够加快速度。但是可能会存在误判。

参考下面链接：

http://blog.csdn.net/hguisu/article/details/7866173

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们