首页 > 代码库 > [算法导论 Ch9 中位数和顺序统计量] Selection in O(n)
[算法导论 Ch9 中位数和顺序统计量] Selection in O(n)
1. 寻找第k大(小)的数
假设数据存储在数组a[1..n]中
首先,寻找一个数组中最大或者最小的数,因为最大(小)的数一定要比其他所有的数大(小),因此至少要比较完所有的pair才能确定,所以时间复杂度在O(n)。那么寻找第k大(小)呢?
比较直观的,就是对数组中国所有的数据先进行排序,在我们这种渣渣的计算机入门选手而言,可选的有QuickSort,MergeSort和HeapSort,甚至是ShellSort等一些比较高级的方法啊...一般的代价都在O(n*logn)上,然后直接取出即可。
在算法导论的第九章,提出了一个效率更高的Selection算法,用到的主要原理就是分治,是根据QuickSort改编的,但是主要的不同的是,QuickSort会递归处理划分的两边,而这里的Selection则是只处理一半。因为要寻找第k小的数,那么如果k比之前的partition处理后,返回的位置下标要小,那么第k小的数一定在partition的pivot的左边一半,右边一半可以不用处理;若是k比这个pivot的下标要大,那么显然,要找的值在pivot的右边,但是这里有一点特殊,下一次递归查找的时候,是要寻找第(k-pivot下标)的数啦~
嗯,感觉好厉害的样子。然后让我来练练手。
1 int partition(int[] a, int start, int end, int pivot) {//pivot为可以自己定义选定的参照值 2 int i = start; 3 int j = start; 4 for(j = start; j < end; j++) { 5 if(a[j]<=pivot) { 6 int temp=a[i]; 7 a[i]=a[j]; 8 a[j]=temp; 9 i++;10 }11 }12 int temp2 = a[i];13 a[i]=a[end];14 a[end]=temp2;15 return i; 16 }17 18 int selectkth(int[] a, int start, int end, int k) {19 if(start == end) 20 return a[start];21 int q = partition(a,start,end,a[end]);22 int p = q-start+1;23 if(k == p)24 return a[q];25 else if(k < p) {26 return selectkth(a, start, q-1, k);27 }28 else return selectkth(a, q+1 , end, k-p); 29 }
2.前k大的数(算法导论思考题1)
其实,在我们老师上课的时候,比较强调selection和partition的“化学作用”啊,如果问题变为找出前k大的k个数呢?当然,万能的排序还是OK的啊,直接排序完输出就好了,简直66666...
后来,作业题中出现了一些比较厉害的东西啊,它可以达到O(n + k*logn)啊,居然要用到建立一个堆啊,显然,算法导论上第六章说道,建立一个堆只需要线性时间啊,各种fix的操作也只需要logn啊,那不就是建个最大堆,然后提取k次root顺带着调整一下么...其实我喜欢说修理啊哈哈哈哈....
再后来,还有一个问题,说是可以到O(n+klogk)啊,你TM真是够了啊,然后,就是selection选出第k大的数啊,然后用这个数进行partition啊,把比他大的数用一次排序就好了啊,喂,你真是够了啊!
3. Selection + Partition共同解决一些问题
为了进一步blablablabla,老师真的是很强调这个Selection+Partition啊
Question 1:算法导论的第九章的思考题就有一个,叫做weighted-median。
显然啊,我觉得排序算法解决一切啊,有木有!!但你他喵的非得线性时间干嘛啊~
嘿嘿,然后来了啊,选出中位数啊,嘿嘿,然后进行partition,从头开始计算权重的和啊,看看跟1/2怎么样?小?OK,权重不够哦,再在右边一半进行Median的Selection+Partition啊,再进行计算吧,带上前面算出来的权重和啊,再去跟1/2比较...要是第一趟处理就比1/2大,那就在左边做一次中位数Selection+Partition吧...嘿嘿嘿嘿,大概估算一下,它的cost应该实在n*(1+1/2+1/4+1/8+...+1/(2n))吧...其实也就是O(2n)的样子,不错了吧,嘿嘿
Question 2:寻找最近接Median的k个数...(算法导论9.3-7题)
老规矩,排序啊,有木有!!!为什么又是线性时间呢?但是,老师这么说肯定是有用意的。好啦,我能想到的方法呢,就是先Select出中位数,cost=n,然后呢,就是对每个数与这个中位数做差取绝对值啊,然后这里的每个差的绝对值中,选出前k小的数,根据2中的原理,也就是O(n+klogk)的cost,然后映射回去原来的数,总体而言,的确是O(n)的cost吧(如果k不是特别大的话)。老师上课在讲Tutorial的时候,还提出了另一种差不多的方法,大致思路也就是selection+partition这个主题啦~~第一次选出中位数selection,记为M,加一次partition,共计O(2n),两边各自寻找中位数,只保留接近中位数M的一半,直到差不多在第一次的中位数M左右两边各有k个数左右,然后选出差值最小的k个数...总之就是缩小范围,然后再集中处理的样子吧,时间大概是一个等比级数的求和n*(2+2/2+2/4+2/8+...+2/2k),还是在O(n)的级别的,但我总觉得绕了这么一大圈...哎,网上搜了一下,大多数都是直接一次上来就做差的啊...(莫非是我记错了??
4. PK法
PK让我想起了年少无知的我看超女快男的经历啊。这里,我们老师主要用这种方法解决一些Selection相关的问题。
PK法的前提是我想要的超过总数的一半,主要思路是,每次都对等的淘汰两个或一个,若淘汰两个,至少有1个是我不想要的,若只淘汰了一个,那么我必定是我不想要的那个!这样淘汰直到最后,剩下的一定是我想要的。当然,若事先不知道前提是否成立,那么在得到结果以后,还要进行一次check!
Question 3:寻找出现频率最高的数,直接贴代码吧...
1 int pk(int[] a) { 2 int x = a[0]; 3 int count = 0; 4 for(int i=0; i<a.length; i++) { 5 if(a[i] == x) 6 count++; 7 else if(count >= 1) 8 count--; 9 else {10 //start from begin11 count = 0;12 //why i+1? for next item is a[i+1], then count will ++13 //delete this pair of two14 x = a[i+1];15 }16 }17 //check18 int y = x;19 count = 0;20 for(int i = 0; i<a.length; i++) {21 if(a[i]==y) {22 count++;23 }24 }25 if(count>a.length/2)26 return x;27 else28 return -1;29 }
还有一个扩展问题:现在数组中没有出现频率一半的数字了,但有三个都超过了四分之一,找到他们。
有兴趣的可以去看看这儿:http://www.cnblogs.com/jy02414216/archive/2011/03/04/1970497.html
Question 4:VLSI芯片测试
Diogenes教授有n个被认为是完全相同的VLSI芯片,原则上它们是可以互相测试的。教授的测试装置一次可测二片,当该装置中放有两片芯片时,每一片就对另一片作测试并报告其好坏。一个好的芯片总是能够报告另一片的好坏,但一个坏的芯片的结果是不可靠的。这样,每次测试的四种可能结果如下:
A芯片报告 B芯片报告 结论
B是好的 A是好的 都是好的,或都是坏的
B是好的 A是坏的 至少一片是坏的
B是坏的 A是好的 至少一片是坏的
B是坏的 A是坏的 至少一片是坏的
a)证明若多于n/2的芯片是坏的,在这种成对测试方法下,使用任何策略都不能确定哪个芯片是好的。假设坏的芯片可以联合起来欺骗教授。
b)假设有多于n/2的芯片是好的,考虑从n片中找出一片好芯片的问题。证明n/2对测试就足以使问题的规模降至近原来的一半。
c)假设多于n/2片芯片是好的,证明好的芯片可用Θ(n)对测试找出。给出并解答表达式测试次数的递归式。
注:VLSI——Very Large Scale Integrated.
算法分析:
a) 在所有的策略中,时间复杂度最高但最有效的方法是:对每个芯片,让其它所有芯片对它进行报告,由于好芯片数目小于n/2,对于任意芯片,坏芯片都可以让判断结果一模一样(比如判断结果好坏各占一半),此时,就无法判断出好坏。得证。
b) 问题可以这么理解,证明:当多于n/2的芯片是好的时,可以通过【n/2的下界】次操作,得到一个包含至多n/2个芯片的集合,且该集合内好的芯片大于一半。这样,以后只需要在这个集合上执行类似的判断动作就好了。
对于n个芯片的集合,假设good代表好芯片的数目,则坏芯片有(n – good)个,将n个芯片两两组合,接下来分类讨论。
1. 当n为偶数时,假设好芯片和坏芯片组成的对数为r,则(n - good) >= r。对每个对,如果结果是情况2、3、4,则不做任何操作,如果结果是情况1,则从中挑出一个放到一个集合中。所以,我们可以在好芯片对中取到(good – r)/2个芯片,从坏芯片对中取到m个芯片,m <= (n – good - r)/2。因为(good – r)/2 > (n – good - r)/2,所以新集合中好芯片的数目大于一半,另外总芯片数小于等于(n/2 - r)。
2. 当n为奇数时,提取一个芯片,对剩下的芯片采取偶数的方法,只不过最后的集合情况是:(good - r)/2 >= (n – 1 – good - r)/2,芯片总数小于等于((n – 1)/2 - r)。
1) 当总数是偶数时,要么好的芯片数和坏的芯片数一样,原先被提取的芯片是好的芯片,把好的芯片加入集合;要么好的芯片比坏芯片多偶数个,此时不论被提取的芯片是好是坏,把它加入集合也能保证好的芯片数大于坏的芯片数。
2) 当总数是奇数时,好的芯片数必然大于坏的芯片数。
得证。
c) 当每次的r为0时,所需要的递归次数最多,T(n) = T(n/2) + n/2。
(请原谅我直接贴了别人的博客:http://www.cnblogs.com/longdouhzt/archive/2011/07/15/2107751.html内容...)
[算法导论 Ch9 中位数和顺序统计量] Selection in O(n)