首页 > 代码库 > 百度网页搜索部

百度网页搜索部

一、算法效率比较

      题目:针对数组A和数组B,两个数组的元素内容相同,不过数组A是已经排序的,数组B是乱序的,针对数组的中位数,存在以下两组程序,比较其效率并分析原因。       

int g;int main() {    g = 0;    for(int i = 0 ; i < n ; i++) {        if( A[i] > mid )           g++;    }    for(int i = 0 ; i < n ; i++) {        if(B[i] > mid )           g++;    }}

 

      当包含流水线技术的处理器处理分支指令时就会遇到一个问题,根据判定条件的真/假的不同,有可能会产生转跳,而这会打断流水线中指令的处理,因为处理器无法确定该指令的下一条指令,直到分支执行完毕。流水线越长,处理器等待的时间便越长,因为它必须等待分支指令处理完毕,才能确定下一条进入流水线的指令。

      这个题目之前在网上浏览到过,知道有序的数组的效率其实比无序的要高很多,但是原因实在想不出来。现在搜一下,原来是stackoverflow上面的经典问答呢,原因不是编译器动手脚,而是CPU动的手脚,CPU有一个叫分支预测的技术,是这个技术导致有序数组的效率很高。 CPU指令执行的过程是流水线,简单的分支预测方案是针对当前元素(实际是处理过元素的统计学规律)判断下一个元素的指令跳转方向,有序的话分支预测的准确率很高,无序的话分支预测技术就不生效了,无法提前装载指令进入流水线,这样就损耗了一定的CPU时间。

二、简单算法之求不同元素

      题目:一个数组中只有一个数字出现1次,其他数字出现两次。

      挺简单的题目,因为见过,所以就跳过了这个题目,所以元素异或即可。

三、DP题目

      题目:一个m*n得棋盘,每个格子中有一个数字,计算从左上角至右下角的最大路径和,每一步行只能够向右或者向下行走。

      ACM的时候做过,我只知道是DP,不过不是很理解,现在好好高一下。

       技术分享  

      技术分享

先初始化二维数组S,用双重for循环,Arrays.fill方法只可初始化一维数组	s[0][0] = a[0][0];	for(int i=1; i<N; i++) 		s[i][0] = a[i][0] + s[i-1][0];	for(int j=1; j<M; j++) 		s[0][j] = a[0][j] + s[0][j-1];	for(int i=1; i<N; i++)		for(int j=1; j<M; j++)			s[i][j] += a[i][j] + Math.max(s[i-1][j],s[i][j-1]);

三、海量数据处理

      问题:两个URL文件,分别有20亿条记录,每个URL的项目大约1KB。文件中有重复的URL记录,如何去除重复?

      因为在一面的过程中了解到,有序的数组去除重复的时候能够得到快速的去重,所以就考虑到了首先排序,但是两个这么大的文件单机排序?外部排序,k路归并排序,然后面试官就顺势的问了我k路归并排序的知识,k路归并排序的时间估计,因为k路归并排序很多时间在磁盘的IO上面,所以我猜测可能磁盘的IO才是时间的平静,每个元素最终进出磁盘4次,所以我估计的方法是元素数量*4*磁盘IO平均时间。不知道这个方法对不对。

      多机的扩展,MapReduce程序应该可以完成,但是我对hadoop不是很了解(所以这个方法没有答)。自己想一下多机的扩展吧,当然也是分治,想想也可以多机k路归并排序,后来面试官引导我说可以不排序么?我才意识到原始问题只是为了去除重复,所以这里分治并且利用hash的方法应该能够达到很快速的算法(复习一下《大型网站架构》这本书)一致性simhash方法应该是解决这个问题的。

      我首先想到的是hash,因为前面见过如何求出访问最多的IP,就是对IP进行Hash,只不过不知道如何Hash而已,过两天专门搞海量数据的Hash处理。

      参考文献http://www.cnblogs.com/weixliu/p/3900633.html

四、象棋问题

      中国象棋中帅,将和一个将身边的士,输出其合理位置的方案。

      刚看到这个算法题目的时候还卡了一下,不过后来自己把棋盘编号为1,2,3,4,5,6,7,8,9之后豁然开朗~不过我的代码if,else比较多,3类情况枚举,后来在面试官的提示下进行条件合并,节省了很多的代码。 

for(int s = 1 ; s <= 9;s++) {     for(int j = 1 ; j <= 9;j++) {          for(int jsb = 1; jsb <= 9;jsb += 2) {                         if( validposition(s,j,jsb))                          printf("%d,%d,%d",s,j,jsb);          }       }} bool validposition(int s,int j,int jsb) {   //将和帅相对应,并且不是士兵挡在将的前面的情况???    if ( s%3 == j%3 && !( jsb % 3 == j % 3 && jsb < j ) )        return false;    return true;}

 

百度网页搜索部