百度 2015 校招北京机器学习/数据挖掘工程师笔试题目（地点：天津大学）

2024-07-23 13:24:37 221人阅读

注：凭记忆写的，可能不全，也不一定正确。

一. 简答题

1. new 和 malloc 的区别。

2. hash冲突是指什么？怎么解决？给两种方法，写出过程和优缺点。

3. 命中的概率是 0.25，若要至少命中一次的概率不小于 0.75，则至少需要几次？

二. 算法设计题

1. 用C/C++写一个归并排序。

数据结构为struct Node{int v; Node *next};

接口为 Node * merge_sort(Node *);

2. 设计S型层次遍历树的算法，比如根节点是第一层，第二层从左至右遍历，第三层从右至左遍历，第四层再从左至右遍历，以此类推。

举例：应依次输出 1 2 3 6 5 4 7 8 9。

3. 一个url文件，每行是一个url地址，可能有重复。

（1）统计每个url的频次，设计函数实现实现。

（2）设有10亿url，平均长度是20，现在机器有8G内存，怎么处理，写出思路。

三. 系统设计题

自然语言处理中的中文分词问题，前向最大匹配算法（FMM）。

注：题目举例说明了FMM的基本思想。

（1）设计字典的数据结构 struct dictnote。

（2）用C/C++实现FMM，可选接口为

int FMM(vector<string> iLetters, dictnode *iRoot, vector<int> *oResults);

其中 iLetters 为待分词的句子，比如 {“小”，“明”，“今”，“天”，“买”，“了”，“i”，“p”，“o”，“n”，“e”，“6”}，

iRoot 是字典， oResults 保存输出结果，即分词的位置。也可以自己设计接口。

（3）收集了一些手机品牌的字典，如{iphone, 诺基亚}。

现在要求查找包含这些手机品牌的网页，比如包含 iphone6, 诺基亚 9973 等。

怎么修改FMM实现这个功能，可以写伪代码。

2014年9月20日

百度 2015 校招北京机器学习/数据挖掘工程师笔试题目（地点：天津大学）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们