您的位置:首页 > 其它

人民搜索笔试题2013

2012-10-14 01:13 399 查看
人搜算法题:

1,二重歌德巴赫猜想

所有大于等于6的偶数都可以表示成两个(奇)素数之和。

给定1-10000;要求找出每一个可以表示为两素数之和的数,如果有多对,则只需要输出其中之一即可。

输出:

N = a + b;

N=1-10000;对于不能表示的就不用输出。

a,b为两个素数。

要求:复杂度较低,代码可运行。

2,城市遍历

某人家住北京,想去青海玩,可能会经过许多城市,

现已知地图上的城市连接,求经过M个城市到达青海的路线种类。

城市可以多次到达的,比如去了天津又回到北京,再去天津,即为3次。北京出发不算1次。

输入:

N M S

N为城市总数,北京为0,青海为N-1;

M为经过的城市数目;

S为之后有S行

i j

表示第i个城市可以去第j个城市,是有方向的。

输出:

N

表示路径种类。

3,分布式系统设计

有1000亿个URL,其中大约有5亿个site。每天的更新大约2%-5%。设计一个系统来解决存储和计算下面三个问题。可用分布式系统。

URL:http///site[port]*(key==?;key==?)

site:[*].domain

PS:

URL::http://www.baidu.com/baidu?word=%E5%AE%A3%E8%AE%B2%E4%BC%9A&ie=utf-8

site::www.baidu.com

domain::baidu.com

key=baidu?word

a>检测每个域名下的site数目,以及每个site下的URL数目,输出site变化超过一定阈值的域名以及URL数目变化剧烈的site。找出泛域。

泛域:该域下的site数目超过500个,且每个site下的URL数目超过100个。

b>提取URL中key的特征,对site进行聚类;

PS:每个site下面有多个URL,这些URL中有许多key,可以获取这些key作为site的特征,对site进行聚类,不过这应该是多机器联合的。

c>对于给定的domain,输出该domain下的所有site。

PS:为我的注释,题目都是我回忆版的,不完全符合,但是大致意思是这样。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: