微软亚洲研究院--寻找发帖“水王”-xiaozhu2007-ChinaUnix博客

xiaozhu2007

首页　| 　博文目录　| 　关于我

xiaozhu2007

博客访问： 441373
博文数量： 103
博客积分： 5010
博客等级：大校
技术积分： 971
用户组：普通用户
注册时间： 2007-06-11 17:22

文章分类

全部博文（103）

动态规划（2）
健康与生活（2）
比较&排序算法（11）
acm&算法（31）
多线程编程指南--（2）
深入理解Linux内（0）
posix多线程程序（11）
linux/unix（10）
c语言（15）
生活（4）
graph（4）
搜索引擎技术（8）
shell（3）
未分配的博文（0）

文章存档

2008年（77）

2007年（26）

我的朋友

xiaobo20

分析与解法

首先想到的是一个最直接的方法，我们可以对所有ID进行排序。然后再扫描一遍排好序的ID列表，统计各个ID出现的次数。如果某个ID出现的次数超过总数的一半，那么就输出这个ID。这个算法的时间复杂度为O（N * log₂N + N）。

如果ID列表已经是有序的，还需要扫描一遍整个列表来统计各个ID出现的次数吗？

如果一个ID出现的次数超过总数N的一半。那么，无论水王的ID是什么，这个有序的ID列表中的第N/2项（从0开始编号）一定会是这个ID（读者可以试着证明一下）。省去重新扫描一遍列表，可以节省一点算法耗费的时间。如果能够迅速定位到列表的某一项（比如使用数组来存储列表），除去排序的时间复杂度，后处理需要的时间为O（1）。

但上面两种方法都需要先对ID列表进行排序，时间复杂度方面没有本质的改进。能否避免排序呢？

如果每次删除两个不同的ID（不管是否包含“水王”的ID），那么，在剩下的ID列表中，“水王”ID出现的次数仍然超过总数的一半。看到这一点之后，就可以通过不断重复这个过程，把ID列表中的ID总数降低（转化为更小的问题），从而得到问题的答案。新的思路，避免了排序这个耗时的步骤，总的时间复杂度只有O（N），且只需要常数的额外内存。伪代码如下：

代码清单2-8

Type Find(Type* ID, int N)

{

Type candidate;

int nTimes, i;

for(i = nTimes = 0; i < N; i++)

{

if(nTimes == 0)

{

candidate = ID[i], nTimes = 1;

}

else

{

if(candidate == ID[i])

nTimes++;

else

nTimes--;

}

return candidate;

}

在这个题目中，有一个计算机科学中很普遍的思想，就是如何把一个问题转化为规模较小的若干个问题。分治、递推和贪心等都是基于这样的思路。在转化过程中，小的问题跟原问题本质上一致。这样，我们可以通过同样的方式将小问题转化为更小的问题。因此，转化过程是很重要的。像上面这个题目，我们保证了问题的解在小问题中仍然具有与原问题相同的性质：水王的ID在ID列表中的次数超过一半。转化本身计算的效率越高，转化之后问题规模缩小得越快，则整体算法的时间复杂度越低。

扩展问题

随着Tango的发展，管理员发现，“超级水王”没有了。统计结果表明，有3个发帖很多的ID，他们的发帖数目都超过了帖子总数目N的1/4。你能从发帖ID列表中快速找出他们的ID吗？

阅读(1505) | 评论(0) | 转发(0) |

上一篇：微软亚洲研究院--饮料供货

下一篇：微软亚洲研究院--1的数目

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6