编程珠玑——第十二章取样问题-梦醒潇湘love-ChinaUnix博客

梦醒潇湘loveloveyou1314.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

梦醒潇湘love

博客访问： 2134542
博文数量： 249
博客积分： 1305
博客等级：军士长
技术积分： 4733
用户组：普通用户
注册时间： 2011-12-17 10:37

个人简介

不懂的东西还有很多，随着不断的学习，不懂的东西更多，无法消灭更多不懂的东西，那就不断的充实自己吧。欢迎关注微信公众号：菜鸟的机器学习

文章分类

全部博文（249）

机器学习（1）
Hadoop（2）
互联网广告（0）

特征工程（0）
算法（2）

SearchForPattern（2）
TCP/IP（1）
笔试题（4）

腾讯（2）
STL学习（3）
Big Data&nb（1）
程序员自我修养（4）
编程珠玑（5）
面试编程题（132）

Google（0）

智力题（2）

C/C++（11）

数学相关（7）

二分查找（7）

数组（30）

栈、队列、堆（4）

单链表（20）

经典二叉树（26）

字符串（20）
数据挖掘（6）
杂谈（1）
信息检索（1）
Linux编程（14）
Load Balance学习（4）
C/C++学习（19）

字节对齐（0）
linux下多线程（3）
数据结构与算法（29）

递归与分治（2）

并查集（1）

数据结构（1）

算法（3）
Makefile（8）
Mongoose(web服务（4）
BitTorrent（2）
未分配的博文（3）

文章存档

2015年（1）

2014年（4）

2013年（208）

2012年（35）

2011年（1）

我的朋友

相关博文

编程珠玑——第十二章取样问题

分类： C/C++

2013-06-15 20:41:00

问题1
输入：包含两个整数m和n，其中m < n
输出：0~n-1范围内的m个随机整数的有序列表，不允许重复
从概率的角度说，希望得到没有重复的有序选择，其中每个选择出现的概率相等。
解答：
该算法依次考虑整数0,1,2,......,n-1，并通过一个适当的随机测试对每个整数进行选择。通过按序访问整数，可以保证输出结果是有序的。
为了理解选择的标准，考虑m = 2, n = 5的情况。选择第一个整数0的概率是2/5，可以通过下面的语句来实现。

if(bigrand() % 5) < 2

但是，我们不能以同样的概率选择来选择整数1：这样做的话，从5个整数里面选出的整数可能是两个也可能是不是两个。
因此，决策有一些不同：在已经选择0的情况下以1/4的概率选择1，而在未选择0的情况下以2/4的概率选择1。
一般说来，如果要从r个剩余的整数中选出s个，可以以概率s/r选择下一个数。

#include <iostream>
#include <algorithm>
#include <time.h>
using namespace std;
int bigrand()
{
srand(unsigned(time(NULL)));
return RAND_MAX *rand() + rand();
}
int randint(int l, int u)
{
return l + bigrand() % (u - l + 1);
}
void getknuth(int m, int n)
{
for(int i = 0; i < n; i ++)
{
//select m of remaining n - i
if(bigrand() % (n - i) < m)
{
cout << i << " ";
m--;
}
}
cout << endl;
}
int main()
{
int n = 10;
int m = 5;
getknuth(m, n);
return 0;
}

只要m <= n，选出的整数就恰好为m个：不会选择更多的数，因为m变为0时就不能再选择整数了；也不会选择更少的数，因为当m/n为1时一定会选中一个数。
for循环语句确保按序输出所有的整数。每个子集被选中的可能性是相等的。

问题二
上面的算法思想简单，代码很短，所需的空间少。但是算法的运行时间跟n成正比，因此，提出其他解决方案。
方案一：
在一个初始化为空的集合里面插入随机整数，直到个数足够。
这里采用C++标准模板库，用set表示集合。

void gensets(int m, int n)
{
set<int> S;
set<int>::iterator i;
while (S.size() < m)
{
int t = bigrand() % n;
S.insert(t);
}
for (i = S.begin(); i != S.end(); ++i)
{
cout << *i << " ";
}
cout << endl;
}

该算法对每个元素的决策是一样的，输出是随机的。
C++标准模板库规范每次插入都在O(logm)时间内完成，而遍历集合需要O(m)时间，因此此程序的时间复杂度为O(mlogm)（当m相对于n比较小时）。但是，该程序的空间开销比较大。

方案二：
生成随机整数的有序子集的另一种方法是把包含整数0~n-1的数组顺序打乱，然后把前m个元素排序输出。打乱n个元素可以采用如下方式。

for(int i = 0; i < n; i++）
{
swap(i, randint(i, n - 1));
}

这个问题只需要打乱数组的前m个元素即可。

void genshuf(int m, int n)
{
int i, j;
int *x = new int[n];
for (i = 0; i < n; i++)
{
x[i] = i;
}
for (i = 0; i < m; i++)
{
j = randint(i, n-1);
int t = x[i];
x[i] = x[j];
x[j] = t;
}
//排序
sort(x, x+m);
for (i = 0; i < m; i++)
{
cout << x[i] << " ";
}
cout << endl;
}

该算法需要n个元素的内存空间和O(n+mlogm)的时间。该算法可以看作上面算法的变体：x[0....i-1]表示已经选中元素的集合，x[i....n-1]表示未选中的集合。通过显示的表示未选中的元素，就避免了对新元素是否已经选择的测试。

阅读(2625) | 评论(0) | 转发(0) |

上一篇：查找出现M次的最长的字符串

下一篇：C/C++的typedef用法小结

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6