红包大乱战（海量数据处理）-enenshiwo-ChinaUnix博客

韩轶明

首页　| 　博文目录　| 　关于我

enenshiwo

博客访问： 274134
博文数量： 84
博客积分： 0
博客等级：民兵
技术积分： 927
用户组：普通用户
注册时间： 2015-03-06 23:00

个人简介

growing

文章分类

全部博文（84）

网络编程（3）
Python（4）
STL（1）
数据库（4）
设计模式（2）
html（3）
Linux（20）
数据结构与算法（28）
C/C++（12）
git（4）
空想家（3）
未分配的博文（0）

文章存档

2017年（6）

2016年（61）

2015年（17）

我的朋友

相关博文

红包大乱战（海量数据处理）

分类： C/C++

2016-04-12 19:46:57

问题：A公司的支付软件某宝和T公司某信红包大乱战。春节后高峰以后，公司Leader要求后台的攻城狮对后台的海量数据进行分析。先要求分析出各地区发红包金额最多的前100用户。现在知道人数最多的s地区大约有1000w用户。要求写一个算法实现。

问题分析：我们知道，对1000W个数据很难具体用一个排序来全部排出来所有元素，然后找出最大的100个。
所以想到最适合处理海量数据的堆来实现，现在用最大堆还是最小堆？我们会理所当然的想，要找最大的100个应该是用大堆。不过，堆是一个近似有序的序列，最大堆的特点是顶端元素为最大数，但不能保证最小元素会是哪个叶子结点，从而无法比较到底有没有比数列元素中最小的大的元素存在。所以我们要用最小堆。

具体实现方法如下：

// 创建红包数据
void CreateRedPacket(vector<int>& moneys)
{
srand(time(0));
moneys.reserve(N);
for (int i = 0; i < N; ++i)
{
moneys.push_back(rand()%10000);
}
for(int j = N - K; j < N; ++j)
{
moneys[j] = rand() % N;
}
}
void AdjustDown(int* a, size_t size, int root)
{
int child = root*2+1;
while (child < size)
{
if (child+1 <size && a[child+1] < a[child])
{
++child;
}
if (a[child] < a[root])
{
swap(a[child], a[root]);
root = child;
child = 2*root+1;
}
else
{
break;
}
}
}
void GetTopK(vector<int>& moneys)
{
int arrays[K] = {};
for (size_t i = 0; i < K; ++i)
{
arrays[i] = moneys[i];
}
// 建小堆
for(int i = (K-2)/2; i >= 0; --i)
{
AdjustDown(arrays, K, i);
}
for (size_t i = K; i < N; ++i)
{
if (arrays[0] < moneys[i])
{
arrays[0] = moneys[i];
AdjustDown(arrays, K, 0);
}
}
for (int i = 0; i < K; ++i)
{
cout<<arrays[i]<<" ";
}
cout<<endl;
}
void TestTopK()
{
vector<int> moneys;
CreateRedPacket(moneys);
GetTopK(moneys);
}

阅读(1184) | 评论(0) | 转发(0) |

上一篇：解决github没有contribution

下一篇：二叉搜索树（BinarySearchTree）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6