首页　| 　博文目录　| 　关于我

穿秋裤没

博客访问： 4165654
博文数量： 172
博客积分： 0
博客等级：民兵
技术积分： 1923
用户组：普通用户
注册时间： 2018-12-20 14:57

文章分类

全部博文（172）

集算器&润乾报表（166）
未分配的博文（6）

文章存档

2021年（19）

2020年（81）

2019年（68）

2018年（4）

我的朋友

一、数据准备和环境

用SPL脚本生成数据文件，数据共两列，第一列id是小于20亿的随机整数，第二列amount是不大于1千万的随机实数。数据记录为80亿行，生成的原始文本文件大小为169G。利用数据库提供的数据导入工具将此文件数据导入到Oracle的数据表topn中，同时也用此文件数据生成SPL组表文件topn.ctx。

在一台Intel服务器上完成测试，2个Intel3014 CPU，主频1.7G，共12核，内存64G。数据库表数据及SPL组表文件均存储在同一块SSD硬盘上。

我们刻意将数据量设计得比内存大，这样如果进行排序则会有内外存交换动作，性能下降会非常大，容易被观测到。

二、常规TopN

取出topn表中amount最大的前100条。

1. Oracle测试

查询用的SQL语句是：

select * from (

select /*+ parallel(4) */

* from topn order by amount desc

) where rownum<=100;

说明：/*+ parallel(4) */ 是Oracle的并行查询语法，其中4是并行数。

2. SPL测试

编写SPL脚本执行测试：

	A
1	=now()	/记录时间
2	=4	/并行数
3	=file("/home/topn/topn.ctx").create()	/产生组表对象
4	=A3.cursor@m(id,amount;;A2).groups(;top(100;-amount))
5	=interval@s(A1,now())	/算出执行时间

与SQL不同，SPL把TopN看成是一种聚合运算，和sum/count这类运算一样，不同的只是TopN将返回一个集合，而sum/count返回的是单值。但它们的计算逻辑是一样的，都只需要对原数据集遍历一次，并且不涉及全排序。

A4格中的groups(;top(100;-amount)就是对全集做TopN聚合运算，计算出前100名。

3. 结论与分析

常规TopN测试时间见下表：

测试结果（时间单位：秒）

并行数	1	2	4	8	12
Oracle	1922	952	526	308	256
SPL组表	2641	1565	729	371	321

测试表明，Oracle比SPL还要更快一点，而SPL没有做全排序，这说明Oracle在这种情况会自动优化。

Oracle比SPL快也可以理解，因为Oracle是用C++开发的，而目前版本的SPL是用java开发的。C++比java计算更快是正常的，而且这次测试读取了全部的两列数据，且数据随机无序，很难压缩，所以组表的列式存储也没有优势。

三、增加复杂度

对于最基本的TopN，Oracle很聪明，即使写成了子查询也会优化。我们下面增加问题的难度，改成分组后在每一组中做TopN。

具体运算设计为：按照id字段最后一位数字值进行分组，然后查询出每组中amount最大的前100条记录。id是个整数，这样也就只有10个分组，分组本身的计算量并不大，不过要对分组数据做TopN，整体计算复杂度略高了一些。如果没有全排序，总体运算时间应当比刚才的情况多，但还在同一数量级范围内。

1. Oracle测试

查询用的SQL语句是：

select * from (

select /*+ parallel(2) */

mod(id,10) as gid,amount,

row_number()over (partition by mod(id,10) order by amount desc) rn

from topn

) where rn <= 100;

SQL无法直接写出分组后取TopN的运算，只能借助窗口函数计算序号，语法中还是有排序（order by）的字样。

2. SPL组表测试

编写SPL脚本执行测试：

	A
1	=now()	/记录时间
2	=4	/并行数
3	=file("/home/topn/topn.ctx").create()	/产生组表对象
4	=A3.cursor@m(id,amount;;A2).groups@u(id%10:gid;top(100;-amount))
5	=interval@s(A1,now())	/算出执行时间

因为SPL把TopN看成是聚合计算，所以可以很容易放在分组汇总中，和全量聚合的写法几乎是一样的。

3. 结论与分析

测试结果（时间单位：秒）

并行数	1	2	4	8	12
Oracle	41649	19602	9359	4627	3211
SPL组表	4380	2127	1007	465	349

增加难度后，Oracle比之前的简单情况慢了10倍还多，而且比SPL做同样运算也慢了近10倍。这说明Oracle在这种情况下很可能做了排序动作，情况复杂化之后，Oracle的优化引擎不起作用了。

而SPL在这两种情况下的运算时间差别不到2倍，基本上在同一数量级，符合我们之前的分析，算法的优势得到了充分的体现。

阅读(1350) | 评论(0) | 转发(0) |

上一篇：性能优化技巧：遍历复用提速多次分组

下一篇：解决 Birt 等报表工具制作报表的几个难题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

一、 数据准备和环境

二、 常规TopN

1. Oracle测试

2. SPL测试

3. 结论与分析

三、 增加复杂度

1. Oracle测试

2. SPL组表测试

3. 结论与分析

一、数据准备和环境

二、常规TopN

三、增加复杂度