首页　| 　博文目录　| 　关于我

博客访问： 4165479
博文数量： 172
博客积分： 0
博客等级：民兵
技术积分： 1923
用户组：普通用户
注册时间： 2018-12-20 14:57

文章分类

全部博文（172）

集算器&润乾报表（166）
未分配的博文（6）

文章存档

2021年（19）

2020年（81）

2019年（68）

2018年（4）

我的朋友

一、数据准备和环境

SPL脚本生成数据文件，数据共两列，第一列id是小于20亿的随机整数，第二列amount是不大于1千万的随机实数。数据记录为80亿行，生成的原始文本文件大小为169G。利用数据库提供的数据导入工具将此文件数据导入到Oracle的数据表topn中，同时也用此文件数据生成SPL组表文件topn.ctx。

在一台Intel服务器上完成测试，2个Intel3014 CPU，主频1.7G，共12核，内存64G。数据库表数据及SPL组表文件均存储在同一块SSD硬盘上。

这里刻意把数据量造得比内存大，以保证操作系统不可能把这些数据都缓存进内存，实际运算时一定会读取硬盘。

二、 Oracle测试

测试分成三种情况：单分组单倍计算量、单分组双倍计算量、双分组双倍计算量。

1. 单分组单倍计算量

select /*+ parallel(12) */ mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100)

2. 单分组双倍计算量

select /*+ parallel(12) */ mod(id,100)+floor(id/20000000) Aid, max(amount) Amax, min(amount) Amin from topn group by mod(id,100)+floor(id/20000000);

计算式多了一倍，相当于计算量大了一倍。

3. 双分组双倍计算量

select /*+ parallel(12) */ * from (select mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100) ) A
join
( select floor(id/20000000) Bid,min(amount) Bmin from topn group by floor(id/20000000) ) B
on A.Aid=B.Bid;

这里的计算量大体与2相同，但有两个分组，我们将观察数据库是否会进行两次遍历。最后的JOIN运算只涉及100行数据，时间可以忽略不计。

三、 SPL测试

我们把Oracle做的测试用SPL再做一遍。

1. 单分组单倍计算量

编写SPL脚本执行测试：

	A
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	=A3.groups@u(id%100:Aid;max(amount):Amax)
5	=interval@s(A1,now())

2. 单分组双倍计算量

编写SPL脚本执行测试：

	A
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	=A3.groups@u(id%100+id\20000000:Aid;max(amount):Amax,min(amount):Amin)
5	=interval@s(A1,now())

3. 双分组双倍计算量

编写SPL脚本执行测试：

	A	B
1	=now()
2	=12
3	=file("/home/topn/topn.ctx").create().cursor@m(id,amount;;A2)
4	cursor A3	=A4.groups@u(id%100:Aid;max(amount):Amax)
5	cursor	=A5.groups@u(id\20000000:Bid;max(amount):Bmax)
6	=A4.join@i(Aid,A5:Bid,Bid,Bmax)
7	=interval@s(A1,now())

这里采用了SPL特有的遍历复用语法，在A3定义了游标，A4/B4和A5/B5中定义了两套针对这个游标的计算，表示会在一次游标遍历过程同时计算这两个结果。

四、分析与结论

三种情况的测试用时如下表：

测试结果（时间单位：秒）

	单分组单倍计算量	单分组双倍计算量	双分组双倍计算量
Oracle	458	692	878
SPL	336	350	376

从Oracle的测试结果上看，双分组双倍计算量比单分组双倍计算量慢了近200秒，这不是一个可以忽略的时间了，因为两者的计算量几乎相同，这多出来的时间估计就是多做一次遍历的时间了。这说明数据库不会自动做遍历复用的优化，在双分组时会将数据表遍历两次，结果多做一次分组几乎会多出一倍的时间。

而SPL采用了遍历复用的机制，三个测试的计算时间相差很小，多做一次分组并不会多一次遍历，只是多了一些复用控制的逻辑，不会变慢多少。

说明一下，准备数据时把Oracle的amount字段类型设置成decimal了，所以计算速度比较慢；而SPL组表中用的是double类型，所以要快得多。但这个测试不是对比Oracle和SPL的计算性能，这些不同并不影响上面的结论。

阅读(1323) | 评论(0) | 转发(0) |

上一篇：并行取数提升数据读取性能

下一篇：性能优化技巧：TopN

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

一、 数据准备和环境

二、 Oracle测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

三、 SPL测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

四、 分析与结论

一、数据准备和环境

四、分析与结论