协助报表开发之 MongoDB join-穿秋裤没-ChinaUnix博客

首页　| 　博文目录　| 　关于我

穿秋裤没

博客访问： 4165751
博文数量： 172
博客积分： 0
博客等级：民兵
技术积分： 1923
用户组：普通用户
注册时间： 2018-12-20 14:57

文章分类

全部博文（172）

集算器&润乾报表（166）
未分配的博文（6）

文章存档

2021年（19）

2020年（81）

2019年（68）

2018年（4）

我的朋友

相关博文

协助报表开发之 MongoDB join

分类：敏捷开发

2020-04-08 09:57:31

处理多样性数据源是报表开发中的常见问题，而常见的 JasperReport 等报表工具本身却难以应付，比如展现两个 MongoDB 集合连接的结果。虽然 JasperReport 有 virtual data source 或 table join，但这些功能只在商业版或高端版本出现，在免费版中实现的难度很大。而且这些功能只支持两个数据源的连接，要实现多连接则麻烦得多。另外，这些功能只能基于图形化界面操作，对连接后的数据无法进行类似 SQL 的结构化计算。

集算器 SPL 语言具有面向结构化处理的强计算引擎，支持多样性数据源，集成简单，可以协助不同报表工具方便地实现此类需求，下面用例子说明。

Sales和 emp 是 MongoDB 中的两个集合，sales 中的字段 SellerId 逻辑上相当于外键，指向 emp 的 EId 字段，现在需要按时间段查询出 sales 中的订单，并和 emp 进行左连接，最后在报表中展现。部分源数据如下：

集合sales

OrderID	Client	SellerId	Amount	OrderDate
26	TAS	1	2142.4	2009-08-05
27	HP	13	538.6	2010-08-06
28	DY	11	307.2	2010-08-07
29	WVF	19	420	2010-08-08
30	UFS	18	1200.8	2009-08-09
31	SWFR	15	1488.8	2010-08-12
32	JFS	3	468	2009-08-13

集合emp

EId	State	Dept	Name	Gender	Salary	Birthday
2	New York	Finance	Ashley	F	11001	1980-07-19
3	New Mexico	Sales	Rachel	F	9000	1970-12-17
4	Texas	HR	Emily	F	7000	1985-03-07
5	Texas	R&D	Ashley	F	16000	1975-05-13
6	California	Sales	Matthew	M	11000	1984-07-07
7	Illinois	Sales	Alexis	F	9000	1972-08-16

使用集算器SPL的代码如下：

	A
1	=mongo_open("mongodb://localhost:27017/test?user=root&password=sa")
2	=mongo_shell(A1,"sales.find({$and:[{OrderDate:{$gte:'"+string(begin)+"'}},{ OrderDate:{ $lte:'"+string(end)+"'}} ] },{_id:0} )").fetch()
3	=mongo_shell(A1,"emp.find(,,"{_id:0}").fetch()
4	>mongo_close(A1)
5	=join@1(A2:sales,SellerId;A3:emp,EId)
6	=A5.new(sales.OrderID:OrderID,sales.Client:Client,sales.Amount:Amount,sales.OrderDate:OrderDate,emp.Name:Name,emp.Dept:Dept,emp.Gender:Gender)
7	result A6

A1: 连接 MongoDB，连接字格式为 mongo://ip:port/db?arg=value&…

A2: 使用 find 函数从集合 sales 中查询出某时间段的记录，取出 _id 之外的所有字段。其中查询条件中的 begin 和 end 是来自报表的外部参数，分别表示 OrderDate 的起始时间和终止时间。

函数 find 返回的是游标，并不会把数据直接读入内存，因此能够很好地支持大数据量。类似的，还可以用 skip、sort、conj 等函数继续操作游标，直到遇到函数 fetch、groups，或语句 for 时才会真正取数。本例直接用函数 fetch() 将数据读入内存，假如时间段是 2009-01-01 到 2009-12-31，则 A2 的计算结果如下：

a_100png

A3: 使用 find 函数从集合 carInfo 中取数，形成游标。过滤条件是空，取出 _id 之外的所有字段，结果如下：

a_101png

A4: 关闭 MongoDB。

A5: 将 A2 和 A3 进行左连接，连接字段是 A2 的 SellerId 和 A3 的 Eld，直观起见，连接后的两部分数据分别命名为 sales 和 emp。函数 join 执行连接计算，选项 @1 表示左连接，计算结果如下图左侧：

a_102png

可以看到，由于是左连接，因此 sales 中部分 SellerId 无法在 emp 中找到对应的记录。如果想进行全连接，可以使用选项 @f，无选项则表示内连接。

A6: 执行连接操作，从连接的结果中取出需要的字段，并用函数 new 组成二维表。比如sales.OrderID:OrderID表示从 A5 取出 sales.OrderID 字段，重命名为 OrderID（报表工具无法识别 sales.OrderID 这样的字段名）。计算结果如下：

a_103png

到此为止，报表需要的数据就全部计算出来了。
A7: 将 A6 中的二维表返回报表工具。
集算器对外提供 JDBC 接口，报表工具会将集算器识别为普通数据库，集成方案请参考相关文档。

接下来以 JasperReport 为例设计报表，表样如下：

a_104png

需要定义两个报表参数 Pbegin、Pend，分别对应集算器中的两个参数。预览后可以看到报表结果：

a_105png

报表调用集算器的方法和调用存储过程一样，此例中可以将本脚本保存为 mongodbJoin.dfx，在 JasperReport 的 SQL 设计器中可以用mongodbJoin $P{pbegin},$P{pend}来调用。

简言之，SPL 从 MongoDB 获取多个集合数据后，将它们通过 join 函数进行连接计算，再通过函数 new 按需求将数据生成序表，供其它的报表工具展示。通过 SPL 对多个集合进行 join 关联，大大简化了对 MongoDB 数据的操作，有利于与其它报表工具的方便集成。

阅读(1381) | 评论(0) | 转发(0) |

上一篇：SPL 的集合思维

下一篇：协助报表开发之 MongoDB join mysql

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6