Chinaunix首页 | 论坛 | 博客

-

  • 博客访问: 4127049
  • 博文数量: 172
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1923
  • 用 户 组: 普通用户
  • 注册时间: 2018-12-20 14:57
文章分类
文章存档

2021年(19)

2020年(81)

2019年(68)

2018年(4)

我的朋友

分类: 敏捷开发

2020-11-02 15:20:53


1. 定位成员

定位成员是指在有序集合中通过比较成员来查找位置。

【例 1】 下面任课教师表中,第一列是教师姓名,第二列是学科,后面是课程代码(null 表示空)。任课教师表部分数据如下:

Teachers.txt
Petitti Matematica mif mig vif vig null null
Canales Apesca luc lud mac mad mic mid
Lucero NavegacionI lub luc lud lue mab mac
Bergamaschi TecPesc lua luf maa maf mia mif

    课程表数据如下:

Monday Tuesday Wednesday Thursday Friday
lua maa mia jua via
lub mab mib jub vib
luc mac mic juc vic
lud mad mid jud vid
lue mae mie jue vie
luf maf mif juf vif
lug mag mig jug vig

SPL脚本】


A B
1 =file("Teachers.txt").import() /导入任课老师表
2 =A1.new(#1:professor,~.array().to(3,A1.fno()).select(~):codeArray) /由任课教师表生成新表,其中第一列是教师名,第二列是课程列表。
3 =file("Courses.txt").import@t().conj(~.array()) /导入课程表,然后将所有课程合并在一起
4 =A3.(A2.select(codeArray.pos(A3.~)).(professor)) /循环课程,使用 pos 函数在教师的课程列表中查找当前课程,选出每节课适合的教师。
5 =create(Monday,Tuesday,Wednesday,Thursday,Friday).record(A4.(~.concat@c())) /创建周一到周五的课程表,并依此填入教师。

A5的执行结果如下:

Monday Tuesday Wednesday Thursday Friday
Bergamaschi,Puebla Bergamaschi,Pue… Bergamaschi,Puebla Bergamaschi,Pue… Bergamaschi,Puebla
Lucero,Puebla,Lu… Lucero,Mazza,Pu… Lucero,Puebla,Chi… Lucero,Mazza,Pe… Lucero,Puebla,Vel…
Canales,Lucero,P… Canales,Lucero,M… Canales,Lucero,P… Canales,Lucero,M… Lucero,Velasco,Lu…

 

在集合中定位成员时,成员可能重复出现。例如定位数学 100 分的同学可能有多个,名字叫 Ashley 的员工可能不止一人等等。

【例 2】 根据销售表和客户表,查询 2014 年无销售记录的客户。销售表和客户表的关系如下:

..

【SPL 脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from Sales where   year(OrderDate)=2014") /查询 2014 年的销售记录
3 =A1.query("select * from   Customer") /查询客户表
4 =A3.(ID).sort() /列出客户序号并排序
5 =A2.align(A4.len(), A4.pos@b(CustomerID)) /销售数据按照客户序号进行定位分组,使用 pos 函数查找客户序号。由于客户序号是有序的,这里使用 @b 选项进行二分法查找,可以更快速定位。
6 =A3(A5.pos@a(null)) /使用 pos() 函数的 @a 选项,选出所有没有销售记录(值为 null)的客户信息,否则只会选出一个。

A6的执行结果如下:

ID Name State
ALFKI CMA-CGM Texas
CENTC Nedlloyd Florida

 

2. 定位最大值 / 最小值

定位最大值 / 最小值,是指获取最大值 / 最小值成员(或表达式)所在的序号。

【例 3】 根据股市交易表,统计上证指数收盘价最高的当天,相对前日的涨幅。部分数据如下:

 

Date Open Close Amount
2019/12/31 3036.3858 3050.124 2.27E11
2019/12/30 2998.1689 3040.0239 2.67E11
2019/12/27 3006.8517 3005.0355 2.58E11
2019/12/26 2981.2485 3007.3546 1.96E11
2019/12/25 2980.4276 2981.8805 1.9E11

 

【SPL 脚本】


A B
1 =file("000001.csv").import@ct() /导入数据文件
2 =A1.sort(Date) /按日期排序
3 =A2.pmax(Close) /使用函数 A.pmax(),获取收盘价最大值的成员序号。
4 =A2.calc(A3,Close/Close[-1]-1) /使用当天收盘价和前日收盘价计算涨幅

A4的执行结果如下:

Member
0.010276967857506536

    同样可以使用函数 A.pmin() 来取最小值的成员序号:


A B
3 =A3.pmin(Close) /使用函数 A.pmin(),获取收盘价最小值的成员序号。

最大值所在记录不一定是唯一的,如果想返回所有记录的序号,可以使用函数 A.pmax() 的选项 @a :


A B
3 =A2.pmax@a(Close) /使用函数 A.pmin() 的 @a 选项,取出所有股市最高点记录的序号

如果希望从后向前定位,可以使用函数 A.pmax() 的选项 @z :


A B
3 =A2.pmax@z(Close) /使用函数 A.pmax() 的 @z 选项,从后向前取出股市最高点记录的序号

 

3. 根据条件定位

根据条件定位,是指对有序集合的成员按指定条件进行计算,返回结果为 "true" 的成员序号。例如在员工表中查找年龄大于 50 岁的员工序号,在成绩表中查找数学分数高于 90 分的成绩序号等等。

【例 4】 根据股市交易表,统计收盘价涨幅超过 3% 的交易日,相对前日的交易量涨幅。部分数据如下:

Date Open Close Amount
2019/12/31 3036.3858 3050.124 2.27E11
2019/12/30 2998.1689 3040.0239 2.67E11
2019/12/27 3006.8517 3005.0355 2.58E11
2019/12/26 2981.2485 3007.3546 1.96E11
2019/12/25 2980.4276 2981.8805 1.9E11

SPL脚本】


A B
1 =file("000001.csv").import@ct() /导入数据文件
2 =A1.select(year(Date)==2019).sort(Date) /选出 2019 年的股市记录并按日期排序
3 =A2.pselect@a(Close/Close[-1]>1.03) /使用函数 A.pselect () 取出股市收盘价涨幅超过 3% 的记录序号,@a 选项会返回所有满足条件的成员序号。
4 =A3.new(A2(~).Date:Date,   A2(~).Amount/A2(~-1).Amount:'Amount increase') /循环用每天交易量和前日交易量计算涨幅

A3的执行结果如下:

Member
161
187
211

A4的执行结果如下:

Date Amount   increase
2019/02/25 1.758490566037736
2019/03/29 1.3344827586206895
2019/05/10 1.3908629441624365

我们可以看到,收盘价涨幅超过 3% 的这三天,交易量较前日大幅提升。

 

4. 区间定位

前面介绍了根据成员或者表达式来定位,有时候我们还需要通过区间定位,从而进行分组汇总等计算。例如年龄集合 [0,18,35,60] 分别代表少年、青年、中年和老年,查找年龄 20 在集合中的区段序号,结果是 2,也就是青年;工资集合定义为[0,8000,15000,30000],查找工资 25000 在集合中的区段序号,结果是 3。

【例 5】 根据员工薪资表,统计 8000 以下、8000~12000 和 12000 以上每个薪资分段的员工总数。部分数据如下:

 

ID NAME BIRTHDAY SALARY
1 Rebecca 1974-11-20 7000
2 Ashley 1980-07-19 11000
3 Rachel 1970-12-17 9000
4 Emily 1985-03-07 7000
5 Ashley 1975-05-13 16000

SPL脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from   EMPLOYEE") /查询员工表
3 [0,8000,12000] /定义工资区间
4 =A2.align@a(A3.len(),A3.pseg(SALARY)) /使用 A.pseg(y) 函数获取工资所在区间序号
5 =A4.new(A3 (#):SALARY,~.count():COUNT) /统计每组的人数

A5的执行结果如下:

SALARY COUNT
0 308
8000 153
12000 39

 

有时候集合的区段值需要经过计算后再计算成员在集合中的区段序号。

【例 6】 根据员工薪资表,统计入职 10 年以下、10~20 年和 20 年以上每组的员工平均工资。部分数据如下:

 

ID NAME HIREDATE SALARY
1 Rebecca 2005-03-11 7000
2 Ashley 2008-03-16 11000
3 Rachel 2010-12-01 9000
4 Emily 2006-08-15 7000
5 Ashley 2004-07-30 16000

 

【SPL 脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from   EMPLOYEE") /查询员工表
3 [0,10,20] /定义入职年限区间
4 =A2.align@a(A3.len(),A3.pseg(year(now())-~,year(HIREDATE))) /使用函数 A.pseg(x,y) 获取入职时间所在区间
5 =A4.new(A3(#):EntryYears,~.avg(SALARY):AvgSalary) /统计每组的平均工资

A5的执行结果如下:

EntryYears AvgSalary
0 6807.69
10 7417.78
20 7324.32

 

5. 获取排序后在原集合的位置

将有序集合的成员,通过一定的方法按关键字顺序排列的过程叫做排序。其目的是将一组“无序”的记录集合调整为“有序”的记录集合。有时候有序集合的原序是有意义的,例如查询出来的订单表是按时间顺序生成的,现在要按照销售额进行排序。但是时间顺序在后续的计算中还需要使用,希望按新条件排序的同时可以保留原序。

【例 7】 根据员工表,求年龄最大的三名员工的入职顺序。部分数据如下:

 

ID NAME BIRTHDAY HIREDATE
1 Rebecca 1974-11-20 2005-03-11
2 Ashley 1980-07-19 2008-03-16
3 Rachel 1970-12-17 2010-12-01
4 Emily 1985-03-07 2006-08-15
5 Ashley 1975-05-13 2004-07-30

 

【SPL 脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from EMPLOYEE   order by HIREDATE") /使用函数 A.psort() 查询员工表并按入职时间排序
3 =A2.psort(BIRTHDAY) /获取员工生日排序后在排序前的序号
4 =A2(A3.to(3).sort()) /在员工表中按生日前三的员工序号选出

A4的执行结果如下:

ID NAME BIRTHDAY HIREDATE
296 Olivia 1968-11-05 2006-11-01
440 Nicholas 1968-11-24 2008-07-01
444 Alexis 1968-11-12 2010-12-01

 

6. 集合的整体定位

前面介绍了单个成员的定位运算,下面要介绍集合的整体定位。例如在集合 [a,b,c,d,e] 中定位集合 [c,d,a],返回结果为[3,4,1]。再比如在集合[a,b,c,d,e] 中定位集合[c,f],虽然 c 存在,但是 f 不存在,所以返回结果为空。

【例 8】 根据发帖记录表,按标签分组并统计各个标签出现频数。部分数据如下:

 

ID TITLE Author Label
1 Easy analysis of Excel 2 Excel,ETL,Import,Export
2 Early commute: Easy to pivot excel 3 Excel,Pivot,Python
3 Initial experience of SPL 1 Basics,Introduction
4 Talking about set and reference 4 Set,Reference,Dispersed,SQL
5 Early commute: Better weapon than Python 4 Python,Contrast,Install

 

【SPL 脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from   PostRecord") /查询发帖记录表
3 =A2.conj(Label.split(",")).id() /将标签按逗号分隔后合并到一起,获得没有重复值的全部标签。
4 =A2.align@ar(A3.len(),A3.pos(Label.split(","))) /使用函数 A.pos()整体定位帖子的标签在全部标签中的位置。再使用 align() 函数的 @r 选项,按照定位分组。
5 =A4.new(A3(#):Label,~.count():Count).sort@z(Count) /统计每个标签的帖子数量,按降序排列

A5的执行结果如下:

Label Count
SPL 7
SQL 6
Basics 5

 

7. 判断是否集合成员

有时候我们并不关心集合 B 的成员在集合 A 中的序号,只需要判断集合 A 中是否包含了集合 B 的所有成员。

【例 9】 根据各国官方语言表,查询官方语言同时包括中文和英文的国家。部分数据如下:

 

Country Language
China Chinese
UK English
Singapore English
Singapore Malay
Singapore Chinese
Singapore Tamil
Malaysia Malay

【SPL 脚本】


A B
1 =connect("db") /连接数据库
2 =A1.query("select * from Language") /查询官方语言表
3 =A2.group(Country) /按国家分组
4 =A3.select(~.(Language).contain("Chinese","English")) /使用 A.contain() 函数判断当前国家的语言是否包含中文和英文。
5 =A4.(Country) /取出国家列表

A5的执行结果如下:

Member
Singapore

 

8. 定位主键值

当需要定位的字段是主键时,可以特殊处理。

【例 10】 在相互关联的产品表和类别表中,查询产品类别未出现在类别表中的有哪些。产品表和类别表的关系如下:

..

【SPL 脚本】

阅读(952) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~