SPL 分组优化技巧

1. 常规分组

当分组聚合的结果集不大时，可以使用groups。例如有学生成绩表存储在集文件中，表结构如下：

Scores

class

studentID

subject

score

……

现在计算每个学生的总分数：

	A
1	=file(“scores.btx”).import@b()
2	=A1.groups(studentID; sum(score):TotalScore)

A1：成绩表的数据装入内存。

A2：按照studentID字段分组，计算总分。

如果成绩表数据太大，无法装入内存，则可以用游标方式：

	A
1	=file(“scores.btx”).cursor@b()
2	=A1.groups(studentID; sum(score):TotalScore)

A1：得到成绩表的游标。

A2：按照studentID字段分组，计算总分。

当成绩表记录很多，分组计算的结果集很大时，就要使用groupx：

	A
1	=file(“scores.btx”).cursor@b()
2	=A1.groupx(studentID; sum(score):TotalScore;10000)

A1：得到成绩表的游标。

A2：按照studentID字段分组，计算总分。

groupx的最后一个参数是缓冲区行数，也就是内存里能够一次处理的记录条数，这里指定为10000，实际使用时要根据自己的情况进行调整。

2. 有序分组

2.1. 前半有序

当数据对分组字段有序时，可以使用groups@o。如上例中，当成绩表对studentID字段有序时，就可以加上选项o：

	A
1	=file(“scores.btx”).import@b()
2	=A1.groups@o(studentID; sum(score):TotalScore)

如果成绩表太大，无法装入内存，可以使用游标：

	A
1	=file(“scores.btx”).cursor@b()
2	=A1.groups@o(studentID; sum(score):TotalScore)

同样，如果有序分组的结果集很大，就不能用groups，这时要使用group：

	A
1	=file(“scores.btx”).cursor@b()
2	=A1.group(studentID; sum(score):TotalScore)

group的返回是游标，这一点跟groups不一样。

2.2. 后半有序

“后半”有序是指：要分组的表 T 已经对字段a,b有序，现在我们要将表T按字段b进行分组。例如有保存销售记录的集文件sale.btx，表结构如下：

Sales

date

employeeID

amount

……

销售表对字段date,employeeID有序，现在要计算每个员工的销售总额，对employeeID字段做分组，这时常规分组会计算hash，但这种后半有序的情况可以使用groups@h，看一下实现：

	A
1	=file(“sale.btx”).import@b()
2	=A1.groups@h(employeeID; sum(amount):TotalAmount)

如果销售表太大，无法装入内存，可以使用游标：

	A
1	=file(“sale.btx”).cursor@b()
2	=A1.groups@h(employeeID; sum(amount):TotalAmount)

3. 序号分组

当分组表达式的结果是序号的时候，可以使用groups@n。仍然使用上例的销售表，现在要计算统计每个月的销售额，实现是这样的：

	A
1	=file(“sale.btx”).cursor@b()
2	=A1.groups@n0(month(date):MONTH;sum(amount): TotalAmount)

A1：得到销售表的游标。

A2：把date字段转换为月份，计算每个月的销售总额；如果存在date字段是null的情况，则要加上选项@0。

使用@n之后，会依据序号去分组，而不用再计算HASH，所以要比不带@n时快。

使用3亿条数据测试，本案例实际测试结果：

耗时（秒）
有 @n	没有 @n
39	49

4. 过滤拆分

过滤拆分是指根据条件分组，满足条件和不满足条件的分成两个集。使用select可以做到这种拆分，但是要遍历两次，即一次select(条件true)，和一次select(条件false)。

而使用group和align只需要遍历一次。以上面成绩表为例，现在要把成绩及格的和不及格的分成两组，看一下group的实现：

	A
1	=file(“scores.btx”).import@b()
2	=A1.group(score>=60)

需要注意的是，使用group过滤拆分的结果不一定是两个集，有可能结果只有一个集，如本例中，有可能出现成绩都大于60的情况。这时候需要判断一下结果集的个数，或者使用align，因为align的结果肯定是两个集，没有符合条件的记录，也会产生一个空集。来看一下align的实现：

	A
1	=file(“scores.btx”).import@b()
2	=A1.align@a([true,false],score>=60)

如果想在过滤拆分中把不满足的写进文件，可以使用select(x;file)，看一下实现：

	A
1	=file(“scores.btx”).cursor@b()
2	=A1.select (score>=60;file(“Fail.btx”))
3	=A2.fetch()

执行完成后，A3里是成绩及格的，不及格的会保存到集文件Fail.btx。

如果要拆分为多个集，可以使用groupn。例如要把成绩分为优秀、良好、及格和不及格这些集合，可以这样实现：

	A
1	=file(“scores.btx”).cursor@b()
2	=[file(“Excellent.btx”), file(“Good.btx”), file(“Pass.btx”), file(“Fail.btx”)]
3	=A1.groupn(if(score>=90:1, score>=80:2, score>=60:3,4);A2)
4	=A3.fetch()

5. 组内TopN

top也可以用于group中，例如计算每个部门里薪水的最大值：

	A
1	=file(“employee.btx”).cursor@b()
2	=A1.groups(dept;top(-1,salary):MaxSalary)

A1：得到员工表的游标。

A2：按照dept字段分组，组内再求最高薪水值，命名为topSalary。

A2执行结果的MaxSalary字段是数值，如果想查询薪水最高的员工的信息，可以写成这样：

	A
1	=file(“employee.btx”).cursor@b()
2	=A1.groups(dept;top(-1;salary):MaxSalary)

top不仅可以返回最大值，还可以得到前n个最靠前的值，这时把1写成n即可。例如计算每个部门里薪水排前三名的员工的信息：

	A
1	=file(“employee.btx”).cursor@b()
2	=A1.groups(dept;top(-3;salary):topSalary)

6. 并行

使用groups进行分组计算时，还可以采取并行方式进一步提高性能，这时要加上选项@m。

如上面例中，计算每个员工的销售总额，看一下并行方式的实现：

	A
1	=file(“sale.btx”).import@m()
2	=A1.groups@m(employeeID; sum(amount):TotalAmount)

如果数据太大，无法装入内存，可以使用多路游标：

	A
1	=file(“sale.btx”).cursor@mb()
2	=A1.groups@m(employeeID; sum(amount):TotalAmount)

原创文章，作者：kepupublish，如若转载，请注明出处：https://blog.ytso.com/198078.html

SPL 分组优化技巧

1. 常规分组

2. 有序分组

2.1. 前半有序

2.2. 后半有序

3. 序号分组

4. 过滤拆分

5. 组内TopN

6. 并行

相关推荐

发表回复