性能优化技巧：前半有序时的排序

首页　| 　博文目录　| 　关于我

穿秋裤没

博客访问： 4158370
博文数量： 172
博客积分： 0
博客等级：民兵
技术积分： 1923
用户组：普通用户
注册时间： 2018-12-20 14:57

文章分类

全部博文（172）

集算器&润乾报表（166）
未分配的博文（6）

文章存档

2021年（19）

2020年（81）

2020年12月（9）
2020年11月（20）
2020年10月（5）
2020年09月（3）
2020年08月（7）
2020年07月（7）
2020年06月（7）
2020年05月（8）
2020年04月（5）
2020年03月（3）
2020年02月（7）

2019年（68）

2018年（4）

我的朋友

最近访客

推荐博文

性能优化技巧：前半有序时的排序

发布时间：2020-12-02 19:04:30

一、问题背景与适用场景在对数据集进行排序运算时，有时会遇到这样一种场景：数据集T已经按字段a有序，而字段b无序，现在我们要将T按a、b排序，我们称之为前半有序(a有序)的排序。此时我们能想到一种优化的排序方法：从T中先取出a值相同的一组记录，再这一组内对b排序。然后再依次.........【阅读全文】

阅读(17707) | 评论(0) | 转发(0)

性能优化技巧：后半有序分组

发布时间：2020-12-02 19:05:30

一、问题背景与适用场景什么是后半有序？如果数据集T已经按字段a、b有序，现在我们要将T按b排序或分组时，因为在a值相同的段内，b都是有序的，这种要排序或分组的字段在分段内有序的情况就称为后半有序。我们知道，快速排序算法的原理就是一种递归的分段排序再归并的算法，对.........【阅读全文】

阅读(18887) | 评论(0) | 转发(0)

性能优化技巧：有序分组

发布时间：2020-12-25 14:21:23

一、问题背景与适用场景通常分组计算都采用hash方案，即先计算分组字段的hash值，hash值相同的记录被分拣到一个小集合里，然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度(比较次数)，取决于hash函数的重码率。在hash空间比较小时，重码率就高，比较次数就会多，.........【阅读全文】

阅读(1329) | 评论(0) | 转发(0)

SPL 中调用 Python 程序

发布时间：2020-12-23 09:56:21

集算器是强大的数据计算引擎，但目前对于机器学习算法的提供还不够丰富。而 python 中有许多此类算法。借助 YM 外部库，就可以让集算器 SPL 调用 python 写的代码，从而弥补这一不足。下面具体说明： 1．SPL 与 python 环境配置 2．python 模块开发规.........【阅读全文】

阅读(1179) | 评论(0) | 转发(0)

集算器 SPL 抓取网页数据

发布时间：2020-12-21 10:07:15

网站上的数据源是我们进行统计分析的重要信息源。当我们浏览网页，看到自己感兴趣数据内容时，希望能够快速抓取网页上的数据，这对于数据分析相关工作来说极其重要，也是必备的技能之一。但是网络数据抓取大多需要复杂的编程知识，操作也比较繁琐。这里介绍如何用集算器 S.........【阅读全文】

阅读(1242) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6