按类别查询搜索结果
关于关键词 的检测结果,共 64
咽省宏kym | 2022-06-07 10:27:11 | 阅读(370) | 评论(0)
但与之矛盾的是,在过去项目制开发是几个人组成一个团队,在前期确保需求明确以后,交由开发工程师、测试工程师、交付工程师一步步去落实。在开发前期,可能需要1/3甚至更多的时间花在需求分析上,强调的是项目交付过程中的不变。所以,如果企业数字化转型是以项目制的模式或是做一个数字化转型的项目,基本上都很难成功...【阅读全文】
力软框架 | 2022-06-06 15:11:28 | 阅读(500) | 评论(0)
但与之矛盾的是,在过去项目制开发是几个人组成一个团队,在前期确保需求明确以后,交由开发工程师、测试工程师、交付工程师一步步去落实。在开发前期,可能需要1/3甚至更多的时间花在需求分析上,强调的是项目交付过程中的不变。所以,如果企业数字化转型是以项目制的模式或是做一个数字化转型的项目,基本上都很难成功...【阅读全文】
穿秋裤没 | 2021-01-26 17:46:44 | 阅读(1070) | 评论(0)
一、  问题背景与适用场景在对数据集进行排序运算时,有时会遇到这样一种场景:数据集T已经按字段a有序,而字段b无序,现在我们要将T按a、b排序,我们称之为前半有序(a有序)的排序。此时我们能想到一种优化的排序方法:从T中先取出a值相同的一组记录,再这一组内对b排序。然后再依次取出下一组a值相同...【阅读全文】
穿秋裤没 | 2021-01-26 17:45:56 | 阅读(1180) | 评论(0)
一、  问题背景与适用场景什么是后半有序?如果数据集T已经按字段a、b有序,现在我们要将T按b排序或分组时,因为在a值相同的段内,b都是有序的,这种要排序或分组的字段在分段内有序的情况就称为后半有序。我们知道,快速排序算法的原理就是一种递归的分段排序再归并的算法,对于后半有序这样的已...【阅读全文】
穿秋裤没 | 2021-01-26 17:44:54 | 阅读(1100) | 评论(0)
一、  问题背景与适用场景通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度(比较次数),取决于hash函数的重码率。在hash空间比较小时,重码率就高,比较次数就会多,性能会受较大影响...【阅读全文】
穿秋裤没 | 2021-01-26 16:20:32 | 阅读(970) | 评论(0)
一、  问题背景与适用场景在主子表关联查询中,有时会遇到这样一种情况:按条件过滤后的事实表数据量很小,能够全部装载进内存或仅比内存略大一点;而要关联的维表数据量很大,比内存要大很多。这种时候,如果维表是按键有序存储时,因为事实表涉及的维表记录较少,可以一次性用二分查找方法找出来,而...【阅读全文】
【敏捷开发】 性能优技巧:附表
穿秋裤没 | 2021-01-26 16:16:12 | 阅读(920) | 评论(0)
一、  问题背景与适用场景在《性能优化技巧:有序归并》中我们见证了有序归并算法提升主子表的关联性能,在集算器中,还有进一步提高性能的办法—附表。集算器组表支持主子表保存在同一文件中,先用主表创建组表文件,再在主表上附加上子表,子表必须含有主表的维字段,并通过这个字段进行关联,这样的...【阅读全文】
穿秋裤没 | 2021-01-22 16:44:09 | 阅读(20410) | 评论(0)
一、  问题背景与适用场景SQL中JOIN的性能是个老大难问题,特别是关联表较多时,计算性能会急剧下降。SQL实现JOIN一般是采用HASH分堆的办法,即先计算关联键的HASH值,再将相同HASH值的记录放到一起再做遍历对比。每一个JOIN都要做一轮这样的运算。如果数据量相对于内存并不是很大,可以事先全...【阅读全文】
【敏捷开发】 性能优技巧:TopN
穿秋裤没 | 2021-01-22 16:26:07 | 阅读(1400) | 评论(0)
TopN是常见的运算,用SQL写出来是这样(以Oracle为例):        select * from (select * from T order by x desc) where rownum<=N 这个SQL的运算逻辑从其语句上看,要先做排序(Order by),然后再取出前N条。我们知道,排序是个非常慢的动作,复杂度很高(n*logn),如果涉及数...【阅读全文】
穿秋裤没 | 2021-01-22 16:03:53 | 阅读(850) | 评论(0)
我们知道,大数据运算性能的瓶颈常常是在外存(也就是硬盘)IO上,因为外存访问性能要比内存低一两个数量级。因此,做性能优化时,减少硬盘的访问量有时要比减少CPU计算量更为重要。同一个任务,如果能使用硬盘访问量更少的算法,即使CPU计算量不变甚至略多一点,也会获得更好的性能。分组汇总需要对数据集进行遍历。...【阅读全文】
穿秋裤没 | 2021-01-22 15:56:02 | 阅读(660) | 评论(0)
一、  问题背景与适用场景在《性能优化技巧:有序归并》中我们验证了有序归并算法提高关联性能的效果,那么还有没有进一步提升的空间呢?能不能再减少数据的读取量从而再提速呢?通常主子关联后还会再施加更多运算,比如过滤。有序归并算法将主子表先分别读出再做关联,当其中一个关联表被过滤后剩...【阅读全文】
穿秋裤没 | 2021-01-22 15:35:42 | 阅读(1250) | 评论(0)
一、   问题背景与适用场景在以前的文章中我们介绍过,关系数据库在进行表间关联时是使用HASH分段技术。设两个关联表的规模(记录数)分别是 N 和 M,则 HASH 分段技术的计算复杂度(关联字段的比较次数)大概是 SUM(Ni*Mi),其中 Ni 和 Mi 分别是 HASH 值为 i 的两表记录数,满足 N=SUM(Ni) 和 M=SUM(...【阅读全文】
穿秋裤没 | 2021-01-22 15:30:43 | 阅读(860) | 评论(0)
在事实表与维表的关联查询时,常常会遇到需要对维表的数据进行过滤或者针对维表做计算的情况,这时可以有两种处理方式:1、先做关联(如果是内存则可以是预关联),再对关联后的事实表进行过滤。就象在《性能优化技巧:预关联》和《性能优化技巧:外键序号化》中做的那样。2、先对维表进行过滤,再与事实表做关联...【阅读全文】
穿秋裤没 | 2021-01-22 15:15:13 | 阅读(1020) | 评论(0)
实践目标本期目标是练习将数据库读出的数据,尽可能转换为有利于性能优化的数据类型,例如:小整数和浮点数。实践的步骤:1、 准备基础宽表:修改上期的代码,完成数据类型优化存为组表文件。2、 访问基础宽表:修改上期的代码,在传入参数保持不变的前提下,查询数据转换之后的组表文件,结果集也要返回...【阅读全文】
穿秋裤没 | 2021-01-06 16:00:33 | 阅读(17880) | 评论(0)
问题描述 多维分析(OLAP)系统的汇总和切片,实际上是在计算分组汇总和条件过滤。切片过滤条件的情况多种多样,其中比较多的是枚举维度切片和二值维度切片。 枚举维度切片是指过滤条件中的in计算,例如:D5 in (valueB,valueC),也就是过滤条件字段在一个枚举范围内取值的情况。在实际应用中,...【阅读全文】
穿秋裤没 | 2020-12-25 14:21:23 | 阅读(1210) | 评论(0)
一、  问题背景与适用场景通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度(比较次数),取决于hash函数的重码率。在hash空间比较小时,重码率就高,比较次数就会多,...【阅读全文】
穿秋裤没 | 2020-12-02 19:05:30 | 阅读(18720) | 评论(0)
一、  问题背景与适用场景什么是后半有序?如果数据集T已经按字段a、b有序,现在我们要将T按b排序或分组时,因为在a值相同的段内,b都是有序的,这种要排序或分组的字段在分段内有序的情况就称为后半有序。我们知道,快速排序算法的原理就是一种递归的分段排序再归并的算法,对...【阅读全文】
穿秋裤没 | 2020-12-02 19:04:30 | 阅读(17550) | 评论(0)
一、  问题背景与适用场景 在对数据集进行排序运算时,有时会遇到这样一种场景:数据集T已经按字段a有序,而字段b无序,现在我们要将T按a、b排序,我们称之为前半有序(a有序)的排序。此时我们能想到一种优化的排序方法:从T中先取出a值相同的一组记录,再这一组内对b排序。然后再依次...【阅读全文】
穿秋裤没 | 2020-11-26 10:57:23 | 阅读(1770) | 评论(0)
在数据分析过程中,经常会处理文本文件中的结构化数据(txt,csv等),有时这些文件还会很大,计算机内存不足以一次性读入。这时,只能将数据分批读入内存,对每批数据计算出临时中间结果,分批处理完以后,再按照计算要求对分批处理结果进行恰当的汇总处理,与一次性装入内存的小文件数据计算有很大的不同。 ...【阅读全文】
穿秋裤没 | 2020-11-18 10:45:25 | 阅读(1080) | 评论(0)
Pandas 是 python 的一个数据分析包,是基于 NumPy 的一种数据分析工具,其中纳入了大量库和一些标准的数据模型,提供了快速便捷地处理数据的函数和方法,是高效地操作结构化数据集所需的工具,也是使 Python 成为强大而高效的数据分析环境的重要因素之一。但是相信经常使用 Pandas 的同学在处理结构化数据运算...【阅读全文】