发布时间:2020-11-26 10:57:23
在数据分析过程中,经常会处理文本文件中的结构化数据(txt,csv等),有时这些文件还会很大,计算机内存不足以一次性读入。这时,只能将数据分批读入内存,对每批数据计算出临时中间结果,分批处理完以后,再按照计算要求对分批处理结果进行恰当的汇总处理,与一次性装入内存的小文件数据计算有很大的不同。 .........【阅读全文】
发布时间:2020-11-18 10:45:25
Pandas 是 python 的一个数据分析包,是基于 NumPy 的一种数据分析工具,其中纳入了大量库和一些标准的数据模型,提供了快速便捷地处理数据的函数和方法,是高效地操作结构化数据集所需的工具,也是使 Python 成为强大而高效的数据分析环境的重要因素之一。但是相信经常使用 Pandas 的同学在处理结构化数据运算.........【阅读全文】
发布时间:2020-11-18 10:43:18
大多数情况下,我们用SQL(存储过程)就可以完成数据库计算,但如果遇到SQL不擅长的某些复杂运算,就只能用其他程序语言把数据读出库外,然后在数据库外完成计算,这样的程序语言经常是以简单脚本的形式出现,我们在这里称为SQL的后计算脚本。 SQL不擅长的运算主要包括复杂的集合计算、有序计算、关联计算、.........【阅读全文】