Chinaunix首页 | 论坛 | 博客

-

  • 博客访问: 4152064
  • 博文数量: 172
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1923
  • 用 户 组: 普通用户
  • 注册时间: 2018-12-20 14:57
文章分类
文章存档

2021年(19)

2020年(81)

2019年(68)

2018年(4)

我的朋友

发布时间:2020-11-26 10:57:23

在数据分析过程中,经常会处理文本文件中的结构化数据(txt,csv等),有时这些文件还会很大,计算机内存不足以一次性读入。这时,只能将数据分批读入内存,对每批数据计算出临时中间结果,分批处理完以后,再按照计算要求对分批处理结果进行恰当的汇总处理,与一次性装入内存的小文件数据计算有很大的不同。 .........【阅读全文】

阅读(1936) | 评论(0) | 转发(0)

发布时间:2020-11-18 14:48:40

在数据处理业务中,有时需要比较两个文本文件内容有哪些相同或不同的数据,本文将介绍文本文件比对的几种情况,如整行比对、关键列比对,同时又分小文件、大文件比对,并提供用 esProc SPL 编写的代码示例。esProc 是专业的数据计算引擎,SPL 中有一套完善的集合运算领域的函数库,做文件比对很方便,写出的代码非常简.........【阅读全文】

阅读(1579) | 评论(0) | 转发(0)

发布时间:2020-11-18 10:59:15

在数据处理业务中,有时需要清除文件中的重复数据或只留下重复数据,本文将从小文件、大文件两方面介绍整行去重、关键列去重的几种处理办法,并提供用 esProc SPL 编写的代码示例。esProc 是专业的数据计算引擎,SPL 中有一套完善的集合运算领域的函数库,很适合处理文件去重,写出的代码非常简洁。 .........【阅读全文】

阅读(1393) | 评论(0) | 转发(0)

发布时间:2020-11-18 10:45:25

Pandas 是 python 的一个数据分析包,是基于 NumPy 的一种数据分析工具,其中纳入了大量库和一些标准的数据模型,提供了快速便捷地处理数据的函数和方法,是高效地操作结构化数据集所需的工具,也是使 Python 成为强大而高效的数据分析环境的重要因素之一。但是相信经常使用 Pandas 的同学在处理结构化数据运算.........【阅读全文】

阅读(1281) | 评论(0) | 转发(0)

发布时间:2020-11-18 10:43:18

大多数情况下,我们用SQL(存储过程)就可以完成数据库计算,但如果遇到SQL不擅长的某些复杂运算,就只能用其他程序语言把数据读出库外,然后在数据库外完成计算,这样的程序语言经常是以简单脚本的形式出现,我们在这里称为SQL的后计算脚本。 SQL不擅长的运算主要包括复杂的集合计算、有序计算、关联计算、.........【阅读全文】

阅读(980) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册