Chinaunix首页 | 论坛 | 博客

-

  • 博客访问: 4132097
  • 博文数量: 172
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1923
  • 用 户 组: 普通用户
  • 注册时间: 2018-12-20 14:57
文章分类
文章存档

2021年(19)

2020年(81)

2019年(68)

2018年(4)

我的朋友

发布时间:2021-01-06 09:56:20

1.     循环比较每行记录判断文件是否相同 循环判断,每次在序列最后添加新的成员。 【例 1】 比较两个行数相同的文件中有多少行数据完全一致。文件部分数据如下: ID Predicted_Y Original_Y .........【阅读全文】

阅读(1311) | 评论(0) | 转发(0)

发布时间:2020-12-25 14:21:23

一、  问题背景与适用场景通常分组计算都采用hash方案,即先计算分组字段的hash值,hash值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度(比较次数),取决于hash函数的重码率。在hash空间比较小时,重码率就高,比较次数就会多,.........【阅读全文】

阅读(1227) | 评论(0) | 转发(0)

发布时间:2020-12-23 09:56:21

      集算器是强大的数据计算引擎,但目前对于机器学习算法的提供还不够丰富。而 python 中有许多此类算法。借助 YM 外部库,就可以让集算器 SPL 调用 python 写的代码,从而弥补这一不足。下面具体说明: 1.SPL 与 python 环境配置 2.python 模块开发规.........【阅读全文】

阅读(1114) | 评论(0) | 转发(0)

发布时间:2020-12-21 10:07:15

      网站上的数据源是我们进行统计分析的重要信息源。当我们浏览网页,看到自己感兴趣数据内容时,希望能够快速抓取网页上的数据,这对于数据分析相关工作来说极其重要,也是必备的技能之一。但是网络数据抓取大多需要复杂的编程知识,操作也比较繁琐。这里介绍如何用集算器 S.........【阅读全文】

阅读(1181) | 评论(0) | 转发(0)

发布时间:2020-12-14 15:07:21

问题描述 高并发账户记录查询在银行、互联网企业、通信企业中广泛存在。例如:网上银行、手机银行、电商个人账户查询、互联网游戏账户等等。这类查询有三个共同点: 1、  数据总量非常大。用户数量本身就非常多,再加上多年的账户数据,数据量可以达到几千万甚至上亿条。 2、  .........【阅读全文】

阅读(1761) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册