Chinaunix首页 | 论坛 | 博客

发布时间:2018-05-23 15:33:30

  kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。  所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。  一、segment   所谓的segment其实就是在分区对应的文件夹下产生的文件。 .........【阅读全文】

阅读(4) | 评论(0) | 转发(0)

发布时间:2018-05-18 15:35:36

  Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器,每个都提供本地计算和存储。  Hadoop框架包括以下四个模块:  Hadoop Common: .........【阅读全文】

阅读(6) | 评论(0) | 转发(0)

发布时间:2018-05-18 15:28:47

  HDFS,Hadoop分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。  HDFS的设计特点是:  1. 大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。  2. 文.........【阅读全文】

阅读(15) | 评论(0) | 转发(0)

发布时间:2018-05-08 16:41:42

  在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。  1. R语言  R语言是数据科学的宠儿,R语言有着简单而明显的吸引力,使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字,它被比喻为是Ex.........【阅读全文】

阅读(1731) | 评论(1) | 转发(0)

发布时间:2018-05-08 16:24:00

  kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。  所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。  一、segment  所谓的segment其实就是在分区对应的文件夹下产生的文件。 .........【阅读全文】

阅读(45) | 评论(1) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册