Chinaunix首页 | 论坛 | 博客
  • 博客访问: 424436
  • 博文数量: 354
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3730
  • 用 户 组: 普通用户
  • 注册时间: 2017-08-21 18:43
文章分类

全部博文(354)

文章存档

2019年(126)

2018年(223)

2017年(5)

我的朋友

发布时间:2018-05-18 15:28:47

  HDFS,Hadoop分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。  HDFS的设计特点是:  1. 大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。  2. 文.........【阅读全文】

阅读(472) | 评论(0) | 转发(0)

发布时间:2018-05-08 16:41:42

  在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。  1. R语言  R语言是数据科学的宠儿,R语言有着简单而明显的吸引力,使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字,它被比喻为是Ex.........【阅读全文】

阅读(6687) | 评论(1) | 转发(0)

发布时间:2018-05-08 16:24:00

  kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。  所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。  一、segment  所谓的segment其实就是在分区对应的文件夹下产生的文件。 .........【阅读全文】

阅读(1976) | 评论(1) | 转发(0)

发布时间:2017-09-01 10:47:55

机器学习资料首推吴恩达的《斯坦福大学公开课:机器学习课程》视频。这20集视频确实是好视频,但对初学者来说难度偏大。我有了一点机器学习方面的基础后,再去看该视频,还花了2.5倍的时间才基本看懂。每当我跟不上视频时,就会暂停或者回退,再仔细看看课件,所以看完视频花掉的时间是视频原时长的2.5倍。另外,周志华的《机器学习》和李航的《统计学习方法》可以作为机器学习入门书籍,经典教材《Pattern Recognition and Machine Learning》可以作为机器学习进阶书籍,而《机器学习实战》一书能手把手地教你怎么实现机器学习模型的底层算法(书中包含了大量的程序清单)。......【阅读全文】

阅读(603) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册