发布时间:2018-05-18 15:28:47
HDFS,Hadoop分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。 HDFS的设计特点是: 1. 大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。 2. 文.........【阅读全文】
发布时间:2018-05-08 16:41:42
在巨大的数据集中进行筛选的最好工具是什么?以下是总结的十大合适大数据处理的编程语言。 1. R语言 R语言是数据科学的宠儿,R语言有着简单而明显的吸引力,使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字,它被比喻为是Ex.........【阅读全文】
发布时间:2018-05-08 16:24:00
kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。 所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。 一、segment 所谓的segment其实就是在分区对应的文件夹下产生的文件。 .........【阅读全文】
发布时间:2017-09-01 10:47:55
机器学习资料首推吴恩达的《斯坦福大学公开课:机器学习课程》视频。这20集视频确实是好视频,但对初学者来说难度偏大。我有了一点机器学习方面的基础后,再去看该视频,还花了2.5倍的时间才基本看懂。每当我跟不上视频时,就会暂停或者回退,再仔细看看课件,所以看完视频花掉的时间是视频原时长的2.5倍。另外,周志华的《机器学习》和李航的《统计学习方法》可以作为机器学习入门书籍,经典教材《Pattern Recognition and Machine Learning》可以作为机器学习进阶书籍,而《机器学习实战》一书能手把手地教你怎么实现机器学习模型的底层算法(书中包含了大量的程序清单)。......【阅读全文】