雄关漫道真如铁,而今迈步从头越。
全部博文(348)
发布时间:2017-01-31 17:18:36
一直以来主做数据存储与计算的,数据分析是兼职搞,所以请大家轻拍砖^_^。某天晚饭时老大问:你们觉得下次XX2发售,哪些用户最有可能来购买?应该给哪些用户Push Message?让尝试来分析一下。 按照如上的分析步骤:首先是提出了问题,有了需求。第二步分析问题,提出方案,个人觉得这一步非常重要,数据分析本身就是一.........【阅读全文】
发布时间:2015-07-11 21:51:34
虽然Hadoop在分布式数据分析方面备受关注,但是仍有一些开源软件提供了优于Hadoop平台的的优势,比如在实时计算、交互式和流式计算场景下MapReduce并不适合。这时恰恰Spark技术为了解决这样的问题应运而生,其是一种新生的可扩展的数据分析平台,它基于内存计算技术,所以相对于 Hadoop 的存储方法,它在性能方面更具优势。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。......【阅读全文】
发布时间:2015-06-01 22:41:56
Apache Cassandra是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发用于储存特别大的数据。Cassandra适合于实时事务处理和提供交互型数据。Cassandra的数据模型是基于列族(Column Family)的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点,采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前,需要先记录日志 ( CommitLog ),然后数据开始写入到 Column Family 对应的 Memtable 中,Memtable 是一种按照 key 排序数据的内存结构,在满足一定条件时,再把 Memtable的数据批量的刷新到磁盘上,存储为SSTable。本文主要来介绍一下关于Cassandra的安装配置方法。......【阅读全文】