Chinaunix首页 | 论坛 | 博客
  • 博客访问: 11338
  • 博文数量: 6
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 60
  • 用 户 组: 普通用户
  • 注册时间: 2014-10-10 10:04
文章分类

全部博文(6)

文章存档

2015年(6)

我的朋友
最近访客

分类: 其他平台

2015-12-28 20:15:21

IBM BigSheets 是 IBM 在商业分析领域的一项最新技术,可以对非结构化或者半结构化的海量数据进行快速分析,这项技术已经应用于大英图书馆中。BigSheets 提供了一个基于 web 的界面来轻松加载、分析和导出数据,目前已经集成在 BigInsights Enterprise 版本中(BigInsights 是一个基于 Apache Hadoop 的数据分析处理平台,在《实战 IBM BigInsights,轻松实现 Hadoop 的部署与管理》一文中有详细的介绍)。

BigSheets 主要提供了以下功能特性:

  • 对非结构化、半结构化数据的分析处理能力。
  • 以表格的形式展示数据结果,并提供图形化展示例如饼图、柱状图等,分析结果一目了然。
  • 提供了过滤、连接、分组查询、加载、复制等多种公式以及条件、选择、数学计算、文本操作等丰富的函数库,能满足大部分场景中的数据分析需求。
  • 支持多种文件格式分析包括 CSV,TSV,JSON,网络爬虫数据、自定义字符分割文件等。
  • 基于 Apache Hadoop,因此比传统的商业分析工具拥有更快速、强大的海量数据处理能力。
  • 支持分析结果以多种格式导出。
  • BigSheets 提供了扩展性:用户可以自定义阅读器、宏、图形化工具甚至自定义 MapReduce 程序来导入数据。

BigSheets 用数据集合(Collection)来代表一个数据集(可以是原始数据或者分析数据),它是用户操作的主要对象。数据集合的形式类似于 Excel 中的数据表,行代表数据集中的值,列代表数据集的各个属性。BigSheets 利用阅读器来对导入的文件进行解析与显示,支持 7 种默认的阅读器以及用户自定义阅读器。

阅读(1677) | 评论(0) | 转发(0) |
0

上一篇:怎么理解stream computing

下一篇:没有了

给主人留下些什么吧!~~