搜索博文结果_ChinaUnix博客

fengzhanhai | 2015-07-11 21:51:34 | 阅读(5200) | 评论(0)

虽然Hadoop在分布式数据分析方面备受关注，但是仍有一些开源软件提供了优于Hadoop平台的的优势，比如在实时计算、交互式和流式计算场景下MapReduce并不适合。这时恰恰Spark技术为了解决这样的问题应运而生，其是一种新生的可扩展的数据分析平台，它基于内存计算技术，所以相对于 Hadoop 的存储方法，它在性能方面更具优势。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。【阅读全文】

【大数据】教育测量学中的几种测试

UnixStudier | 2015-07-02 08:38:12 | 阅读(3220) | 评论(0)

教育测量学测试种类【阅读全文】

【大数据】最大熵模型

ningbohezhijun | 2015-06-17 15:47:45 | 阅读(300) | 评论(0)

在看《统计学习方法》的最大熵模型，感觉书上讲的还没有这篇博客讲的清楚，书上有些概念细节略掉了。不过细读的话，可以发现内容基本一致，但是知道最后我还是有很多地方不懂。当然，求导什么的还是能够看懂的。但是什么凸函数什么的，确实不懂。。。

原文链接：【阅读全文】

【大数据】 Hadoop管理实战培训

sittc2 | 2015-06-09 14:34:18 | 阅读(520) | 评论(0)

随着云计算和大数据的发展，Hadoop作为海量数据分析的最佳解决方案，在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台，使企业从所有不同类型的数据里挖掘商业价值成为现实。Hadoop受到许多 IT厂商的关注，从而出现了许多Hadoop的商业版以及支持Hadoop的产品，形成一个强大的生态系统.掌握全面的海量处理解决方案、精通hadoop技术要点的高级云计算技术人才成为整个行业的紧缺人才。
上海市信息技术培训中心特邀国内著名Cloudera授权培训讲师，推出Apache Hadoop认证培训，为您介绍涉及与数据一同成长所面临的普遍挑战和解决方案，带您学习使用Apache Hadoop来创建开发强大的数据处理应用，掌握海量数据处理技术，开启通往大数据和云时代的大门。【阅读全文】

【大数据】 Google大数据三篇著名论文中文版

levy-linux | 2015-06-05 10:40:13 | 阅读(2730) | 评论(0)

Google File System中文版Google Bigtable中文版Google MapReduce中文版【阅读全文】

【大数据】美团推荐算法实践：机器学习重排序模型成亮点

Larpenteur | 2015-06-04 06:30:40 | 阅读(1550) | 评论(0)

美团推荐算法实践：机器学习重排序模型成亮点分析挖掘林 3个月前 (01-31) 695℃ 0评论作者：陈明前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。...【阅读全文】

【大数据】 Cassandra分布式NoSQL数据库安装部署指导

Larpenteur | 2015-06-04 06:18:11 | 阅读(1390) | 评论(0)

Apache Cassandra是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发用于储存特别大的数据。Cassandra适合于实时事务处理和提供交互型数据。Cassandra的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前，需要先记录日志 ( CommitLog )，然后数据开始写入到 Column Family 对应的 Memtable 中，Memtable 是一种按照 key 排序数据的内存结构，在满足一定条件时，再把 Memtable的数据批量的刷新到磁盘上，存储为SSTable。本文主要来介绍一下关于Cassandra的安装配置方法。【阅读全文】

【大数据】大数据网站

levy-linux | 2015-06-03 17:53:06 | 阅读(0) | 评论(0)

数据仓库与数据挖掘数据仓库之路数据仓库和商业智能门户ITpub技术论坛ITpub技术论坛TT数据库TT数据库SQL教程2天SQL基础教程数据魔方淘宝数据魔方产品行业指数与数据研究中心百度数据研究中心国内最好的行业分析网站百度指数网络曝光率及用户关注度Google趋势Google指数CNZZ数据中心CNZZ行业分析艾瑞网国内首家...【阅读全文】

【大数据】 Twitter发布新的大数据实时分析系统Heron

hustfxj | 2015-06-03 14:23:22 | 阅读(1770) | 评论(0)

昨日，Twitter发布了新开发的数据实时分析平台Heron，以下为官方文档摘译：我们每天在Twitter上处理着数十亿的事件。正如你猜测的那样，实时分析这些事件是一个巨大的挑战。目前，我们主要的分析平台是开源的分布式流计算系统Storm。但是随着Twitter数据规模变大和多样化，我们的需求已经发生了改变。因此，我们设计...【阅读全文】

【大数据】 python学习资料总结推荐

shiyigudong | 2015-06-03 13:39:15 | 阅读(0) | 评论(0)

python学习资料推荐
本文由伯乐在线 - programmer_lin 翻译。
英文出处：Jason Brownlee。【阅读全文】

【大数据】 Cassandra分布式NoSQL数据库安装部署指导

niao5929 | 2015-06-02 11:59:35 | 阅读(780) | 评论(0)

Apache Cassandra是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发用于储存特别大的数据。Cassandra适合于实时事务处理和提供交互型数据。Cassandra的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前，需要先记录日志 ( CommitLog )，然后数据开始写入到 Column Family 对应的 Memtable 中，Memtable 是一种按照 key 排序数据的内存结构，在满足一定条件时，再把 Memtable的数据批量的刷新到磁盘上，存储为SSTable。本文主要来介绍一下关于Cassandra的安装配置方法。【阅读全文】

【大数据】 Cassandra分布式NoSQL数据库安装部署指导

fengzhanhai | 2015-06-01 22:41:56 | 阅读(5990) | 评论(0)

Apache Cassandra是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发用于储存特别大的数据。Cassandra适合于实时事务处理和提供交互型数据。Cassandra的数据模型是基于列族（Column Family）的四维或五维模型。它借鉴了 Amazon 的 Dynamo 和 Google's BigTable 的数据结构和功能特点，采用 Memtable 和 SSTable 的方式进行存储。在 Cassandra 写入数据之前，需要先记录日志 ( CommitLog )，然后数据开始写入到 Column Family 对应的 Memtable 中，Memtable 是一种按照 key 排序数据的内存结构，在满足一定条件时，再把 Memtable的数据批量的刷新到磁盘上，存储为SSTable。本文主要来介绍一下关于Cassandra的安装配置方法。【阅读全文】

【大数据】机器学习相关工具

jiangwen127 | 2015-05-21 20:09:06 | 阅读(1080) | 评论(0)

18个最热深度学习Github项目逐一介绍http://blog.csdn.net/huixingshao/article/details/44559833awesome-machine-learninghttps://github.com/josephmisiti/awesome-machine-learning#java【阅读全文】

【大数据】 Kafka(分布式消息队列)集群迁移扩容

powerful_boy | 2015-05-21 15:02:17 | 阅读(2970) | 评论(0)

Kafka(分布式消息队列)集群迁移扩容【阅读全文】

【大数据】【机器学习】（11）：组合学习

niao5929 | 2015-05-20 19:20:46 | 阅读(610) | 评论(0)

2015/4/25 16:45:06现在为止我们也了解了不少机器学习相关的算法，实际上，每个算法都有自己的假设条件，不同的归纳偏倚会有不同的数据符合度。一般来说，我们可以针对同一个数据集使用多个机器学习算法，然后比较算法的契合度，基本就是准确率，然后选择最合适的一个。但是也存在一些情况，所有单个算法都不...【阅读全文】

【大数据】美团推荐算法实践：机器学习重排序模型成亮点

geekerunix | 2015-05-14 11:39:46 | 阅读(850) | 评论(0)

美团推荐算法实践：机器学习重排序模型成亮点分析挖掘林 3个月前 (01-31) 695℃ 0评论作者：陈明前言推荐系统并不是新鲜的事物，在很久之前就存在，但是推荐系统真正进入人们的视野，并且作为一个重要的模块存在于各个互联网公司，还是近几年的事情。...【阅读全文】

【大数据】 solr添加中文IK分词器,以及配置自定义词库

超人学院1 | 2015-05-08 14:20:55 | 阅读(730) | 评论(0)

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括 XML/XSLT 和 JSON 格式）。它易于安装和配置，而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。Solr 包装并扩展了 Lucene...【阅读全文】

【大数据】 CentOS-6.3系统下Ganglia-3.6.0监控集群安装配置实践

levy-linux | 2015-05-07 16:47:11 | 阅读(2780) | 评论(0)

ganglia的工作原理就不多说了，网上很多，直接进行实践环节。CentOS-6.3 系统64位监控gmetad主机和gmond客户端主机在同一台虚拟机的时候，会出现各节点不显示性能图线的情况。（实体机不会出现这样的问题）经过证明ganglia Server使用实体机，客户端虚拟机全部显示正常。安装Ganglia服务器，需要用到的软件包，如下所...【阅读全文】

【大数据】机器学习index

fortara | 2015-05-07 13:17:38 | 阅读(790) | 评论(0)

一个博客http://blog.csdn.net/sunjerdege/article/details/6862640【阅读全文】

【大数据】如何使用机器学习解决实际问题-以关键词相关性模型为例

jiangwen127 | 2015-05-06 15:37:27 | 阅读(2580) | 评论(0)

[置顶] 如何使用机器学习解决实际问题-以关键词相关性模型为例分类：机器学习数据挖掘推荐引擎搜索引擎2014-09-23 21:30 390人阅读评论(0) 收藏举报目录(?)[+]本文以百度关键词搜索推荐工具字面相关性模型为基础，介绍一个机器...【阅读全文】