Chinaunix首页 | 论坛 | 博客
  • 博客访问: 183339
  • 博文数量: 29
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 601
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-03 18:51
个人简介

大数据算法,分布式技术,spark技术爱好者

文章分类

全部博文(29)

文章存档

2015年(4)

2014年(3)

2013年(22)

发布时间:2015-07-17 22:32:16

最近在调研如何把阿里内部的流数据源接入Spark Streaming。也对接了几个使用JStorm的用户。目前看来大部分时候大家在选择技术方案的时候还是比较迷茫,是该选择JStorm还是Spark Streaming,一般会流于一些并不重要问题的讨论,最后做出目光非常短浅的选择,几个月之后再改变技术方案。造成严重的开发量的浪费,甚至拖延关键.........【阅读全文】

阅读(3030) | 评论(0) | 转发(0)

发布时间:2015-09-11 08:19:08

&nbsp;&nbsp;&nbsp;&nbsp;今天我想谈谈如何做好一件事情,为什么有这个想法?其实也是和自己经历的一些事情有关。<br />&nbsp;&nbsp;&nbsp;&nbsp;刚到社会工作不久,在工作中也会经常遇到比较棘手的任务。有些事情你做不了,别人来做,他不一定比你懂得更多,但是却做得比你好。之前一直比较迷茫,不知道问题出在哪里,但.........【阅读全文】

阅读(1195) | 评论(0) | 转发(0)

发布时间:2015-07-18 11:56:03

GPU也可以做大规模的并行计算,但是对于维度很高的数据,如何处理并压缩也并不是很显然的事情,如果不处理压缩,怎么能放进多核GPU共享的显存?如果频繁在物理内存和GPU显存之间进行拷贝,瓶颈就不是计算了,而是CPU对内存的拷贝。所以对于存储密集型的计算,毫无疑问要选择分布式并行框架。随机梯度下降需要保存所有样本点.........【阅读全文】

阅读(5648) | 评论(0) | 转发(0)

发布时间:2015-01-21 21:18:50

因为spark的dag schedular处理了大部分的任务出错后处理的逻辑,因为我们要写自己的类spark系统,专门对dag schedular的状态转移做了分析。如下图:以DAG schedular展开,顺便画了消息的来源:taskschedular和sparkcontext,均画在左边,并不是表示调度的顺序。.........【阅读全文】

阅读(4109) | 评论(0) | 转发(0)

发布时间:2014-12-20 10:49:26

scala中函数类型的 “协变和逆变”因为Function的泛型里定义了函数入参和出参分别是“逆变”和“协变”的:?1trait Function1[-T1, +R] {…}.........【阅读全文】

阅读(12086) | 评论(0) | 转发(1)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册