大数据算法,分布式技术,spark技术爱好者
发布时间:2015-07-17 22:32:16
最近在调研如何把阿里内部的流数据源接入Spark Streaming。也对接了几个使用JStorm的用户。目前看来大部分时候大家在选择技术方案的时候还是比较迷茫,是该选择JStorm还是Spark Streaming,一般会流于一些并不重要问题的讨论,最后做出目光非常短浅的选择,几个月之后再改变技术方案。造成严重的开发量的浪费,甚至拖延关键.........【阅读全文】
发布时间:2015-07-18 11:56:03
GPU也可以做大规模的并行计算,但是对于维度很高的数据,如何处理并压缩也并不是很显然的事情,如果不处理压缩,怎么能放进多核GPU共享的显存?如果频繁在物理内存和GPU显存之间进行拷贝,瓶颈就不是计算了,而是CPU对内存的拷贝。所以对于存储密集型的计算,毫无疑问要选择分布式并行框架。随机梯度下降需要保存所有样本点.........【阅读全文】