全部博文(221)
2012年(221)
分类: 云计算
2012-08-02 11:22:51
目前证劵行业,新闻行业,各种媒体对资讯的需求越来越多,对于不同的客户,需要提供不同的资讯数据和聚合,热点等相关计算结果。然后资讯数据非常巨大,需要根据行业采用不同的爬虫进行抓取,各种爬虫需要浪费大量的机器资源。对于抓取来的数据,进行分类处理,还要根据训练模式进行提炼热点信息和聚合信息,这种训练模式和聚合计算,单一的计算方式非常缓慢,无法满足实时性的要求,对资讯的处理带来非常大的难度。
微软私有云的引入很好的解决这个问题,将各个模块进行分类处理,充分利用云的模式,可以可以在终端提取到自己需要的数据,如同在ATM上提取现金一下,在具有‘ATM’终端机上,能够提取到自己的‘现金’。在crawler 爬虫模块中采用了免费的企业级虚拟化工具Hyper-V 进行物理服务器的虚拟化,以前存在有些爬虫工作量比较少,但需要单独存放在一台服务器上的情况进行整合,以前大约有100多台爬虫服务器,经过虚拟化以后减少为30台,通过这种虚拟化技术进行服务器整理大量节约成本,由于进行分类处理,也充分提高了系统的响应速度和处理能力。在以后随着需求的不断增加,将会有更多的爬虫分散的服务器合并到更紧凑的虚拟化基础结构中。
在数据处理方面,采用了分布式的计算,根据行业不同,对data进行各种关键字的训练,能够让资讯数据更加的准确,并在其中加入了负面新闻需求,还要能够对计算结果进行自行定义,可以规定以前正面新闻瞬间变为负面新闻,展示在客户终端上。在分布式计算模块中,可以采用微软 Hyper-V 与 System Center 为基础构建而来,实现了云计算中的关键环节,在分布式计算的结果中,对资源进行池化管理,这样不同业务单元可以更加高效的利用,可以实现更高扩展性,通过让多个用户共享资源,实现资源的利用率,高效的使用云计算的结果。在云计算的模块中,能够很好的进行扩展,假如计算压力比较大,可以动态的进行添加计算单元,快速的实现范围扩大,满足不同的客户需求。
在客户终端方面,客户可以自由的进行定制自己的服务,根据需求不同,行业不同,来调用不同的资源数据。
在整个架构中,很容易的实现架构的控制,高效的使用架构平台。相比以前的架构,节约了大量的硬件和带宽资源,节约成本。总之,微软私有云给数据处理平台带来了革命性的改革,大大提升了IT资源高效性。