,就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
正如信息爆炸规律所揭示的,海量的数据正在产生,需要我们建造超大的数据中心进行管理,更需要我们采用有效的数据分析手段来解释数据本身所隐含的规律。
以下是信息爆炸规律的具体表述:
英国科学家詹姆斯.马丁认为:
人类的科学知识在19世纪70年代是每50年增加一倍, 20世纪中叶是每10年增加一倍, 在20世纪70年代就已经缩短到每5年增加一倍; 同时,信息分散,交叉引用频繁,人类信息的生产能力超过了人类对信息的处理、组织和吸收能力,从而产生了信息爆炸的危机。
哈哈,下面,我推荐几个开源的数据挖掘软件,兴许你用的着哦!
1 weka
2 Yale
3 KNIME
4 R (统计软件)
5 Rattle(R基础上的GUI)
5 AlphaMiner(哈工大基于weka内核开发)
6 在Excel中实现了决策树、神经网络等算法。可惜VBA工程被作者加密了,不能看到源码; 不过在此基础上进行VSTO,或许蛮省时吧,我还没做过。
Apache Lucene 是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。 Lucene的最主要工作是替文件的每一个字作索引,通过索引,让搜寻的效率比传统的逐字有了很大的提高;Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,最重要的是使使用者可以依据自已的需要自定制其功能。
阅读(1128) | 评论(1) | 转发(0) |