常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
~mlearn/\MLRepository.htm
statlib
样本数据库
~mlearn/MLRepository.html
关于基金的数据挖掘的网站
~strehl/
reuters数据集
~lewis/reuters21578.html
各种数据集:
summary.data.type.html
datasets/
~palmeri/datam/DCI/
进行文本分类&WEB
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
~reinsel/bjr-data/
apriori算法的测试数据
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
关联:
WEKA:
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
2。A jarfile containing 37 regression problems, obtained from various sources
3。A jarfile containing 30 regression datasets collected by Luis Torgo
癌症基因:
金融数据:
kdnuggets 相关链接数据集(借花献佛了):
另一个人提供的
~roweis/data.html
summary.task.type.html
来源:http://blog.sina.com.cn/s/blog_4c98b96001000883.html
阅读(2068) | 评论(0) | 转发(0) |