Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1215979
  • 博文数量: 259
  • 博客积分: 10
  • 博客等级: 民兵
  • 技术积分: 2518
  • 用 户 组: 普通用户
  • 注册时间: 2012-10-13 16:12
个人简介

科技改变世界,技术改变人生。

文章分类

全部博文(259)

分类: 大数据

2016-01-26 11:52:19

常用的基本上UCI和w3c的。关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:


UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
~mlearn/\MLRepository.htm

statlib



样本数据库

~mlearn/MLRepository.html

关于基金的数据挖掘的网站


~strehl/

reuters数据集
~lewis/reuters21578.html

各种数据集:
summary.data.type.html

datasets/



~palmeri/datam/DCI/

进行文本分类&WEB









http://www.cs.cornell.edu/projects/kddcup/index.html


时间序列数据的网址
~reinsel/bjr-data/

apriori算法的测试数据


数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html



关联:



WEKA:

1。A jarfile containing 37 classification problems, originally obtained from the UCI repository

2。A jarfile containing 37 regression problems, obtained from various sources

3。A jarfile containing 30 regression datasets collected by Luis Torgo


癌症基因:


金融数据:



kdnuggets 相关链接数据集(借花献佛了):


另一个人提供的
~roweis/data.html
summary.task.type.html



来源:http://blog.sina.com.cn/s/blog_4c98b96001000883.html
阅读(2077) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~