分类:
2012-08-02 15:58:24
Usama Fayyad ACM SIGKDD(现任主席)
编者按:ACM SIGKDD 2012 (简称KDD’12, ) 将于2012年8月12至16日在北京召开。 这是KDD年会首次在亚洲召开。为介绍这一盛会,我们特意邀请了ACM 知识发现与数据挖掘专业委员会SIGKDD 前任主席Gregory Piatetsky-Shapiro博士和ACM SIGKDD 现任主席Usama Fayyad博士为我们撰写了一篇关于ACM SIGKDD发展历程以及“数据挖掘”这一术语起源(参见本文的小贴士)的短文。 希望能帮助读者更好地了解这一国际科学协会,以及积极参加明年8月份的会议。
——杨强(香港科技大学),王建勇(清华大学), 2011-11-18
我们生活在一个大数据的时代——这是人类文明史上自工业革命以来的第二场大革命。 大数据的挖掘显现在我们生活和商业的各个方面,例如:帮助提高销售能力,减少客户流失,推荐客户、电影和音乐,发现并防止欺诈和犯罪,以及发现新药、开发个性化医药、了解气候变化等。
ACM SIGKDD (),即ACM知识发现与数据挖掘专业委员会,一直专注于知识发现与数据挖掘 (也称作预测分析与数据科学) 领域, 是领导这场伟大革命的一流专业协会。KDD-2012 () 将在北京向世界展示在这一领域最新的研究和应用成果。
ACM SIGKDD的创建可以追溯到从1989年开始由Gregory Piatetsky-Shapiro ()组织的一系列关于知识发现及数据挖掘 (KDD) 的研讨会。这些讨论会逐渐发展成为在1995年举办的第一次KDD会议,由Usama Fayyad and Ramasamy Uthurusamy主持。这促使ACM SIGKDD专业委员会在1998年正式成立,并成为拥有120000 会员的、计算领域的最大学会——ACM学会的一个重要组成部分。
SIGKDD致力于为知识发现与数据挖掘这一“科学领域”的发展与应用提供一个重要的论坛平台。SIGKDD的主要活动是组织KDD年会。该会议始办于 1995年,据微软亚洲研究院(MSRA)相关统计,KDD年会是数据挖掘领域公认的国际顶级会议。2011年在美国加州圣地亚哥举办的KDD-2011 会议是世界上规模最大的数据挖掘会议,吸引了超过1 100名专家学者参会。KDD-2012 () 是第十八届知识发现与数据挖掘国际年会。
自1997年开始,SIGKDD组织年度KDD Cup比赛。KDD Cup涵盖了许多主题,包括产品直销、网络入侵检测、点击流分析、社交网络分析、文本挖掘、推荐系统、医学成像分析以及学生学习效果预测等。 KDD Cup挑战赛的成功引发了许多其他知名的挑战赛,例如Netflix公司悬赏100万美金以及Heritage Health悬赏300万美金的比赛。同时,KDD Cup促进了一些与数据挖掘及分析相关的竞赛以及基于这些竞赛的相关产业(例如Kaggle)的发展。
SIGKDD设有年度最佳创新奖和最佳服务奖(被誉为数据挖掘界的“Nobel”奖)。最佳创新奖授予那些在知识发现和数据挖掘领域中具有持久影响力、对该领 域的理论发展和工业应用做出杰出技术性贡献的研究者。历届的获奖者有: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan Srikant, Dr. Leo Breiman, Dr. Jiawei Han, Dr. Heikki Manilla, Dr. Jerome H. Friedman以及Dr. Rakesh Agrawal.
SIGKDD的最佳服务奖授予那些在知识发现和数据挖掘领域有过突出服务贡献的学者。历届的获奖者有:Dr. Bharat Rao, Prof. Osmar R. Zaane, Dr. Sunita Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu, Dr. Usama Fayyad, Dr. Ramasamy Uthurusamy以及Dr. Gregory Piatetsky-Shapiro.
SIGKDD设有最佳博士论文奖和最佳学生论文奖以促进相关教育事业的发展,并于2006年公布了一份针对下一代学生的数据挖掘相关推荐课程。
此外,SIGKDD还出版 一本专注于数据挖掘和知识发现的刊物 ——“SIGKDD Exlorations” (/explorations)。这一刊物的创刊主编为Usama Fayyad, 之后的主编包括 Sunita Sarawagi 和 Osmar Zaiane。目前由Bart Goethals担任主编。“SIGKDD Explorations”是ACM SIGKDD的官方刊物,每年出版两次,并在合适的情况下出版特刊(special issues)。
SIGKDD的现任主席是Dr. Usama Fayyad,秘书/财务主管是Dr. Osmar R. Zaiane,理事会包括:Johannes Gehrke, Robert Grossman, David Jensen, Raghu Ramakrishnan, Sunita Sarawagi, Ramakrishnan Srikant和 Gregory Piatetsky-Shapiro (前任主席). 这一学会已有超过1200人的会员。
欢迎加入SIGKDD:.
一直以来,KDD年会是在数据挖掘、数据分析和知识发现领域质量最高、最有代表性的会议。KDD 2011 提交的研究论文数超过了714篇。 其中,有126篇文章被录取,包括研究论文长文(极难得到录用)和墙报论文。另外,KDD会议设有一个工业及政府应用的主题分会(要求提交并报告一个完整 的同行评审的论文)和一个工业实践展示会(包括一些参与部署具有很高影响力应用的、来自工业界的嘉宾的特邀报告)。
我们期待着KDD 2012在中国北京举行。我们希望这次会议不仅能在参会人数和质量上创新高,并且继续为促进预测分析、数据科学、大规模数据、数据挖掘和知识发现的研究和实践作出贡献。
小贴士:
“数据挖掘”最初是作为贬义词出现于上世纪60年代,当时指的意思是从数据中搜索没有先验假设的关联 (correlations without an apriori hypothesis)。 另一个当时常用的名词叫“数据捕捞”(data dredging)。 在上世纪80年代,“数据库挖掘”(database mining)这一词汇开始出现。 在1989年组织第一个数据挖掘研讨会的时候,Gregory Piatetsky-Shapiro博士首先使用了“知识发现”这一词汇, 全称是“数据中的知识发现”(Knoweldge Discovery in Data), 简称KDD。但是,很多媒体都倾向于用“数据挖掘”这一词汇。究其原因主要是人们认识到人类拥有了超出我们精力和人力以形成假设的更多的数据。
当数据不论是在量还是维度上变得更大时,数据挖掘变成了能够更加准确地描述企业所正在做的一件事情(即从数据中获取价值)的一个词汇,尽管当时传统的方法 由于可扩展性太差而无法胜任此项工作。然而当时的统计学界却继续排斥“数据挖掘”这 一概念。例如,在1997年Usama Fayyad博士和当时供职于贝尔实验室、现供职于谷歌的统计学家Daryl Pregibon曾经参加在美国加州举办的统计学联合会,在该会议上,他们组织了一个数据挖掘分会以试图改变统计学界的这一错误观念。尽管在场的每个人都 从理论上反对“数据挖掘”这一概念,该分会却吸引了数百位统计学家,其中很多人是站在走廊里听完报告的。大约在五六年之后统计学界最终接受了“数据挖掘” 这一概念。其中,统计工具的最大提供商SAS和SPSS功不可没。它们率先采纳、生产数据挖掘产品,并以“数据挖掘”的名义进行销售。
现在“数据挖掘”已被拓展到文本挖掘、图像挖掘等领域。谷歌(Google)则大力宣传文本挖掘和万维网挖掘。“数据挖掘”目前已经成为一个标准术语,包 括文本挖掘、图像挖掘、万维网挖掘、预测分析,以及处理海量数据(现在被广泛称为大数据)等技术的众多内容。2006年左右,谷歌推出Google Analytics 的产品。 这使得“analytics”这一词汇的使用变得比“数据挖掘”更为流行。 (编者:我们可以把data analytics翻译成“数据统析”, 即数据的统计与分析。) 而在2011年,“数据学”(data science)成为这一领域的一个热门词汇。然而, 不管用什么词汇来描述这一领域, 其本质总是从大量的数据中发现新的、有用的知识。