Chinaunix首页 | 论坛 | 博客
  • 博客访问: 579800
  • 博文数量: 718
  • 博客积分: 4000
  • 博客等级: 上校
  • 技术积分: 4960
  • 用 户 组: 普通用户
  • 注册时间: 2008-10-17 13:24
文章分类

全部博文(718)

文章存档

2011年(1)

2008年(717)

我的朋友

分类:

2008-10-17 13:24:40

  很少有什么IT项目比数据整合更令人头疼的了。如果我们换个方式思考,就会发现有一件事是比数据整合更可怕的,那就是数据整合出现了问题。

  有时候,这是由于用户出错或者恶意用户的蓄意破坏,导致不良数据堆积引起的问题。有时候原始数据是完好无损的,但是从一个系统/数据库转移到另一个系统/数据库的过程中丢失、被删截或者被修改了,也会造成麻烦。数据会过时,也会在你企业内部的人事斗争过程中不幸被流弹击中,要知道每个人都是死抱着自己的一小片数据地盘,不愿与其他人分享。

  有很多的方式会导致数据项目的流产,本文列举了其中五种最常见的情况,告诉你究竟是什么地方出错了,将会导致什么样的后果,以及可以采取什么措施避免同样的情况发生在自己身上。文中所涉及的公司名字一概隐去。希望不要让你自己的经历像本文所叙述的对象那样沦为他人口中的经验教训。

  1. “亲爱的白痴”邮件事件

  小心你的数据来源,它有可能会反过来摆你一道。这个事例源于一个大型金融服务机构的客户呼叫中心。就像几乎所有的客服柜台一样,这里的客户服务代表们要做的就是接听电话,并把客户信息输入到一个共享数据库里。

  这个特殊的数据库里有一列是用来记录称谓的,并且是可编辑的。但是数据库管理员并没有对这一列的输入规则进行约束,例如只能输入某某先生,某某女士之类的称谓,反而可以接受客服代表输入的任何长达20或30字符的内容。在倾听一些客户愤怒的投诉时,部分客服代表就会给每条记录添加一些他们自己想出来的不完全友善的注释,例如 “这个客户真是个白痴”这类的注释。

  这种情况持续了很多年,因为机构里的其他系统都不会从这个称谓列中提取数据,所以没有人注意到这一情况。其后某天,市场部决定发起一次直接邮寄活动来推广一项新服务。他们想出了一个绝妙的点子:与其花钱购买一份名单,不如利用客服柜台的数据库。

  于是,以诸如“亲爱的白痴客户Linlin”这样的措词抬头的邮件开始源源不断的发到客户邮箱里。

  当然没有任何客户会签约使用这项新服务。该机构直到开始检查他们所发出的邮件时,才弄清楚前因后果。

  我们拥有的数据不是属于我们自己的。如今世界的联系日趋紧密,很可能会有人找到了你的数据,并把它利用在一个你完全想象不到的地方。如果你从别的地方获取数据,那么在你利用它们执行新任务时,必须要确保你的数据质量管理水平过关了。

  判断水平“过不过关”,取决于你要如何利用这些数据。正确性是判断数据质量的基本要素之一,对于直邮产业,数据的准确率达到70%至80%就可能就够了。而对于制药业,你就必须达到99%甚至更高。不过,没有什么公司想要或者需要完美的数据,更不用说为了得到完美数据而付出金钱,因为要数据保持完美的代价太昂贵了。问题是要怎样利用数据,以及数据的准确率达到什么程度才足够好。

  2. 死去的人有没有选举权

  相信大家对数据清洗(Data cleansing)这个术语并不陌生,它是数据整合过程中必须进行的一个复杂过程,通过检测和清除掉垃圾数据(包括不正确、过时、冗余以及不完整的数据),以保证数据的正确性、可靠性、完整性和一致性。从字面上,我们就可以看出数据清洗是一个“生死攸关”的问题。下面讲述的也是“生死攸关”的事例。2006年美国国会选举期间,某政府工作志愿者在通过电话让已登记的选民来投票的过程中发现,每十个选民中有三个是已经死去的人,因此没有资格投票。现代社会里死者数据不全所引发的问题很常见,确实也给生者带来了很大的困扰。

  对于诸如保险公司、投资公司、基金公司、通讯公司等拥有大量客户的服务类企业而言,客户数据是其重要的财富来源。然而,客户数据质量问题却一直是困扰企业开发新服务项目的绊脚石。在一项关于客户数据质量的调查研究中发现,平均而言,8-15%的客户数据记录存在各种问题,例如各种证件号码输入错误、联系方式过期等等。其中有五分之一的数据问题是由于客户的死亡造成的,其中一部分客户死亡时间超过十年却仍保留着股东的身份。

  这并不是客户的疏忽,只是自然发生的问题。私营企业上市、被并购或者拆分,而他们的股东数据却一直被保留着,甚至长达数十年之久。不过这些垃圾数据所引起的问题可能比起在不必要的邮寄费用上浪费一点钱更为严重。最令人担心的问题莫过于欺诈和盗窃ID,如果这些情况发生在颇具影响力的机构组织里,必会导致更为严重的现实问题,例如已故股东的红利被陌生人兑现,继承人的继承权被剥夺,公司机密泄漏等等。

  那么要怎么解决这个问题呢?利用商业评测软件可以识别不同系统的异常数据并做好标记方便检查。即便如此,所有的企业都应当加强重视,做好内部监控,严格执行例行的基本检查。事实上,每一个企业都或多或少存在垃圾数据方面的问题。从风险管理的观点来看,最好的解决方案就是持之以恒地检查。如果你从上文的内容能认识到这个自然发生的现象可能会对你产生什么影响的话,已经有了一个好的开始。

[1]  

【责编:John】

--------------------next---------------------

阅读(471) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~