说是接触大数据也有半年了,周围的人都在做与大数据有关的东西,可惜自己一直在看感兴趣的东西,所以一直对于他们的工作不是十分清楚。今天正好有时间,来了解下吧。
大数据现在是十分火的一个词,原因在于大家从中发现了巨大的机遇还有商机,有人说大数据将引领科学的第四范式,即以大数据为代表的数据密集型分析时代将来临。同大数据一样火的词,还有“大数据安全”。那么什么是大数据安全呢?依我浅见,“大数据安全”指的是与大数据有关的安全事宜,具体来说,一方面是大数据平台应用本身存在的安全问题;另一方面则是利用大数据技术进行的安全应用。简而言之,就是大数据时代的挑战和机遇。
一、大数据技术架构
谈到大数据技术,首先要提的当然是大数据平台了。依靠大数据实现的应用都要在这个基础上实现,大数据技术架构可以分为数据采集与预处理、数据分析以及数据解释三个部分。
数据采集与预处理阶段的主要工作是针对即将处理的数据做数据清洗、集中和存储。因为大数据的其中一“大”就是非结构化,数据种类来源复杂,并不统一,因此需要在进行后续的分析之前,先将数据中的相似、重复甚至不一致的部分进行处理剔除,即“清洗”;然后将处理后的数据存储到文件系统中,由于大数据多位于云平台,因此这里更多的是分布式存储系统,比如HDFS就是其中之一。
数据分析阶段是大数据技术的核心处理部分。从下而上看,可以分成架构、查询索引、语义分析及数据挖掘三个层次。架构上多使用mapreduce的分布式处理架构,查询索引主要针对NoSql数据库进行非结构化数据的处理,而语义分析和数据挖掘则是从中获得需要的信息。周围的同事比较多的在从事HDFS优化,查询索引以及语义分析的工作,现在看就是数据分析阶段的工作。
数据解释阶段的主要工作是将数据分析的结果以友好的方式向用户进行呈现,最常用的就是可视化,做表分析,贴图等等。
还有一些其他的技术,比如数据传输技术,保证数据传说的效率和正确性;比如云下的虚拟集群,用于保证分布式处理。
下面是大数据技术架构的一个示意图:
二、大数据中的安全挑战及关键技术
大数据固然好,但是其作为一个新事物,也引入了一些新问题。比如大数据下的用户隐私保护以及数据的可信性等。
1. 用户隐私保护
大数据下用户的许多数据得以上传共享,虽然在上传的时候进行了一些匿名的处理,但是现有的匿名处理技术效果十分有限。一些原本看似毫无意义的数据联合起来就会体现出新的价值,比如那个来自于《大数据时代》中的著名例子:零售商通过分析历史记录,早于孩子的家长得知女孩怀孕的事实,并向其发送孕期商品广告信息。因此大数据下的用户隐私安全并不是一个简单的匿名那么简单。现有的研究多集中在设计更好的匿名方案,比如数据发布匿名保护技术(用于保护数据来源,不少要用到近世代数的群环域概念),社交网络匿名保护技术(将用户属性如名称、政治态度等看作“点”,其社交联系即为“边”,于是可以用图论来进行刻画,相应的也需要矩阵和图论的数学知识),因此匿名保护这个领域,深入研究的话数学知识是必不可少的。
2. 数据可信性保护
安全的本质在于“信任的边界”,大数据本身是对数据价值的再次挖掘,数据真实有效的重要性不言而喻。但是事实上,由于大数据的数据来源复杂广泛,传输中缺乏必要的保护,因此导致数据的有效性存在被攻击的可能,最常见的莫过于数据的篡改和伪造,一旦数据的真实性受到破坏,根据数据做出的决策和应对也将与现实差之千里。现有的技术采用数据水印技术来保证大数据下数据源的有效性和数据本身的完整性,采用数据溯源技术确保需要时可以计算验证数据本身的真实性,但是溯源技术与用户隐私保护相违背,因此关键在于寻找一个合适的中间点。
3. 大数据访问控制
传统的系统安全基于用户访问控制,即用户获得一定的角色,不同的角色绑定了权限集合,从而实现了权限访问控制。但是大数据下数据种类很多,用户复杂,导致不能简单地位一个用户划定角色,绑定权限,很有可能在实际中需要使用原先没有绑定的数据。因此大数据中适用的是“由下而上”的策略,即根据实际的用户-对象关系由系统自主挖掘抽象出角色,优化后赋予权限。但是具体的实现却很复杂,因为如何建立一套动态的访问控制呢?
三、大数据的安全机遇
上面讲的是大数据面临的安全挑战,这部分来简要说说大数据技术带来的机遇。商业上的决策就不提了,这里重点从技术上来说说安全的机遇。
首先可以使用大数据技术来进行威胁发现,实现预警。这里要做是需要将系统内相关的所有数据都进行采集,范围上不再局限于网络数据,包括用户员工的邮件、通信数据等,时间上不再是发生威胁时的应急响应,而是连续几年的长期监控,由此可以发现原本难以发现的威胁,比如心怀不满的员工,就需要重点关注,有可能做出损害企业利益的行为。IBM建立了IBM大数据安全智能威胁预警系统,专门用于大数据环境下的安全预警。应该说这项技术可以帮助我们发现新威胁,尤其是APT攻击,可以说是现实中最为迫切的一种应用,但是其挑战在于如何确保数据来源的全面性和高效的大数据分析处理能力。
基于大数据的认证技术,与传统的单因子或多因子认证不同,从用户的网络行为,设备地址等开始刻画用户身份,进行识别,想法很好,但是现实很骨感。这种想法很早就有了,通过一个人的网购行为可以刻画出这个人的网络“指纹”,但是如果让我选择,我更喜欢传统认证,因为大数据是一种非确定分析,本质上是概率的,认证领域不应当存在概率性。
基于大数据的数据真实性分析,这里主要用来鉴别各种垃圾信息,比如用户恶意评论,可以从该用户近期许多的负面评论中判断出该评论是恶意的。据说现在Yahoo和新浪微博等都已经开始使用大数据来鉴别垃圾信息。
基于大数据的取证,这是大数据技术在取证领域的扩展,具体内容不是十分了解,但是也离不了各种搜索分析算法。
阅读(1461) | 评论(0) | 转发(0) |