您的位置:首页 > 大数据

大数据环境下数据生成(Data Generation)技术的安全挑战与解决方案

2016-03-16 23:38 615 查看

第1章           挑战

需求:

Data Generation

data curation, classification, policyspecification (eg. anonymization) 

翻译:

数据监护、数据分类、策略规格说明(如匿名化)

第2章           数据监护

关于数据监护的含义 , 根据英国联合信息系统委员会 ( Joint InformationSystems Committee ,JISC)的界定 : “数据监护是为确保数据当前使用之目的 , 并能用于未来再发现及再利用, 从数据产生伊始即对其进行管理和完善的活动 。对于动态数据集而言 ,数据监护意味着需进行持续性补充和更新 ,以使数据符合用户需求”[1]。因此,我们可以看到数据监护的核心在于“持续性补充和更新”。这样会产生两个安全问题:

1)长期的数据监护势必对大数据平台的数据收集服务(Data Collection Service)提出更高的要求:攻击者可以在长时间范围内对大数据系统进行试探性APT攻击或者渗透测试,攻击规模可以非常小,从而使得普通的防火墙检测设备无法察觉该类攻击。

2)数据收集服务(Data Collection Service)在数据拥有者上传自己的数据时,需要对该数据实施版权保护,包括使用数字签名,数据水印等技术,保证源数据方信息不可篡改(即来源真实性)。同时在“持续性补充和更新”过程中时刻保持数据机密性完整性不被破坏。

因此,需要大数据平台的DataCollection Service具备一定的持续性防护能力(Advanced Persistent Defense, APD):

i) 自动化安全运行状态检查能力;

ii) 自动化对平台的服务、程序进行安全服务测试和升级能力;

iii) 自动化对存储数据本身进行安全保障和校验的能力,保证其机密性和完整性不受破坏。

目前,针对APD技术的分析还处于起步阶段,其中的具体问题还有待专家、学者的进一步研究。

第3章           数据分类

数据共享是大数据的现实价值,但隐私保护又关系到公民个体和国家整体的安全。如何平衡大数据使用和隐私保护是亟待解决的问题。

为了解决该问题,数据分类就是一种行之有效的解决方案。数据分类是指将数据分类为每一类不含用户隐私的测试用数据,减少数据之间的关联性。但是由于结构化数据在大数据时代关联性非常紧密,使得单个数据集的脱敏不能解决两个各自不敏感数据集放在一起就变为敏感数据集这类的问题,因此需要针对具体行业和具体问题开发、采用不同的分类技术。因此,数据分类的本质是:将原有数据分成互不相关的数据,减少其内在关联性,从而有利于减少隐私泄露事件的发生。数据分类的处理过程主要发生在数据收集阶段(即Data Collection Service)。

为了给出一种界限清晰的分类方法,有必要按照不同的层次给出数据分类模型。以下的数据分类方法遵循四级分类模型[2],这个模型的最高类别只包含容易辨别的少量数据元素。以下是关于该数据分类模型的内涵:

1)高度敏感数据:高度敏感数据如果被不正当地披露了,其潜在地对公司声誉,财务或营运影响很大,所以是一类要求有极高级别监督和控制的数据。这类数据应该是精心挑选,明确分类的可列举元素。如:社会安全号码,信用卡号码和驾驶证号码列表。

2)敏感数据:敏感数据如果被不正当披露,可能会对组织有严重的不利影响,所以其信息应该限制为只被某些用户组使用。这是一类“当你看到你就知道它”的数据,其包含组织的一些机密,但是又没有到“高度敏感数据”的级别。例如,这些数据可能包含组织尚未公开发布的新产品发展计划。公共数据,正如其名字所暗示的,这一类数据并不涉及机密并可以向公众发布。

3)公共数据:公共数据包含你会在公司网站或贸易展上展示的信息,如:产品说明书,公开的价格清单和公司基本联系方式信息。

4)内部数据:内部数据包含除以上三类之外的其它数据。你不会将这类数据无限制地展示在网络上,但是如果其意外泄漏,也不会真正伤害到公司利益。如:你的内部电话目录或订房列表。

我们首先需要制定如上的数据分类方案,然后将所有的组织数据适当分类,最后为每个类别明确地制定和实施其需要的安全策略。从而实现个性化的、不同粒度的隐私保护目标。

第4章           策略规格说明

策略规格说明,主要包括数据匿名化等技术。该技术主要发生在数据收集阶段,即Data Collection Service部分。当安全策略中指定要求大数据平台对数据进行匿名处理时,Data Collection Service组件会针对具体需求提供相应的数据匿名化方案。

在大数据时代,不同的数据消费者(如政府、公司)对数据有着不同的需求,这也要求大数据收集平台(Data Collection Service)提供不同的匿名化方案。如政府对商业数据的敏感度较低,但对偏政治的数据可能敏感度较高。公司则反之。因此,通过对海量数据的掌握和分析,并对数据消费者的特点进行分析和评估,可为提供更加专业化和个性化的服务,有助于有效地保护个人隐私、商业秘密乃至国家机密,是将来研究的一个重要挑战。

目前学界提出了很多匿名化技术。包括k匿名模型[3, 4]、差分隐私技术[5]等。通过这些技术的应用,一方面能够减少数据隐私暴露的程度,另一方面,尽量提高数据的可用性,减少噪音带来的误差。如何将这些匿名化技术与数据安全策略规范进行深度整合,还有待进一步研究。

第5章           参考文献

[1] Lord, Philip, and Alison Macdonald. E-Sciencecuration report: Data curation for e-Science in the UK: An audit to establishrequirements for future curation and provision. Digital Archiving ConsultancyLimited, 2003.

[2] Tittle, Ed, James M. Stewart, and MikeChapple. CISSP: Certified information systems security professional studyguide. John Wiley & Sons, 2006.

[3] Sweeney, Latanya. "k-anonymity: A modelfor protecting privacy." International Journal of Uncertainty, Fuzzinessand Knowledge-Based Systems 10.05 (2002): 557-570.

[4] Wang, Qian, Zhiwei Xu, and Shengzhi Qu."An Enhanced K-Anonymity Model against Homogeneity Attack." Journalof software 6.10 (2011): 1945-1952.

[5] Hall, Rob, Alessandro Rinaldo, and LarryWasserman. "Differential privacy for functions and functional data."The Journal of Machine Learning Research 14.1 (2013): 703-727.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  大数据 安全 云平台