大数据安全标准化(大数据安全和隐私保护)
大数据安全标准化(大数据安全和隐私保护)(2)人类轨迹产生的数据。包括在现代工业制造链中,从采购、生产、物流与销售市场的内部流程以及外部互联网讯息等,都是此类大数据的应用场景。通过行为轨迹数据与设备数据的结合,大数据可以帮助我们实现客户的分析和挖掘,它的应用场景包括了实时核心、交易、服务和后台服务等。(1)数据来源与智能设备。普适计算有很大的空间,现代工人可以带一个普适感应器等设备来参加生产和管理。所以工业数据源是280亿左右大量设备之间的关联,这个是我们未来需要去采纳的数据源之一。1)大数据的概念普遍的观点认为,大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集,大数据的常见特点包括大规模(volume)、高速性(velocity)和多样性(variety)等。大数据价值的关键在于数据分析和利用,但同时对用户隐私产生威胁。在大数据时代,想屏蔽外部数据商挖掘个人信息是很难实现的。通过社交网站中的信
引自:《智能制造信息安全技术》(作者:秦志光 聂旭云 秦臻)
「1. 概述 」当今,社会信息化和网络化的发展导致数据的爆炸式增长,但是安全和隐私问题是人们公认的关键问题。在大数据时代,数据对人们的日常生活、生产经济方式等都有着潜移默化的影响,是现今社会各界的关注热点。目前,大数据的收集、综合应用技术还不够成熟,人们使用大数据的同时还面临着一系列的安全问题:信息真实性没有保障,用户隐私泄露[1]等。
IBM 2015年度全球数据泄露成本调查显示(图1):调研的350家跨国公司的数据泄露平均成本高达379万美元,每条丢失或被窃记录(包含敏感和机密信息)的平均支付成本高达154美元[2]。大数据时代的安全及隐私保护形势异常艰巨。
图1 各行业数据泄露成本
1)大数据的概念
普遍的观点认为,大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集,大数据的常见特点包括大规模(volume)、高速性(velocity)和多样性(variety)等。大数据价值的关键在于数据分析和利用,但同时对用户隐私产生威胁。在大数据时代,想屏蔽外部数据商挖掘个人信息是很难实现的。通过社交网站中的信息、智能手机的位置信息等多种数据组合,已经可以以非常高的精度锁定个人,挖掘出个人信息体系,造成用户隐私安全问题。
2)工业大数据的来源
(1)数据来源与智能设备。普适计算有很大的空间,现代工人可以带一个普适感应器等设备来参加生产和管理。所以工业数据源是280亿左右大量设备之间的关联,这个是我们未来需要去采纳的数据源之一。
(2)人类轨迹产生的数据。包括在现代工业制造链中,从采购、生产、物流与销售市场的内部流程以及外部互联网讯息等,都是此类大数据的应用场景。通过行为轨迹数据与设备数据的结合,大数据可以帮助我们实现客户的分析和挖掘,它的应用场景包括了实时核心、交易、服务和后台服务等。
3)工控系统的安全问题
智能制造融合了云计算、大数据、物联网等技术,实现柔性和动态的生产线,能够实现资源共享、生产自动化与智能化,是世界工业的发展方向。近年来工控安全事件频发,工控系统成为黑客密集攻击的目标。智能制造使生产制造环节从封闭的网络环境走向开放的互联网环境,带来新的安全挑战。工控系统与IT系统的一大区别是,前者直接与实际受控物理设备互动。一旦工控系统遭受破坏,可能导致物理世界中不可逆转的重大灾难。因此工控信息安全比单纯企业信息系统的安全问题更加重要。智能制造将云计算、大数据、物联网等技术引入工业制造,在提升生产效率的同时,也将工控系统至于更加开放不确定的环境中,安全问题可能更加严峻。
从技术角度来说:
(1)传统数据管理普遍采用关系型数据库,经过长期改进,其在维护数据安全方面已经非常完善。而大数据依托的基础技术是非关系型数据库,其并没有严格的访问控制机制及完善隐私管理工具。
(2)大数据的来源和承载方式多种多样(包括智能手机、Pad、IoT、车联网、各类传感器等),数据分散于各个角落,使得企业将很难定位这些数据和保护所有机密信息。
(3)非关系型数据库允许不断对数据记录添加属性,其前瞻安全性变得非常重要,对数据库管理也提出了新的要求。
降低安全泄露风险的常用技术及角度包括:数据加密技术、个人角度降低数据泄露风险、厂商角度降低数据泄露风险等。
(1)数据加密技术:在数据生成后,可以采用数据加密,进而有效防止数据库信息失密性的有效手段。通过不同层次的密钥对不同的数据信息进行加密处理,可以大大提高数据库数据的安全强度。由于在解密时必须对应匹配的密钥版本,加密时就尽量地挑选最新的加密算法。
(2)个人角度降低数据泄露风险:想要规避隐私泄漏风险,需要提高个人账号密码复杂度,尤其是涉及支付类网络服务的账号密码要使用非常用密码,对能够进行多重密码保护的账号尽可能的完成多重保护操作;其次是选择正规下载站点或APP应用商店,不要随便安装不明应用;最后是要养成良好的上网习惯,谨慎提交个人信息,对于安装的手机应用服务,可查看设置权限,禁止获取不必要的个人数据信息。
(3)厂商角度降低数据泄露风险:厂商方面保护用户信息安全有三个原则:用户信息是用户个人资产。虽然用户产生的数据及信息存储在厂商的服务器或云端,但从所有权方面讲应该明确地属于用户,是用户财产;厂商获取及使用用户数据信息,用户要有选择权、知情权和拒绝权;安全责任原则。与传统互联网时代网络信息安全只是互联网安全公司的事不同,在大数据时代,任何一家互联网公司都有责任保护用户信息安全,要在云端对用户数据进行足够强度加密,实现安全存储。
「2. 大数据面临的安全风险 」科学技术是一把双刃剑,大数据所引发的安全问题与其带来的价值同样引人注目。
1)大数据引发的安全问题
与传统的信息安全问题相比,大数据带来的安全挑战包括大数据中的用户隐私保护、大数据的可信性和如何实现大数据的访问控制[3]等。大量事实表明,大数据未被妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同,隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。大数据中的用户隐私保护不仅限于个人隐私泄露,还在于基于大数据对人们状态和行为的预测。目前用户数据的收集、管理和使用缺乏监管,主要依靠企业自律。大数据的可信性的威胁之一是伪造或刻意伪造数据,而错误的数据往往会导致错误的结论。威胁之二是数据在传播中逐步失真。至于如何实现大数据的访问控制,难点在于难以预设角色,实现角色划分;难以预知每个角色的实际权限。
传统的工业控制网络中企业信息网与内部的生产控制网络组成一个较封闭的环境。要入侵这样的系统,需要通过介质的摆渡攻击或者恶意邮件、买通内部员工等社会工程手段来入侵。智能制造的变革打破了传统ICS的封闭环境,它融合云计算技术、大数据技术、物联网技术,将生产制造环节与互联网信息系统连接起来,实现资源整合共享、生产智能化自动化,从而达到降低运营成本、缩短研制周期、提高生产效率的目标。智能制造不仅要求企业信息网络连入互联网,而且要求将原来较为独立的生产制造环节与公司的业务信息系统(如仓储系统、采购系统)连接起来。通过公司的业务系统,能对来自互联网的用户请求做出快速响应。工业大数据能帮助设计生产更加智能化、可实现柔性和动态的生产线,这也要求原本封闭的工控网络与外部建立连接。由于工控网络和信息网络的互联互通,病毒和恶意程序也更容易从信息网络扩展到工控网络。
随着结构化数据和非结构化数据量的持续增长以及分析数据来源的多样化,以往的存储系统已经无法满足大数据应用的需要。对于占数据总量80%以上的非结构化数据,通常采用非关系型数据库(NoSQL)存储技术完成对大数据的抓取、管理和处理。虽然NoSQL数据存储易扩展、高可用、性能好,但是仍存在一些问题。例如,访问控制和隐私管理模式问题、技术漏洞和成熟度问题、授权与验证的安全问题、数据管理与保密问题等。而结构化数据的安全防护也存在漏洞,例如物理故障、人为误操作、软件问题、病毒、木马和黑客攻击等因素都可能严重威胁数据的安全性。大数据所带来的存储容量问题、延迟、并发访问、安全问题、成本问题等,对大数据的存储系统架构和安全防护提出挑战。
对于数据库系统来说,它受到的威胁主要有:对数据库的不正确访问,引起数据库数据的错误;为了某种目的,故意破坏数据库,使其不能恢复;非法访问不该访问的数据库信息,且又不留痕迹;用户通过网络进行数据库访问时,有可能受到各种技术的攻击;未经授权非法修改数据库数据,使其失去真实性;硬件毁坏;自然灾害;电磁干扰等。(图2)
图2 各种威胁
在数据存储环节,最为核心的就是数据库的安全。保证数据库安全主要考虑4个层面:物理安全、操作系统安全、DBMS安全和数据库加密。前3层不足以保证数据的机密性,数据库加密能保证敏感信息以密文的形式存在从而受到保护。为了保护数据库中的敏感数据,采取数据加密和访问控制的双重机制。此外,为保证数据库管理系统(DBMS)的安全,其措施主要有信息流控制(information flow control)、推导控制(inference control )和访问控制(access control),其中应用最广且最为有效的是访问控制措施。
数据库加密技术也是保证数据库安全的重要措施之一。数据加密技术主要是利用一些语言程序将数据进行加密,对数据进行隐秘保护,这样数据在传输的过程中可以确保网络数据库运行的安全性、可靠性。近些年来,数据加密技术也在不断改进和创新,相比于传统的加密技术来说,数据加密技术本身就具备一种特殊的技术手段,事先将报文数据进行加密,但因网络数据库的资源量较为庞大——对数据进行加密也不太现实,因此,在对计算机网络数据库数据进行加密时,可以对其采取层次划分、筛选的方式,并对符合条件的数据对其进行加密处理,从而有效地保证数据的安全性,提升计算机网络数据库运行的安全性、可靠性。
在数据分析及应用阶段,存在安全、隐私问题,其原因包括[4]:
(1)关联属性。在大数据分析及应用阶段,可以通过用户零散数据之间的关联属性,将某个人的很多行为数据聚集在一起时,他的隐私就很可能会暴露,因为有关他的信息已经足够多,这种隐性的数据暴露往往是个人无法预知和控制的。(即通过大数据的关联分析)
(2)基于大数据的个人状态及行为预测。在大数据时代,人们面临的威胁并不仅限于个人隐私泄露,还在于基于大数据对人们状态和行为的预测。例如零售商可以通过历史纪录分析,得到顾客在衣食住行等方面的爱好、倾向等;社交网络分析研究也表明,可以通过其中的群组特性发现用户的属性,例如通过分析用户的微博等信息,可以发现用户的政治倾向、消费习惯以及其它爱好等。
2)智能制造环境下的工控系统面临的安全挑战
(1)工业网络IP化为入侵提供了更方便的攻击途径。物联网技术的引入和工业大数据的使用需要,智能工厂环境中的设计制造环节和互联网产生更多的连接,并在更多的场景中使用TCP/IP协议进行通信。整个控制系统都可以和远程终端互连,导致工控系统遭受网络入侵和威胁的风险大幅增加。
(2)终端接入多样化增加了网络管理的困难。随着以太网、无线网引入生产、管理的各个方面,接入的终端变得多样化,终端上可能运行各种操作系统以及各种应用,各种应用又存在着多种多样的安全漏洞。无疑增加了安全管理的难度,终端准入的工作复杂度提高。
(3)开放环境使得工控系统的组件的脆弱性更加彰显。目前国内工业控制系统(比如DCS、SCADA系统、PLC等)以国外产品为主且依赖严重。从目前已经发生的工控安全事件来看,其存在不少零日漏洞。包括HMI终端,多采用Windows系统,且版本陈旧,容易被攻破。智能制造环境使得这些弱点暴露在网络入侵和威胁范围之内。
(4)5G网络技术的应用将伴生更多的安全问题。5G网络通过综合运用软件定义网络(software defined network,SDN)、网络功能虚拟化(network function virtualization,NFV)及云计算等技术,具备软定义、可编程、高动态扩展和极度灵活等特性。针对于个人用户,5G将可提供超出4G网络1000倍的极值速率、对大规模用户访问以及异构网络的无缝连接提供支持,并将确保实现高速移动条件下(500km/h)网络的持续性。5G可以降低智能硬件的能耗,而且通过D2D(device to device)、M2M(machine to machine)、MMTC(massive machine type of communication)等技术对物联网提供支持,将进一步促进物联网的广泛发展。智能制造环境也必将引入5G网络技术来改善物联网的生产环境。然而由于5G网络的开放、软件化和可编程化,相较于4G网络,5G网络将更容易受到安全攻击,未来5G网络的推广也将伴生新的安全问题。
3)对于隐私保护我们可以采取的措施
(1)数据采集时的隐私保护,如数据精度处理;
(2)数据共享、发布时的隐私保护,如数据的匿名处理、人工加扰等;
(3)数据分析时的隐私保护;
(4)数据生命周期的隐私保护;
(5)隐私数据可信销毁等。
关于大数据的一个普遍的观点是,数据自己可以说明一切,数据自身就是事实。但实际情况是,如果不仔细甄别,数据也会欺骗,就像人们有时会被自己的双眼欺骗一样。大数据可信性的威胁之一是伪造或刻意制造的数据,而错误的数据往往会导致错误的结论。若数据应用场景明确,就可能有人刻意制造数据、营造某种“假象”,诱导分析者得出对其有利的结论。由于虚假信息往往隐藏于大量信息中,使得人们无法鉴别真伪,从而做出错误判断。大数据可信性的威胁之二是数据在传播中的逐步失真。原因之一是人工干预的数据采集过程可能引入误差,由于失误导致数据失真与偏差,最终影响数据分析结果的准确性。此外,数据失真还有数据的版本变更的因素。在传播过程中,现实情况发生了变化,早期采集的数据已经不能反映真实情况。因此,大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等,了解各项数据的可信度,防止分析得出无意义或者错误的结果。
「3. 大数据安全与隐私保护发展现状 」2012年11月1日,百度、奇虎360、搜狗、腾讯、网易、新浪等12家搜索引擎服务企业在北京签署了《互联网搜索引擎服务自律公约》,第一次明文规定搜索引擎服务商必须遵循国际通行的行业管理与商业规则,遵守机器人协议(Robots协议)。该协议的第10条明确指出“搜索引擎服务提供者有义务协助保护用户隐私和个人信息安全,收到权利人符合法律规定的通知后,应及时删除、断开侵权内容链接”。此前,关于金山指责360“涉嫌偷窃用户隐私”,继而几家大公司进行混战的事情一度引起人们对于用户隐私保护的急切关注。
在国外,2012年10月15日,新加坡国会通过了个人信息保护案;同月,微软为加强用户隐私保护宣布全面禁止跟踪Cookies,而Google的新隐私政策则遭到消费者隐私保护组织的强烈反对并付诸法律诉讼。据悉,在美国北卡罗莱纳州有人因雇主看了Facebook上的信息而造成求职失败,于是求职者对雇主起诉并打赢了官司。为此,北卡罗莱纳州甚至立法规定雇主不得对个人隐私进行网上监控。大量事实表明,对大数据未能妥善处理会对用户隐私造成极大侵害。
近年来,“大数据安全”“隐私保护”等相关期刊论文增长趋势明显,学术界对“大数据安全”研究逐年增多。通过对“bigdata”“security”“privacy”在Engineering Village期刊论文检索,我们发现检索量自2014年以来呈几何倍数快速增长。Hakuta. K等展示了大数据安全和隐私方面所面临的挑战有关一些最新研究成果,确定了获取大数据相关信息和知识的三个阶段,得出大数据安全生命周期模型,并从数据收集、存储、分析、应用四个方面提升数据安全。Murthy P. K给出了大数据安全和隐私挑战论述,强调这些挑战将促使人们更加关注加强大数据基础设施。陈兴蜀等介绍了数据安全相关法律法规以及标准现状。
参考文献
[1]冯登国.大数据安全及隐私保护[M].清华大学出版社,2018.
[2]IBM.2020年数据泄露成本报告[EB/OL].2020-07.
[3]冯登国,张敏,李昊.大数据安全与隐私保护[N].计算机学报,2013.
[4]徐乐西,叶海纳.大数据安全及隐私保护浅析.通信大数据分析及应用,2016.