隐私保护数据发布模型与算法(差分隐私算法在数据安全中的应用)
隐私保护数据发布模型与算法(差分隐私算法在数据安全中的应用)--差分隐私从数学上给出了严格的证明,可以有效屏蔽包括成员推理攻击、属性推理攻击等攻击手段,因此,受到了Google、苹果、微软等科技公司的关注并被广泛应用。随着大数据时代的降临,机器学习模型需要大量的训练数据来保证模型性能,因此,各家公司或者相关机构都希望能够获取数量多且质量好的数据。尤其在互联网时代,数据通常分散存储,如何在数据使用时保护用户的社交信息、医疗信息、金融信息等是一个广泛关注的问题。匿名化方法是较为常用的隐私保护的方法。在对外发布的数据库中,机构主体通常会将姓名等敏感信息做匿名化处理。但是,在大数据时代,由于可以获取到外部数据库,通过比对和关联分析,可以推理出敏感信息,而造成隐私信息泄露。因此匿名化方法往往无法提供良好的个人敏感信息保护。相反,在机器学习领域,如果不发布数据,而只发布训练模型,个人隐私仍然不能得到有效的保障,例如,模型的逆向攻击或者成员推理攻击,都可以通过对
导读:本次分享主题为差分隐私原理以及在数据安全中的应用。主要包括以下内容:
- 隐私保护的挑战
- 差分隐私的原理
- 差分隐私算法
- 差分隐私应用
- 前景与展望
01
隐私保护的挑战
本文将更关注“模型的隐私保护”,而不完全是“数据的隐私保护”。
随着大数据时代的降临,机器学习模型需要大量的训练数据来保证模型性能,因此,各家公司或者相关机构都希望能够获取数量多且质量好的数据。尤其在互联网时代,数据通常分散存储,如何在数据使用时保护用户的社交信息、医疗信息、金融信息等是一个广泛关注的问题。
匿名化方法是较为常用的隐私保护的方法。在对外发布的数据库中,机构主体通常会将姓名等敏感信息做匿名化处理。但是,在大数据时代,由于可以获取到外部数据库,通过比对和关联分析,可以推理出敏感信息,而造成隐私信息泄露。因此匿名化方法往往无法提供良好的个人敏感信息保护。
相反,在机器学习领域,如果不发布数据,而只发布训练模型,个人隐私仍然不能得到有效的保障,例如,模型的逆向攻击或者成员推理攻击,都可以通过对模型的解析推理窃取原始数据。因此,为了保护数据,我们需要寻找有数学保证的隐私保护方法。
差分隐私从数学上给出了严格的证明,可以有效屏蔽包括成员推理攻击、属性推理攻击等攻击手段,因此,受到了Google、苹果、微软等科技公司的关注并被广泛应用。
--
02
差分隐私原理
通常,攻击者根据发布者所对外发布的模型推断数据的原始信息。其攻击的第一步是判断各个训练模型的训练数据集包含哪些样本。差分隐私的原理是使攻击者对任意数据库都无法判断模型是由哪个数据集训练得到的,以此来保证个人隐私。例如,如图中所示,对仅有一条数据样本不同的任意两个数据集D和D’,模型训练得到的模型非常相似,攻击者无法推断出模型A和B是由哪一个数据集训练得到的,那么个人数据隐私就有了保证。
差分隐私的具体定义是:如果数据集D,D’中仅有一条数据样本不同,则称它们互为相邻数据集,记作集~。如果在相邻数据集D,D’上,对于算法A值域中的所有事件S,即S∈rang(A),满足如下不等式:
则该算法满足ε-差分隐私。
从差分隐私的数学定义可以看出,差分隐私要求算法A在相邻数据集上的输出分布具有相似性,相似性越大,ε 越小,所对应的模型隐私性越强。
那么,差分隐私是如何保证攻击者无法分辨由相邻数据集D,D’训练得到的模型?通过在传统方法训练得到的机器学习模型中加入随机噪声,得到满足差分隐私定义的机器学习模型。
--
03
差分隐私算法
差分隐私有三种添加随机噪声的方式以保证模型的差分隐私性。
(1)输出扰动:假设 θ 为模型参数,x为数据样本特征,为数据样本标签,f(θ;x y)为机器学习模型的目标函数。则输出扰动方法将通过如下公式,输出满足差分隐私定义的机器学习模型 。
其中,z为噪声。
输出扰动方法的基本思想是:在通过传统方法训练的机器学习模型参数上加入噪声,得到满足差分隐私定义的机器学习模型。
输出扰动方法的优点是:操作简单,原理清晰。缺点是:对输出模型的扰动可能会影响模型的性能,甚至会导致输出模型无法应用到新数据集。
(2)目标函数扰动:目标函数扰动方法将通过如下公式,输出满足差分隐私定义的机器学习模型。
目标函数扰动方法的基本思想是:在机器学习模型所需要优化的目标函数中加入噪声,得到满足差分隐私定义的机器学习模型 。
目标函数扰动的缺点是:对目标函数的扰动可能会使模型不能收敛到最优,而影响模型的性能。
(3)梯度扰动:梯度扰动方法将通过如下公式,输出满足差分隐私定义的机器学习模型。
梯度扰动的基本思想是:对每一回合中目标函数的梯度加入噪声,得到满足差分隐私定义的机器学习模型。
梯度扰动通过在梯度加入噪声,因此还可以得到较优的训练模型,是最得到广泛应用的一种扰动方式。
但在模型中加入随机噪声并不一定导致性能下降,如图所示,通过梯度扰动的方法,在目标函数的梯度加入噪声,将可能跳出鞍点/局部最小点,并加速收敛。此外,对于满足差分隐私定义的机器学习模型中,由于已经加入噪声,将减少由数据样本扰动所引起的模型性能下降,即增加模型鲁棒性。
在传统的差分隐私算法中,将所有训练数据等同视之,利用任意数据对模型进行训练时均添加同样的随机噪声。但是在实际训练时,不同的数据点对模型的贡献是不同的,因此,对于一些贡献小的点,若不添加噪声,仍然可以得到满足差分隐私定义的机器学习模型。基于此,我们对于传统的差分隐私进行改进,得到了数据异质性差分隐私算法。
在改进的数据异质性差分隐私算法中,若某条数据对模型输出的影响很小,攻击者本就无法分辨该条数据是否训练,那么在利用该条数据训练模型时,就不必对其添加噪声。
相较与传统的差分隐私算法,改进的数据异质性差分隐私算法将在梯度下降前先对数据点对模型的性能进行判断。具体的,每一回合进行梯度更新时,将计算每一个数据点对于最终模型性能的影响分数,并设置阈值,如果影响分数小于阈值,说明影响很小,以至于攻击者无法从中得到有用的信息,那么则不添加噪声,以此减少模型训练中噪声添加的总量,进而提升模型精度。
如图所示,是我们提出的数据异质性差分隐私算法与其他经典差分隐私算法的比较,可以发现,我们提出的数据异质性差分隐私算法在经验风险和总体风险上是有提升的。此外,由于实际问题大多是非凸问题,我们需要注意差分隐私算法在非凸问题上的应用,而数据异质性差分隐私算法是可以保证非凸问题的求解。
上图为数据异质性差分隐私算法与其他经典差分隐私算法的实验比较结果,从图可以看出,总体上数据异质性差分隐私算法在准确率上是最高的,并且在凸问题和非凸问题上都具有最高的模型性能。
--
04
差分隐私应用
首先,差分隐私可以应用于联邦学习中。在实际的联邦学习模型中,模型参数可能多达百万甚至上亿,此时若使用同态加密等其他隐私保护算法,其实际的计算量和传输负载将难以承受,而应用差分隐私则可以解决这个问题。
但相对分布式学习,联邦学习的技术难点在于:
①数据集非独立同分布;②不平衡的数据集;③慢速且不稳定的通信连接。
在概率论与统计学中,独立同分布(Independent and identically distributed,IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。例如,如图中所示,左上图是一只猫的真实照片,但右上图是一只猫的卡通图片,这两只猫的图片是非独立同分布的。
基于隐私考虑,联邦学习使用模型交互代替数据交互,而由于用户的使用习惯不同等原因,联邦学习中各客户机的本地数据之间是非独立同分布(Non-IID)的。数据的非独立同分布可以分为:数据分布不同和数据量不相等。而联邦学习的全局模型是本地模型的加权平均,所以Non-IID问题严重影响了全局模型的效果。
在具有非独立同分布数据集的联邦学习下,我们首先做出两个假设,假设1:对于一个服务器与K个客户机,第k个客户机上的数据量为,服从概率分布。
假设2:全局分布为本地分布组成的混合分布
,其中每个客户端的混合权重为。在这种情况下,全局模型合并方式为本地模型的加权平均:
,
为第个本地模型的组合权重。
在非独立同分布联邦学习下,依据Excess Risk Bound理论,能够得到最优的模型性能。Excess risk主要考虑的是当前分类器与最优的分类器的泛化误差的差距。其中,Excess risk上界限由两部分组成:两个分布之间的距离,特征映射的范数。因此,依据Excess Risk Bound理论,我们重新设计机器学习模型的目标函数。并重新设计了联邦学习在非独立同分布下的算法。
如图所示,通过计算每个客户端分布的参数,并修改目标函数,以训练模型减小各个客户端分布的距离。
通过对比不同算法在不同数据集上的测试准确率,可以发现我们所提出的FedAvgR算法在多组Non-IID数据上的测试精度显著优于其他算法。
并且由具有不同正则化项的FedAvgR在不同数据集上的测试准确率,可以发现,分布不一致性距离的约束对算法效果的提升影响最大,与所提出的理论相契合。
如图为不同通信回合下,联邦学习特征空间分布的变化。可以发现,随着训练的进行,本地特征分布与全局特征分布之间的不一致性距离逐渐减小。
--
05
前景与展望
基于人工智能领域的发展现状,差分隐私机器学习领域还有如下难点:
- 非凸问题:现有的复杂深度模型往往是高度非凸的,该类问题下如何提升模型精度仍是难点。
- 非iid问题:联邦学习的现实场景中,不同数据源所拥有的数据往往无法满足iid假设,该类问题仍是研究的重点。
今天的分享就到这里,谢谢大家。
分享嘉宾:刘勇 中国人民大学 副教授 博导
编辑整理:毕东海 大连理工大学
出品平台:DataFunTalk
01/分享嘉宾
刘勇|中国人民大学 副教授 博导
中国人民大学,副教授、博士生导师。博士毕业于天津大学。从事机器学习研究,特别关注大规模机器学习、统计机器学习理论、隐私学习等。在顶级期刊和会议上发表论文40余篇,其中以第一作者或通讯作者发表CCF A类文章30余篇,涵盖机器学习领域顶级期刊TPAMI、TIP、TNNLS、TCBY和ICML,NeurIPS,ICLR,IJCAI,AAAI机器学习5大顶级会议。获中国人民大学“杰出学者”、中国科学院“青年创新促进会”会员以及中国科学院信息工程研究所“引进优秀人才”称号。主持多项科研基金项目,包括国家自然科学基金面上项目/青年基金、中国科学院基础前沿科学研究计划、腾讯犀牛鸟基金、联通联合项目、华为联合项目等。
02/关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800 ,百万 阅读,15万 精准粉丝。