分享

前沿研究丨隐私计算的概念、框架及趋势

 懒人葛优瘫 2020-12-10

本文选自中国工程院院刊《Engineering》2019年第6期

作者:李凤华,李晖,牛犇,陈金俊

来源:Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192.

编者按

随着信息技术的快速发展和个性化服务的不断演进,海量用户个人信息数据的频繁跨境、跨系统、跨生态圈交互已成为常态,加剧了隐私信息在不同信息系统中有意/无意留存,随之而来的隐私信息保护短板效应、隐私侵犯追踪溯源难等问题越来越严重,现有的隐私保护方案已不能提供体系化的保护。

中国工程院院刊《Engineering》刊发《隐私计算——概念、计算框架及其未来发展趋势》,从信息采集、存储、处理、发布(含交换)、销毁等全生命周期的各个环节出发,阐明了现有常见应用场景下隐私保护算法的局限性,提出了隐私计算理论及关键技术体系,其核心内容包括:隐私计算框架、隐私计算形式化定义、隐私计算应遵循的4个原则、算法设计准则、隐私保护效果评估、隐私计算语言等内容。文章以4个应用场景为示例描述了隐私计算的普适性应用,并展望了隐私计算的未来研究方向和待解决问题,期待指引开放环境下用户隐私保护等方面的理论与技术研究。

前沿研究丨隐私计算的概念、框架及趋势

一、引言

信息技术、移动通信技术等的紧密结合与快速发展,以及智能终端软硬件的不断升级与换代,促进了互联网、移动互联网、云计算、大数据、物联网等方面的技术发展,同时催生了以Amazon/淘宝为代表的电商、以Facebook/微信为代表的社交、以Uber/滴滴为代表的出行等各种新型服务模式,大幅度提升了人们的生活品质。

然而,新技术、新服务模式的产生与快速发展促使海量用户个人信息跨系统、跨生态圈甚至跨境交互成为常态,用户个人信息在采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节中不可避免地会在不同信息系统中留存,导致信息的所有权、管理权与使用权分离,严重威胁了用户的知情权、删除权/被遗忘权、延伸授权。另一方面,缺少有效的监测技术支撑,导致隐私侵犯溯源取证困难。

现有隐私保护方案大都聚焦于相对孤立的应用场景和技术点,针对给定的应用场景中存在的具体问题提出解决方案

基于访问控制技术的隐私保护方案适用于单一信息系统,但元数据存储、发布等环节的隐私保护问题并未解决。

基于密码学的隐私保护方案也同样仅适用于单一信息系统,虽然借助可信第三方实施密钥管理可以实现多信息系统之间的隐私信息交换,但交换后的隐私信息的删除权/被遗忘权、延伸授权并未解决。

基于泛化、混淆、匿名等技术的隐私保护方案因对数据进行了模糊处理,经过处理后的数据不能被还原,适用于单次去隐私化、隐私保护力度逐级加大的多次去隐私化等应用场景,但因这类隐私保护方案降低了数据可用性,导致在实际信息系统中,经常采用保护能力较弱的这类隐私保护方案,或者同时保存原始数据。

目前缺乏能够将隐私信息与保护需求一体化的描述方法及计算模型,并缺乏能实现跨系统隐私信息交换、多业务需求隐私信息共享、动态去隐私化等复杂应用场景下的按需隐私保护计算架构

总之,现有隐私保护技术无法满足复杂信息系统的隐私保护需求,导致电子商务、社交网络等典型应用场景下的隐私保护问题尚未得到根本性解决。为此,本文从隐私信息全生命周期保护的角度出发,针对复杂应用场景下的体系化隐私保护需求,提出了隐私计算理论及关键技术体系,包括隐私计算框架、隐私计算形式化定义、隐私计算应遵循的四个原则、算法设计准则、隐私保护效果评估、隐私计算语言等内容,以图像、位置隐私保护等应用场景为示例描述了隐私计算的普适性应用,并展望了隐私计算的未来研究方向和待解决问题。

二、国内外现状

现有的隐私保护研究主要集中在信息处理过程中的隐私保护、隐私度量与评估两个方面

(一)信息处理过程中的隐私保护

学术界在信息采集、存储、处理、发布(含交换)、销毁等各个环节均开展了隐私信息保护研究,并在社交网络、位置服务、云计算等典型应用场景下提出了大量保护方案,其隐私保护方法主要分为访问控制、信息混淆、密码学等三类

访问控制技术通过制定信息资源的访问策略以保证只有被授权的主体才能访问信息,从而实现信息的隐私保护。近年来,多个基于访问控制的隐私保护方案被相继提出。Scherzer等提出了基于强制访问控制(MAC)模型的高可用智能卡隐私保护方案。Slamanig则提出了基于自主访问控制(DAC)模型的外包数据存储隐私保护方案。为了提高权限管理效率,Sandhu等提出了角色访问控制(RBAC),用户通过成为适当的角色成员获得相应的信息访问权限,极大地简化了复杂场景中的权限管理。Dafa-Alla等基于角色访问控制提出了一种适用于多场景的隐私保护数据挖掘方法。2018年,Li等提出了面向网络空间的访问控制模型(CoAC),该模型涵盖了访问请求实体、广义时态、接入点、访问设备、网络、资源、网络交互图和资源传播链等要素,可有效防止由于数据所有权与管理权分离、信息二次/多次转发等带来的安全问题。基于此模型,他们提出了一种基于场景的访问控制方法——HideMe,为照片分享应用中的用户提供隐私保护。此外,基于属性的加密(ABE)将用户的身份标识形式化为一系列的属性,并将属性信息嵌入加解密的过程中,使公钥密码体制具备了细粒度访问控制的能力。FINE方案利用基于属性加密的密码学算法来实现细粒度的访问控制,保护了用户的位置隐私。

信息混淆技术是基于特定策略修改真实的原始数据,使攻击者无法通过发布后的数据来获取真实数据信息,进而实现隐私保护。k-匿名、l-多样性和t-近邻等多种匿名化技术通过将用户的原始数据隐藏到一个匿名空间中实现敏感信息的隐私保护。差分隐私由于对攻击者的背景知识无要求而成为一种被广泛认可的隐私保护技术,文献将差分技术与位置大数据服务相结合,针对发布数据聚集易受相似性攻击的问题,提出一种最大化差分隐私效果的匿名算法。然而,差分隐私需要在查询结果中加入大量的随机化,随着隐私保护要求增多,可用性会急剧下降。

密码学技术是利用加密技术和陷门函数,使攻击者在无法获得密钥情况下不能得到用户隐私信息。为了保护云计算中用户的隐私信息,Rivest等首次提出了同态加密的概念。基于同态加密,Zhu等构造了隐私保护的空间多边形查询方案。1999年,Paillier设计出了基于复合模数的加法同态加密算法,在多种场景下得到了广泛应用。基于Paillier加密系统,Lu等提出了一种面向智能电网的隐私保护的数据聚合方案,该方案能够保护用户隐私并抵抗多种攻击。2009年,Gentry基于理想格成功构造了全同态加密方案,虽然近年来提出了许多改进方案,但是其复杂度仍然过高,不能应用于实际。为解决此问题,Zhu等基于轻量级隐私保护余弦相似度计算协议,设计了高效隐私保护的POI查询方案,实现了用户查询信息和位置信息的隐私保护。此外,还提出了一些基于密码学的方案,来为云计算场景下的用户数据提供隐私保护。

上述各种隐私保护方案主要是针对特定场景局部数据集的具体算法,缺少针对特定场景动态数据集的算法框架,更缺少适应多场景动态数据集的普适性算法框架;其次针对多媒体数据需要多个隐私保护算法的组合,目前也缺少成熟的方案;第三,将不同隐私保护算法互相叠加以获得更好保护效果的方法也有待开展研究。

(二)隐私度量与评估

目前学术界从信息论和应用领域对此开展针对性的研究。文献提出使用条件熵和互信息作为互补的隐私度量。Ma和Yau提出了一种时间序列数据的隐私度量标准,用于量化对手在尝试推断给定任何已发布数据范围内的原始数据时可用的信息量。Cuff和Yu提出了一种基于条件互信息的度量,通过描述对手观察公开数据后,原始数据中隐私信息不确定性的下降来度量隐私信息。Jorgensen等结合差分隐私算法中ε可控的特点,根据用户对数据隐私保护强度的要求,通过调整噪声的分配策略生成符合lap(∆f/ε)分布的噪声,其中,lap(·)为Laplace分布函数。当ε越小,添加的噪声越多,隐私保护强度越高。Asoodeh等通过互信息来度量隐私泄露的程度,他们通过计算攻击者在观察到发布数据之前和之后,在原始数据集中隐私信息的不确定量的降低来度量隐私信息。Zhao和Wagner应用4个全新的标准来评估车辆工作中的41个隐私指标强度。他们的研究结果表明,没有一个指标能够满足所有标准和交通条件。应用领域的研究则主要聚焦在社交网络、位置服务、云计算等方面。

社交网络领域。Gervais等提出了针对网页搜索中基于混淆技术的隐私保护方案,对用户隐私进行了量化,在考虑用户意图不同时每个个体不同的搜索行为,设计了一个通用性工具,对基于混淆技术的隐私保护方案进行隐私度量;Cao等在考虑时空关联的情况下,通过对隐私形式化描述,以及数据分析与计算,量化了在差分隐私技术下潜在的风险。Luo等提出使用Salus算法保护私有数据免受数据重建攻击,该算法能够实现差分隐私。他们还量化了隐私风险,并为包含Salus的群体感知应用提供了准确实用的预测。在社交推荐场景中,Yang等提出了PrivRank,该框架能抵御成员推断攻击并给出个性化的推荐结果。他们利用Kendall的τ秩距离来测量数据失真程度,并通过最优数据混淆学习来最小化隐私泄漏。

位置服务领域。Shokri等提出关于位置隐私保护机制的框架,利用确定攻击模型以及敌手的背景知识,通过信息熵等方法来描述攻击过程的精确性、确定性、正确性,从而实现隐私保护效果的度量;并同时提出一种基于博弈理论的框架,通过Bayesian Stackelberg博弈模型,该模型中的领头者在该框架中指的是用户,跟随者是攻击者,以此研究用户和攻击者的博弈,从而找出能够抵抗最强推测攻击的最佳隐私保护机制。Kiekintveld等提出了一个框架来寻找能够抵抗最强推断攻击的最佳隐私机制。最近,Zhao等提出了一个隐私保护范式驱动的室内定位框架(P3-LOC),利用特殊设计的k-匿名和差分隐私技术来保护其室内定位系统中传输的数据,既保证了用户的定位优先级,又保证了定位服务器的数据隐私。Zhang等提出了一种利用功率分配策略防止窃听的位置隐私保护方法。通过使用精确的近似算法,不同的功率分配策略能够在定位精度和隐私强度之间达到更好的平衡。

云计算领域。SAFE是以服务为导向的隐私保护框架,为云计算中对协议和本体的在跨邻域交互下实现了安全协调。Wu等基于博弈论和差分隐私,对用户所涉及的博弈元素进行多级量化,通过的单一数据集的分析实现用户的隐私度量。Zhang等利用了差分的概念来对参与用户的隐私等级进行量化,进而实现准确的激励机制。为了保护云端的数据隐私,Chaudhari和Das提出了一种基于单个关键字的可搜索加密方案,适用于多个数据所有者上传数据、多个用户访问数据的应用。

上述各类隐私度量方案缺乏对隐私概念的统一定义;其次,隐私度量随信息接收主体、拥有数据量大小以及场景动态变化,目前缺乏隐私的动态度量方法;第三,信息跨系统传播,缺乏不同系统隐私度量的一致性、隐私信息操作控制的形式化描述方法,不能支持跨平台的隐私信息交换、延伸授权等动态保护需求。

综上所述,现有的隐私保护以及隐私度量方案零散孤立,还缺乏隐私信息操作审计和约束条件的形式化描述方法,尚未有将隐私保护与隐私侵犯取证追踪一体化考虑的方案,无法构建涵盖信息采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节的隐私保护和隐私侵犯取证追踪的技术体系。

三、隐私计算的定义与框架

本节依次介绍隐私与隐私计算的基本概念,隐私计算框架及形式化定义,隐私保护方案的设计准则及效果评估

(一)隐私与隐私计算的概念

1. 隐私权与隐私信息

从隐私保护的角度,本文更多侧重隐私信息的全生命周期保护,具体而言,隐私信息包括当事人不愿他人知道或他人不便知道的个人信息、只愿在本人认可的人群范围且本人认可的传播方式传播等。隐私信息还可被用来精准刻画用户的个人画像,从而影响其生活和工作。

从学术上来讲,隐私信息与时空场景、主体认知能力等因素紧密相关,并呈现出动态的感知结果。本文主要从技术角度对隐私信息进行定义和描述,因此本文所定义的隐私概念与法律的定义有所差异,是为了支持跨系统隐私信息交换、隐私信息处理、隐私保护效果自动化评估等方面的研究。

2. 隐私计算

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护

隐私计算涵盖信息所有者、信息转发者、信息接收者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私信息描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。

从全生命周期的角度出发,本文提出了如图1所示的隐私计算框架。该框架面向任意格式的明文信息M,首先将全过程分解成以下几个元素:语义提取、场景提取、隐私信息变换、隐私信息整合、隐私操作选取、隐私保护方案选择/设计、隐私效果评估、场景描述以及反馈机制。然后,将这些元素整合到以下5个步骤中,以此实现隐私计算框架。

前沿研究丨隐私计算的概念、框架及趋势

图1 隐私计算框架。F:隐私计算操作集合;A:隐私属性向量;Γ:广义定位信息集合;Ω:审计控制信息集合;Θ:约束条件集合;Ψ:传播控制操作集;

前沿研究丨隐私计算的概念、框架及趋势

归一化隐私信息;

f:隐私计算操作;
前沿研究丨隐私计算的概念、框架及趋势

:执行操作后的归一化隐私信息

步骤1:隐私信息提取。根据明文信息M的格式、语义等,抽取隐私信息X,并得到隐私信息向量I

步骤2:场景抽象。根据I中各隐私信息分量的类型、语义等,对应用场景进行定义与抽象。

步骤3:隐私操作选取。选取各隐私信息分量 所支持的隐私操作,并生成传播控制操作集合。

步骤4:隐私保护方案设计/选取。根据需求选择/设计合适的隐私保护方案。如有可用且适合的方案及参数则直接选择,如无,则重新设计。

步骤5:隐私保护效果评估。根据相关评价准则,本文使用基于熵或基于失真的隐私度量来评估所选择的隐私保护方案的隐私保护效果。有关评估保护隐私效果的详情,请参阅第3.5节。

对所采用的隐私保护方案进行效果评价。当隐私保护效果评价结果没有达到预期,则执行反馈机制,包括3种具体情况:①当场景抽象不当时,则对场景重新进行抽象迭代;②当场景抽象无误但隐私操作选取不当时,则对隐私操作重新进行规约;③当场景、操作均无误时,则对隐私保护方案进行调整/完善,以达到满意的隐私保护效果。

需要注意的是,这些元素和步骤可以根据具体场景自由组合,该过程如图1所示。

(二)隐私信息的形式化定义

本节首先定义隐私信息X及其所涵盖的6个基本元素,以及相关公理、定理和假设等,这些是描述隐私计算其他内容的基础。需要指出的是,针对任意信息M的隐私信息向量的提取方法不在本文研究范畴内,因为它们受特定领域提取条件的约束。隐私信息的量化也不在本文研究范畴内,因为这是信息系统编程人员或建模人员的任务。

定义1:隐私信息X 由六元组〈I,A, Γ, Ω, Θ, Ψ〉组成,其中,这6个元素分别代表隐私信息向量、隐私属性向量、广义定位信息集合、审计控制信息集合、约束条件集合、传播控制操作集合。

定义2:隐私信息向量I= (IID,i1,i2, …,ik, …,in),其中,ik(1≤kn)是隐私信息分量,用于表示信息M中语义上含有信息量的、不可分割的、彼此互不相交的原子信息,其信息类型包括文本、音频、视频、图像等,语义特征包括字、词、语调、语气、音素、音调、帧、像素、颜色等。IID为该隐私信息向量的唯一标识。例如,文字信息“U1U2去Loc喝酒”,这句话中I= (IID,i1,i2,i3,i4,i5,i6,i7) = (IID,U1, 和,U2, 去, Loc, 喝, 酒),n= 7。注意:某些特定的信息片段,如谚语,可以用自然语言处理方案进行有效的切分。

公理1:在某种自然语言及其语法规则下,在单词、短语(phrase)、俚语的粒度下,隐私信息向量I的分量数量一定有界。

性质1:隐私信息向量符合第1范式(1NF)和第2范式(2NF)。

隐私信息分量定义为不可细分的最小粒度,具有原子属性。1NF的定义为:称一个关系模式R 属于第一范式,当且仅当R的所有属性的域都是原子的。所以符合第1范式。隐私信息向量I有唯一标识的IID为主键,其他非主属性的元素均依赖于该主键。2NF的定义为:若R∈1NF,且每一个非主属性完全函数依赖于唯一的主键,则R∈2NF。所以ik符合第2范式。

定义3:约束条件集合Θ = {θ1,θ2,…, θk, …, θn},θk(1≤kn)表示隐私信息分量ik对应的约束条件向量,用于描述在不同场景下实体访问 所需的访问权限,例如,谁、在什么时间、使用什么设备、以什么方式访问和使用隐私信息向量,并持续使用隐私信息向量多长时间等。只有满足约束条件向量θk中全部访问权限的访问实体才能正常访问隐私信息分量ik。实体包括信息所有者、信息接收者、信息发布者等。

定义4:隐私属性向量A=(a1,a2, …,ak, …,an,an+1,…,am),ak代表隐私属性分量,用于量化隐私信息分量及分量组合的保护程度。在现实应用时,在不同场景下不同的隐私信息分量可进行加权动态组合,这些组合会产生新的隐私信息,但基于隐私信息分量的原子性,本文将不同ik组合的隐私信息保护程度,以隐私属性分量表示。当1≤kn时,ak与ik一一对应;当n km时,ak表示两个或两个以上隐私信息分量组合后的隐私信息的保护程度。

ak取值范围定义为[0, 1],其中,ak取值为0时表示隐私信息所有者在安全可控的环境下信息独享,即信息没有任何共享性,不允许有任何泄漏的可能,代表信息得到最高程度的保护,保护后的隐私信息与原始隐私信息的互信息为0。例如,如果是加密之类的隐私保护方法,代表密钥丢失、信息完全不可恢复的情况;如果是添加噪声、泛化等不可逆有损的隐私保护方法,代表信息失真度,使得保护后信息与原始信息完全不相关。ak取值为1时,代表ik分量不受任何保护,可以不加限制地随意发布。不同的中间值代表对不同隐私信息分量的保护程度,取值越低,表示隐私信息的保护程度越好。

将隐私保护程度量化操作函数记为σ,其中,人工标记、加权函数等都可作为隐私保护程度量化操作函数,因为 有不同的信息类型,因此对应的σ表达式也不同,可记为 ak= σ (ik,θk) (1≤kn)。对于隐私信息分量i1,i2, …, in的任一组合

前沿研究丨隐私计算的概念、框架及趋势

,运算符定义为多个隐私信息分量的组合,通过隐私保护程度量化操作函数σ生成隐私属性分量an+j,即an+j=

前沿研究丨隐私计算的概念、框架及趋势
前沿研究丨隐私计算的概念、框架及趋势

(1≤k1<…<ksn)。对于隐私信息分量i1,i2, …,in和隐私信息分量组合in+1,in+2, …, im,生成隐私属性向量A= (a1,a2, …, ak, …, an,an+1, …, am),其中,m取值为大于或等于n的正整数。将上述隐私信息向量与隐私属性向量的关系简记为A=σ(I, Θ)。量化操作与约束条件密切相关,不同实体在不同场景访问时的量化结果可能不同。

定理1:对一个特定的分量个数有界的隐私信息向量I= (IID,i1,i2, …,ik, …,in),其隐私属性向量A=(a1,a2, …,ak, …,an,an+1,…,am)的维数有界,当I中各隐私信息分量的二元/多元组合仅对应唯一隐私属性分量时,其隐私属性分量个数m2 n– 1。

证明:由定义1和公理1可知,在隐私信息向量I 给定的条件下,其维数有界,即为n。再由隐私属性向量的定义可知,隐私属性分量对应隐私信息分量及其组合,因此隐私属性向量维数有界。当隐私信息分量组合与隐私属性分量一一对应时,隐私属性向量维数最多为隐私信息分量的所有组合个数,包括2到n元组合,即

前沿研究丨隐私计算的概念、框架及趋势

为– 1,所以有m≤2n– 1。

定义5:广义定位信息集合Γ= (γ,1 γ2, …, γk, …, γn),γk为广义定位信息向量,表示隐私信息分量ik在信息M中的位置信息及属性信息,可对隐私信息分量ik快速定位。位置信息用于描述所述 在信息M中的具体位置,如页码、章节、段落、序号、坐标、帧序号、时间段、音轨、图层、像素等位置信息。在文本文件中,位置信息主要有页码、章节、段落、序号等,属性信息主要有字体、字号、粗细、斜体、下划线、删除线、上角标、下角标、样式、行间距等;属性信息在音频或视频文件中则包含字体、大小、粗细、行间距、像素、色度、亮度、音调、语调、语气等。

定义6:审计控制信息集合Ω= (ω1,ω2, …, ωk, …,ωn),ωk表示ik在传播过程中一个具体的审计控制向量,用于记录隐私信息分量ik在流转过程中的主客体信息和被执行的操作记录,若发生隐私信息泄露时,可进行追踪溯源。例如,流转过程中主客体信息包括信息所有者、信息转发者、信息接收者、信息发送设备、信息接收设备、信息传输方式、信息传输信道等;操作记录包括复制、粘贴、剪切、转发、修改、删除等。

定义7:传播控制操作集合Ψ = (ψ1,ψ2, …, ψk, …,ψn),ψk为传播控制操作向量,用于描述ik及其组合可被执行的操作,如复制、粘贴、转发、剪切、修改、删除等操作,这些操作不破坏I 的原子性。其中,ψl =judg(al, θl),约束条件向量

前沿研究丨隐私计算的概念、框架及趋势

(n+1≤lm),judg为操作判别函数,包括但不限于包括人工标记、加权函数中的一种或多种的任意组合。

公理2:跨系统交换时,延伸授权的信息管控双方若不能完整有效地交换,则一定会导致隐私信息泄漏。

假设1:隐私计算可以定义成有限个原子操作,其他操作是在有限个原子操作的基础上进行组合得到的。

假设2:隐私计算是建立在隐私信息分量的个数有界的前提下。

(三)隐私计算应遵循的四个原则

原则1原子性。隐私分量之间相互独立,可以刻画到不可细分的粒度。

原则2:一致性。对相同的隐私信息,不同隐私保护算法均使隐私属性向量A的所有分量趋向于0。

原则3:顺序性。隐私保护算法中部分操作的顺序不同可能导致隐私保护的效果不同。

原则4:可逆性。一些隐私保护算法是可逆的,如基于加密的算法可以通过解密来恢复。然而,其他的隐私信息处理往往是不可逆的。

(四)隐私计算的刻画要素

定义8:隐私计算涉及4个元素(X,F,C,Q),其中,X分别代表隐私信息(参见定义1),F代表隐私运算操作集合,C代表隐私保护代价,Q代表隐私保护效果。

定义9:隐私运算操作集合F= {f1,f2, …, fk, …},F为对隐私信息X实施的隐私保护原子运算操作集合,如模加、模乘、模幂等运算,插入、删除等操作。隐私保护算法由隐私运算操作集合中的多个元素构成,且每个元素可重复多次使用。

隐私感知、隐私保护、隐私分析、隐私信息的交换和二次传播、隐私信息融合、隐私信息更新等都可定义为若干个原子运算操作组合而成的特定操作。

公理3:当对信息M进行隐私运算操作处理后,会导致隐私信息向量的变化,由I变为I ′,进而导致隐私属性向量A变为A′,其分量ai′的数量及数值也将发生变化。即当I进行隐私运算操作fk后得到到I′= fk(I),其相应的A′A,其中,A=σ(I),A′=σ(I′) =σ( fk(I))。

定义10:隐私保护复杂度C代表对信息M实施所需的隐私保护所耗费的各种资源的量化,包括计算/存储/网络传输开销等。每个隐私信息分量ik都对应一个隐私保护复杂性代价Ck。其中, Ck与隐私信息分量ik、约束条件向量θk、隐私运算操作向量fk有关,可以表示为:

前沿研究丨隐私计算的概念、框架及趋势

由于每个ik都可能有不同的信息类型,例如,在一个word文件中有文字、图像,甚至还有插入的音频等,因此ik对应的每个函数ck会因信息类型的不同而具有不同的表达形式,C则由向量{Ck}(1≤km)描述。

定义11:隐私保护效果Q代表对信息M进行隐私保护后所达到的保护效果,即为隐私保护前后隐私度量的差值。通常需要综合考虑信息M的隐私信息向量、信息访问实体(包括信息所有者、信息接收者、信息发布者等信息创建、传递过程中的参与者)、约束条件、隐私运算操作等要素。在前文中已经介绍了隐私度量,即隐私属性分量的表达式为ak= σ(ik, θk),其中,函数σ已经包含了对隐私运算操作向量的因素;另外,约束条件的定义中也已经涵盖信息访问实体的因素,故与隐私信息分量对应的隐私保护效果Qk可表示为:

前沿研究丨隐私计算的概念、框架及趋势

式中,σbefore表示加入隐私保护之前的隐私度量函数;σafter表示信息经过隐私保护后的隐私度量函数。

定义12:隐私泄露收益损失比L = {Lk}代表隐私信息披露后的收益和隐私泄露带来的损失比。其与隐私保护复杂性代价C、隐私保护效果Q的关系如下:

隐私计算模型的核心是对隐私计算4个因素和隐私泄露收益损失比L变量及其关系的刻画。

(五)隐私保护效果评估

定义13:隐私保护算法/方案f是由隐私运算操作集合F 中的操作fi组合而成的。f对隐私信息向量I进行作用后,对应的隐私属性向量A 中各分量将趋近于0。即对向量I,A,其中A =σ(I),若存在f∈FkI′= f(I),A′=σ(I′),s.t.||A′|| < ||A||,则f 称为隐私保护算法,其中,||·||表示向量A的某种测度,如L2范数。

定义14:隐私保护效果评估,是指隐私信息向量I被不同隐私保护算法f作用后,新的隐私信息向量I′对应的隐私属性向量的评估。即σ(f(I))越趋近于0,则隐私保护算法的效果越好。

定理2:对于特定的隐私信息内容和相关的隐私保护算法,隐私保护效果Q是可评估的。

证明:根据定义2、公理1和定义4,任意信息都可以表示为隐私向量I,并被进一步划分为有限数目的隐私信息元素 。在这里,假设1≤kn。每个隐私信息元素及其组合都可以由隐私属性向量A来衡量,A=(a1,a2, …,ak, …,an,an+1,…,am),其中,ak=σ(ik, ·) + ok(·),ok(·)是一个无穷小量,表示计算时的偏差。本文定义ak∈[0,1]取值为0时表示隐私信息分量ik受到最高等级保护, 取值为1表示这个分量不受任何保护,可不加限制地发布。也就是说,能够为每一个分量 计算一个值,在最坏情况下,该值的误差在可接受范围内。根据定义11,Q=Q1Q2⊙…⊙Qn+m,⊙代表一类运算操作。简单起见,此处直接用“+”号。由于Qk= Δak,设定Q= ∑kΔσ(ik, ·) + ∑kΔok(·)。综上,隐私保护效果是可以评估的。

效果评估主要包括保护过后的隐私信息的可用性、隐私保护的不可逆性、在可受控环境下的可逆性。隐私信息的可用性指隐私信息在经过隐私保护算法作用后的新信息对系统功能或性能的影响。隐私保护的不可逆性指第三方或攻击者基于其能力,从其所获取的隐私保护算法和信息中无法推断出原始的隐私信息。在可受控环境下的可逆性指第三方在某些信息已知情况下可以对隐私保护后的信息进行全部或部分还原。基于此,本文将现有论文中对隐私保护效果评估的关注点抽象为五大评价指标:可逆性、延伸控制性、偏差性、复杂性和信息损失性。

1. 可逆性

可逆性是指隐私保护算法执行前后,隐私信息的被还原能力。具体是指:攻击者/第三方从所观测到的隐私信息分量推断出隐私信息分量 的能力。若能准确推断出 ,则具备可逆性,否则不具备可逆性。

例如,当有数据需要发布时,首先对所选隐私保护方案在不同攻击下的抵抗能力进行评估,然后根据隐私保护处理过的待发布信息计算隐私属性向量,进而得出不同攻击下的非授权信息还原度和授权信息还原度。

猜想1:可逆的隐私保护算法在隐私信息跨信任域传播后,如果隐私保护策略不匹配,会造成隐私泄露。

2. 延伸控制性

延伸控制性是指跨系统交换过程中接收方隐私信息保护效果与发送方的保护要求的匹配程度。具体是指:隐私信息X从系统Sys1转到系统Sys2后,其在系统Sys1中的隐私属性分量 与在系统Sys2中的隐私分量的偏差。即对任意k,在不同系统中,若ak= ak′,则说明延伸控制性良好,否则延伸控制性有偏差。例如,用户Alice、Bob、Charles互为朋友,Alice在微信朋友圈中发布的一条隐私信息,设置了允许Bob看,不允许Charles看,但Bob将该信息转发至其新浪微博,且未设置访问权限限制,此时Charles就会看到。在该情况下,用户Alice对其该条隐私信息在新浪微博中的访问控制权限与其在微信朋友圈中的访问控制权限就不匹配。

3. 偏差性

偏差性是指隐私保护算法执行前后,隐私信息分量 和隐私保护后发布出去/攻击者或第三方可观测到的隐私信息分量之间的偏差。例如,位置隐私保护中,用户真实所处位置(m,n)与位置隐私保护算法(位置偏移算法)执行后的位置(m′,n′)之间的物理距离

前沿研究丨隐私计算的概念、框架及趋势

4. 复杂性

复杂性指执行隐私保护算法所需要的代价,即隐私保护复杂性代价C。例如,在用户手持终端上执行一次2048位的RSA加密算法所需消耗的计算资源大于执行一次AES算法所需的计算资源。

5. 信息损失性

信息损失性指信息被扰乱、混淆等不可逆的隐私保护算法作用后,对信息拥有者来说缺失了一定的可用性。

例如,在位置隐私当中,若用户不进行k匿名时,向服务器发送真实的地址,会返回精确的推送信息;但当采取k匿名后,服务器会返送回对用户来说粗粒度的推送信息,不可用的结果比例增加,造成了一定的信息可用性损失。

(六)隐私保护算法设计准则

不同应用场景、不同信息类型的隐私保护需求差异性很大,但是在隐私保护算法设计过程中仍需遵守一定的共性准则,根据隐私计算的思想,本文给出隐私保护算法设计的5个基本准则。

准则1:预处理。对隐私信息X进行预处理,确定数据分布特征、取值范围、数据隐私保护敏感度、隐私操作次数的期望值、隐私操作结果的社会经验值等。例如,隐私操作次数的期望值time =f(I,A, Θ) 。

准则2:算法框架。根据应用场景和信息类别,确定隐私保护算法的数学基础,具体给出算法步骤及步骤间的组合关系,并给出隐私属性向量与隐私信息向量之间的关系。例如,对于不要求被保护信息可逆的应用场景,可采用基于泛化、混淆、匿名、差分等技术的隐私保护机制。以差分隐私保护为例,需在准则一的指导下,结合I,A, Θ,C,Q,L等要素,确定具体的加噪机制。

准则3:算法参数设计。根据隐私保护效果与可用性的应用需求,结合准则1、2,确定隐私保护算法中相关参数的具体取值。如差分隐私机制中需根据隐私保护需求确定隐私操作次数的期望值(对基于拉普拉斯机制的差分隐私保护方案确定隐私预算ε的取值),还需根据具体的查询函数确定敏感度、隐私操作结果的社会经验值,在准则2中已确定的加噪机制前提下,结合I, Θ,确定添加噪声的具体分布。

准则4:算法组合。根据应用场景和信息特征,在算法内部实现不同步骤的组合,或在相似算法间实现排列组合,以达到安全性或性能方面的提升。例如,在采用差分隐私保护过程中,结合I, Θ,以及差分隐私相关组合性质,包括后处理性质、顺序组合性质和平行组合性质等,实现同一算法在步骤间的灵活组合;对于具有复杂隐私保护需求的应用场景,例如,同时兼顾发布数据的统计特征和匿名性,需在隐私信息处理过程中充分考虑各类具有相近数学机制的算法的特征,通过有机整合以确保满足复杂隐私保护需求,并提升整体的安全性和性能。

准则5:算法复杂度与效能分析。从需要保护的隐私信息分量数目、算法安全参数取值范围、算法的时间复杂度和空间复杂度、隐私保护效果的期望值等因素,综合分析评估隐私保护算法的实现代价,以评估所选算法是否适合所对应的应用场景。

下面以差分隐私机制为例说明上述准则的适用性。

(1)预处理。在差分隐私保护算法中,记数据集为X,根据X、约束条件集合Θ和传播控制操作集合Ψ生成对应的隐私信息向量集合I = i(X, Θ, Ψ),分析I的分布特征,确定I 的取值空间或者取值集合Ran。根据定义在I 上的统计查询函数g(·),确定查询次数的期望值t(·)和查询结果的社会经验值υ(·),得到添加的噪声取值空间或取值集合S=s(Φ, Ran,g(·),t(·)),并计算统计查询函数g(·)的敏感度。对于一个定义在I的子集D上的统计查询函数g(·),其敏感度定义如下:

前沿研究丨隐私计算的概念、框架及趋势

式中,D,1 D2 ID1,D2为任意两个相差最多一个元素的集合,称其为相邻集合,p≥1且pN

(2)算法框架。基于预处理结果,充分考虑隐私保护复杂度C、隐私保护效果Q 等要素,将差分隐私机制的数学定义表示为:

前沿研究丨隐私计算的概念、框架及趋势

h(·) =h(λ,ε,κ)表示扩展的隐私预算,其中,λ为常数,与噪声分布相关,ε 与查询次数期望值相关,κ与查询结果社会经验值相关。δ(·) =δ(ε,κ)为修正参数,用来放宽条件使得算法满足差分隐私定义。D,1 D2是一对相邻集合,Alg为一随机化算法。

差分隐私保护算法框架为:

前沿研究丨隐私计算的概念、框架及趋势

式中,Noise(·)为噪声函数集,产生的噪声满足(h(·),δ(·)) – DP条件,其中,μ(·)表示产生噪声的期望,b(·)为尺度参数函数,控制噪声分布的范围,q(·)为指数机制中的效用函数,控制数据经过加噪后输出某种结果的概率预期。根据应用场景和信息类别,选择具体的噪声分布和算法参数。

(3)算法参数设计。根据用户对隐私保护强度和可用性的应用需求,并结合隐私信息向量I的取值范围Ran、查询次数的期望值t(·)等要素,确定噪声分布的具体参数取值。其中,μ与输出结果的均值需求有关;b(·)与h(·)、数据集敏感度Δg、噪声取值空间或取值集合S等有关,即b(·) =b(h(·), ∆g,S);q(·)与S、查询结果的社会经验值有关,即即q(·) =q(S,υ(·))。

(4)算法组合。差分隐私机制具有如下组合特性:

· 后处理性质(post-processing property)。如果Alg1(·)满足ε– DP,则对于任意的算法(可能是随机的)Alg2(·),组合后的算法Alg2(Alg (·))也满足1 ε– DP。 – DP。

· 顺序组合性质(sequential composition)。如果Alg1(·)满足ε1– DP,并且对于任意的s,Alg2(s)满足ε2– DP,则Alg(D) = Alg2(Alg1(D),D满足(ε1+ε2) – DP。

· 平行组合性质(parallel composition)。如果Alg1,Alg2, …, Algk k个满足ε1– DP,ε2– DP, …, εk– DP的算法,D1,D2, …,Dkk个不相交的数据集,则Alg1(D),Alg1 2(D2), …, Algk (Dk)满足max(ε1,ε2, …, εk) – DP。

当使用差分隐私保护算法对不同数据集的多种查询统计进行保护时,可以利用上述三种性质,对算法的不同步骤进行组合。

(5)算法复杂度和效能分析。差分隐私保护算法是将噪声与隐私信息相加,因此复杂度主要取决于噪声的生成,隐私保护效果也取决于噪声的大小,这些均与数据集特征、数据集敏感度计算等噪声生成的参数相关。可由下面公式来刻画:

算法Alg的复杂度C(Alg) =c(Φ, Δg,h(·),δ(·),μ(·),b(·),q(·));

算法Alg的隐私保护效果Q(Alg) = Δσ(h(·),δ(·),μ(·),b(·),q(·))。

(七)隐私计算语言

本文提出一种隐私计算语言(privacy computing language, PCL),用以自动化地实现隐私信息全生命周期的形式化描述、传播控制、运算、事务处理等操作,隐私计算语言主要包括以下三部分:隐私定义语言、隐私操作语言和隐私控制语言。

(1)隐私定义语言。用于描述信息M的隐私计算四要素的数据类型和数据格式,及其相关的完整性约束。其中,数据类型主要包括比特串型、整型、浮点型、字符串型、逻辑型、表页数据、元数据、网页数据、文本数据、图像数据、音频数据、视频数据等。隐私定义语言还用于描述文本、图像、音频、视频等对象的计算步骤,包括隐私信息抽取、场景抽象、隐私操作选取、隐私保护方案选择/设计、隐私保护效果评估等。

(2)隐私操作语言。用于描述对信息M 进行操作的行为,如模加、模乘、模幂、异或、置换、扰乱、查询、选中、删除、修改、复制、粘贴、剪切、转发等。

(3)隐私控制语言。用于描述对信息M的访问控制权限的授予、鉴别和撤销等,其中,权限主要包括选中、复制、粘贴、转发、剪切、修改、删除、查询等。

(八)隐私侵犯溯源取证

在隐私计算的框架体系下,隐私侵犯行为及取证存在于其各个步骤中。隐私侵犯溯源取证主要包括对隐私信息的界定、隐私侵犯行为的判定、隐私侵犯的取证以及隐私侵犯的溯源等四部分,支撑隐私侵犯行为的溯源取证。

基于隐私计算框架,对隐私侵犯的特征和流程进行抽象,并将其整合到隐私计算框架各个步骤中,隐私侵犯行为追踪溯源取证框架如图2所示。

前沿研究丨隐私计算的概念、框架及趋势

图2 隐私侵犯行为追踪溯源取证框架

(1)隐私信息抽取。信息M产生时,通过语义逻辑的计算分析抽取或标注其隐私信息,得到隐私信息向量I、广义定位信息集合Γ和审计控制信息集合Ω,并计算得到隐私属性向量A。此阶段主要用于界定隐私信息。

(2)场景描述。对信息所处场景进行抽象描述,得到约束条件集合Θ、传播控制操作集合Ψ。该阶段提供了对隐私侵犯行为的判定标准,当不满足上述条件时,则判定为隐私侵犯行为发生。

(3)隐私操作。依据场景限制给各个隐私信息分量分配可进行的操作,形成隐私运算操作集合F,并在此基础上建立传播控制操作集Ψ;记录信息主体对该信息的隐私操作,生成或更新审计控制信息集合Ω。超出上述两个集合的操作亦会被判定为隐私侵犯。

(4)选择/设计方案。在该过程中,分析所选择/所设计方案中涉及的运算是否满足隐私运算操作集合,操作的动作、对象、结果等是否超出约束条件集合。防范隐私侵犯行为发生,并作为隐私侵犯判定标准。

(5)隐私保护效果评估。在该环节通过分析计算隐私保护代价C、隐私保护效果Q、隐私泄露损失收益比L,当上述因素未达到预定目标时,则需要对隐私信息全生命周期保护进行反馈审核。

溯源取证:当发生隐私侵犯时,需对前四个步骤中的信息流进行溯源分析,追踪隐私侵犯发生的主体。基于隐私信息六元组以及第三方监控或托管,界定隐私信息,判定隐私侵犯行为,并通过隐私计算框架中各个步骤的联动,对异常行为进行取证,并找到侵犯行为的源头,实现溯源取证。

四、隐私计算的应用实例

随着跨系统、跨生态圈,甚至跨境信息交互的常态化,隐私信息未授权保存的问题越来越严重,给用户的隐私安全造成巨大威胁。以下以信息系统交互的四种模式为例,依次描述隐私计算框架下如何实现隐私保护,并在发生隐私侵犯行为时实现溯源取证。

(一)系统内部不同域间信息交互时的隐私计算实例

实例1:信息系统以社交网络为例,社交网络1其注册用户U= {u1,u2, …},每个用户可能有多个朋友圈,记为朋友圈M= {m1,m2, …},用户之间可通过朋友圈分享信息文件,文件集合记为D,其中,mi⊆ 2U,即朋友圈由多个用户构成,定义用户朋友圈函数如下:

前沿研究丨隐私计算的概念、框架及趋势

这表示用户拥有的朋友圈,其中

前沿研究丨隐私计算的概念、框架及趋势

,表示用户的第j 个朋友圈,则有:

前沿研究丨隐私计算的概念、框架及趋势

如图3所示,用户u1将其产生的多媒体文件d在其朋友圈

前沿研究丨隐私计算的概念、框架及趋势
中发布,其圈中好友
前沿研究丨隐私计算的概念、框架及趋势
获得该文件,并将该文件转发给自己的朋友圈中用户
前沿研究丨隐私计算的概念、框架及趋势
前沿研究丨隐私计算的概念、框架及趋势

图3 系统内部不同域间信息交互

步骤1:需要预置用户ui的隐私保护需求

前沿研究丨隐私计算的概念、框架及趋势

以及场景描述信息

前沿研究丨隐私计算的概念、框架及趋势

,并通过隐私标签生成函数prTag生成隐私标签,再利用标记函数TagAppend将标记到被用户u1操作后的多媒体文件后,生成被用户标记的文件上传。其中,隐私保护需求需要用户设置,包括文件中隐私信息的保护效果、文件允许流转的范围、允许的访问实体、允许使用的操作集合等,用户隐私保护需求集合记为PR = {pr1, pr2, …},定义隐私保护需求设置函数如下:

前沿研究丨隐私计算的概念、框架及趋势

这表示用户对隐私的相关保护需求,则用户ui的隐私保护需求表示为:

前沿研究丨隐私计算的概念、框架及趋势

场景描述信息需要从系统中分析得到,包含文件的生成时间、文件产生者、对文件的操作等,记为SS = {ss1,ss2, …},生成场景描述信息的函数定义为:

前沿研究丨隐私计算的概念、框架及趋势

这表示系统生成的用户所处场景下的描述信息,则用户ui的场景描述信息为:

前沿研究丨隐私计算的概念、框架及趋势

同时文件操作函数定义为:

前沿研究丨隐私计算的概念、框架及趋势

这表示用户对文件操作后得到新的文件,原文件d被用户ui操作后的文件记为:

前沿研究丨隐私计算的概念、框架及趋势

隐私标签生成函数prTag,表示文件转发中经过某用户主体而产生的隐私标记,定义为:

前沿研究丨隐私计算的概念、框架及趋势

前沿研究丨隐私计算的概念、框架及趋势
,表示生成的标记,其中,X为隐私信息六元组,F为隐私运算操作集合。表示用户产生的隐私标记,则有:
前沿研究丨隐私计算的概念、框架及趋势

标记函数tagAppend定义为:

前沿研究丨隐私计算的概念、框架及趋势

这表示文件流转过程中每经过一个用户,都会将其产生的标签标记到原文件上,并依次迭代,则有:

前沿研究丨隐私计算的概念、框架及趋势

步骤2:首先检验多媒体文件的标记信息 用户是否满足u2的约束条件集合Θ、传播控制操作集合Ψ等,若满足,则可对多媒体进行允许范围内的操作,如下载、剪辑等,由于该文件允许朋友圈中的好友下载,故用户u2可下载得到。

步骤3:用户u2可对从u1处获得的多媒体文件进行修改、增加、删除等允许范围内的操作,得到新文件

前沿研究丨隐私计算的概念、框架及趋势
=
前沿研究丨隐私计算的概念、框架及趋势
,其中,表示文件d 先被u1、后被u2操作后得到的文件,并准备再次转发给用户u3或上传至其所在的其他朋友圈。此时,系统将在从 处获得的多媒体文件上标记用户u2的隐私标签
前沿研究丨隐私计算的概念、框架及趋势
前沿研究丨隐私计算的概念、框架及趋势
,得到:
前沿研究丨隐私计算的概念、框架及趋势

步骤4:系统检验标记信息,若满足每个标签、

前沿研究丨隐私计算的概念、框架及趋势

中的隐私需求,则用户u3能够看到用户u2在社交网络1中发布的多媒体文件,并进行下载或其他允许范围内的操作。

在上述信息流转过程中,若出现异常行为,如某用户的操作或其他行为超出了所约定的约束条件集合Θ或传播控制操作集合Ψ等时,则可判定为发生隐私侵犯行为。此时,需要通过分析多媒体文件所携带的隐私标签信息进行溯源,根据审计控制信息集合Ω等信息重现隐私侵犯现场,回溯在哪一主体处、因哪一操作的违规而出现异常,并据此对全生命周期的隐私信息流转进行有效管控,实现对隐私侵犯行为的溯源取证。

(二)封闭系统间自主信息交互时的隐私计算实例

实例2:在本实例中,信息交互发生在同一企业生态圈的两个封闭系统中。如图4所示,用户u1将其产生的多媒体文件d 按照公式(14)进行标记后得到,并在其社交网络1中的朋友圈

前沿研究丨隐私计算的概念、框架及趋势
中发布。服务器得到u1,并在满足u1的隐私保护需求的情况下,将文件转发到同一生态圈到社交网络2中。
前沿研究丨隐私计算的概念、框架及趋势

图4 封闭系统间用户自主信息交互

此实例中,信息可以在不同的信息系统中传播,而无需借助用户,因此无需实例1的步骤3。由此社交网络2发布的文件可供用户u2进行下载或阅读操作。

在相同的企业生态系统中,当社交网络1和社交网络2都有一个共同的用户时,用户在不同的封闭信息系统之间进行自主信息交互的情况同样容易说明。

(三)开放系统间信息交互时的隐私计算实例

实例3:本节介绍隐私计算在开放系统间或开放系统与封闭系统间信息交互时的应用实例。如图5所示,开放系统Z 论坛用户u1将其产生的多媒体文件d 按照公式(14)进行标记后得到,并发布在该系统中,该系统的另一个用户u2在满足用户u1的隐私保护需求的情况下获得该信息并对文件d进行操作,根据公式(15)生成加入自己标签的新文件,并在满足u1u2的隐私保护需求、

前沿研究丨隐私计算的概念、框架及趋势

的情况下,将该信息发布在开放系统T论坛上,或登录封闭系统社交网络2,将其转发给封闭系统的用户u3

前沿研究丨隐私计算的概念、框架及趋势

图5 开放系统间的信息交互

此实例中,区别主要在于步骤4,当所转发的系统为开放系统时,该开放系统的所有用户均能访问所转发的文件;当所转发的系统为封闭系统时,仅转发信息的用户所在的朋友圈中,满足相关隐私标签中限制条件的其他用户,才能够访问所转发的文件,其他用户如 则无法访问。

(四)百度的差分隐私计算实例

实例4:数据集为百度DuerOS用户访问DuerOS中所有应用的访问记录,以查询总访问次数PV的差分隐私保护为例,说明如何在隐私保护算法设计准则的指导下实现差分隐私计算,如图6所示。

图6 支持隐私保护的PV/UV统计数据发布

(1)在预处理阶段,根据应用场景,Θ, Ψ均为空集,即Θ = ∅,Ψ = ∅。令关注的隐私信息向量I为由数据集X 统计得到的一维数据,即总访问次数PV。查询统计函数g为对数据集中所有用户对全部应用的访问次数求和。分析PV的分布情况,以得到PV的社会经验值υ(·)。计算敏感度时取p = 1,得到:

前沿研究丨隐私计算的概念、框架及趋势

式中,D,1 D2 为任意相邻集合。在百度的具体应用场景下,∆g 为所有用户中某天、某应用的最大访问次数。

(2)在算法框架阶段,由于PV是数值型数据,因此采用Laplace加噪机制,选取λ = e, ε=ε,不考虑参数κh(λ,ε,κ) = eεδ(·) = 0,即:

前沿研究丨隐私计算的概念、框架及趋势

查询统计函数为g(D) = PV。该Laplace随机化算法Alg为:

前沿研究丨隐私计算的概念、框架及趋势

式中,Lap(·)为服从参数为( μ,b)的Laplace概率分布函数。

前沿研究丨隐私计算的概念、框架及趋势

如果Alg(·)值不在社会期望值υ(·)范围内,则重新生成噪声直到满足要求为止。

(3)在算法参数设计阶段,为了使得上述机制满足差分隐私定义,即:

前沿研究丨隐私计算的概念、框架及趋势

则Laplace机制下的参数需满足μ(·) = 0,b(·) = Δg/ε。这种情况下噪声参数不考虑效用函数q(·),同时根据用户的查询次数的期望值、输出结果的社会经验值等隐私需求,调整参数ε 控制输出噪声范围,以得到最优的噪声期望。

(4)在算法组合阶段,由于PV报表中的周同比数据是基于一周每天PV的数据累加计算得到的,因此根据差分隐私的后处理性质,经过累加的算法仍满足ε– DP;而当各个厂商应用的PV值均以满足ε – DP的条件发布时,根据差分隐私的平行组合性质,整体的数据也满足ε– DP。

(5)通过了解百度对用户隐私的保护需求,以及百度公司各业务部门对PV数据可用性的需求,可对所生成的加噪数据报表进行分析,并结合该差分算法复杂度,综合评估其隐私保护、数据可用性、代价等多个方面的效果。

五、未来研究方向

(一)动态隐私度量

大型互联网企业等机构所控制的数据跨系统、跨境、跨生态圈流转,由于存在各种不同的数据类型和不同的应用场景,隐私度量的未来研究可以集中在三个方面:适合于多媒体场景下隐私信息的评估方法,隐私度量的动态调整机制,以及将隐私度量自动映射到约束条件和策略。通过解决大数据集动态隐私度量的核心问题可以支持场景自适应的隐私控制,特别是在大数据通过随机路径进行传播难以预测其流向的情况下。

(二)隐私保护算法的基础理论

针对不同信息类型和隐私保护需求的隐私保护原子操作,需研究高效的隐私保护原语的基础理论。在基于加密的可逆隐私保护原语方面,重点在于全同态加密方法、部分同态加密算法、密文搜索、密文统计等密文计算理论。基于扰动的不可逆隐私保护原语方面,重点在于改进差分隐私模型并引入信息论中新的理论方法。

(三)隐私保护效果评估

隐私保护算法的效果评估重点是要建立一套科学合理的量化体系,在这一量化体系指导下,对可逆和不可逆的隐私保护原语以及由原语的组合提出各对应指标的量化评估方法,包括隐私保护效果、数据可用性、算法复杂度等,以期为隐私保护方案的设计、比较和改进提供科学的评价依据。

(四)隐私计算语言

研究隐私计算语言的语法体系,包括语句定义、编程接口、隐私保护原语的融合操作描述方法等,为复杂隐私保护方案的实现提供方便快捷、与硬件和操作系统等平台无关的编程工具,以支撑隐私保护机制在复杂互联信息系统中的实施部署。

(五)隐私侵犯的判定准则与取证方法

在隐私计算框架对隐私信息进行描述的基础上,可以结合场景感知、隐私信息操作判定、隐私信息约束条件匹配等,对隐私侵权的多因素联合决策准则进行研究,从而确定决策的量化阈值。为了解决隐私侵犯事件发生后时空场景重构的关键问题,应该基于隐私信息描述中内嵌的取证信息、第三方监控与交叉多元素大数据分析,设计实用有效的取证方案。

六、结语

互联网、移动互联网、物联网等技术快速发展,并通过云服务汇聚数据,形成具有海量性、异构性等典型特征的大数据,为广大民众提供个性化服务,深刻地改变了人们的生产和生活方式。然而,信息服务却面临着收集、存储、共享、发布(含交换)、销毁等环节中的隐私信息泄露问题。

现有的各类解决方案趋于零散,尚未形成理论体系,本文所提出的隐私计算概念及其框架旨在建立全生命周期的隐私保护理论体系,包括隐私计算框架、隐私计算形式化定义、隐私计算应遵循的四个原则、算法设计准则、隐私保护效果评估与隐私计算语言。其中,隐私计算框架可支持跨平台的隐私信息交换、隐私信息流转的延伸授权、隐私侵犯的取证追踪;隐私计算语言(PCL)的设计目标是满足描述无歧义性、平台无关性和计算一致性,以支撑隐私保护的分层跨系统实施。基于本文所提出的隐私计算框架,在百度DuerOS中实现了差分隐私保护机制。最后,展望了隐私计算的研究发展趋势,期待隐私计算能够指引实用化的隐私保护技术研究,并指导大规模信息系统中隐私保护子系统的开发;同时,也期望隐私计算能为隐私保护标准的制定和隐私保护能力的评估提供理论支持。

注:本文内容呈现略有调整,若需可查看原文。

改编原文:

Fenghua Li, Hui Li, Ben Niu, Jinjun Chen.Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多