从2020版《个人信息安全规范》看匿名化和去标识化的区别与应用场景2020-06-17

国家市场监督管理总局和国家标准化管理委员会于202036日发布了《信息安全技术 个人信息安全规范》(GB/T 35273—2020 代替 GB/T 35273-2017,以下简称新版《个人信息安全规范》)。新版《个人信息安全规范》规定了开展收集、存储、使用、共享、转让、公开披露、删除等个人信息处理活动应遵循的原则和安全要求。本文针对新版《个人信息安全规范》在规范个人信息处理活动过程中提到的两个技术术语匿名化去标识化,从各自定义、技术方法以及应用场景三个方面进行概念澄清,分析并归纳,期望帮助企业或组织在具体场景应用和实际业务中决策参考。

除另作说明外,新版《个人信息安全规范》界定的术语与定义适用于本文。

第一部分:匿名化和去标识化的定义区别

从定义上看,根据新版《个人信息安全规范》第3.14条规定, 匿名化( anonymization) ,是指通过对个人信息的技术处理,使得个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程。新版《个人信息安全规范》的规范思路和《网络安全法》一脉相承。根据《网络安全法》第42条规定,未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。这里的但书规定所指的是将个人信息删除或匿名化处理场景,同时也说明个人信息匿名化处理与删除后的效果相同。

此外值得注意的是新版《个人信息安全规范》特别批注,个人信息经匿名化处理后所得的信息不属于个人信息。因此匿名化处理后的信息不适用新版《个人信息安全规范》的相关原则和安全要求,例如知情同意原则、目的限制原则、最小化原则等对匿名化处理后的数据不具有约束力。并且由于匿名化处理后的信息与特定个人信息主体无关联,个人信息控制者也无需为个人信息主体的权利(如访问、更正、 删除、撤回授权同意、注销账户等)的实现进行义务支撑。

而根据新版《个人信息安全规范》第3.15条规定,去标识化 (de-identification) ,是指通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联个人信息主体的过程。

两者的区别可见下表:

image.png

第二部分 匿名化和去标识化的技术差异

匿名化技术目前是重要的数据安全保障措施,已发展出许多成熟的技术解决方案,如泛化、压缩、分解、置换以及干扰等等,但根据新版《个人信息安全规范》规定,通过匿名化技术处理后的信息必须不可能被复原为个人信息,无法识别或关联到特定个人。值得注意的是,如果过去或当前公布的匿名化处理后的数据如采用新的技术、新的模型,重新可以识别到个人(重标识re-identification),则该类数据属于个人信息,其信息处理活动应遵循新版《个人信息安全规范》的原则和相关安全要求。以k-anonymity匿名模型为例,k-anonymity匿名模型要求发布的数据需指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含K个记录,这使得非授权第三方无法识别该记录的个人信息主体,因此是实现匿名化的一种可行的手段,但k-anonymity匿名模型如按照现有的技术手段如非授权第三方实现了重标识(re-identification),则k-anonymity匿名模型也不能满足匿名化要求。

新版《个人信息安全规范》特别批注,去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。虽然去标识化技术可以让个人信息无法轻易被识别,但如果非授权第三方有其他外部信息的辅助,仍然可能对去标识化技术处理后的个人信息进行重标识(re-identification)。这里介绍简单介绍下新版《个人信息安全规范》列举的假名、加密、哈希函数去标识化技术。

假名化技术是一种使用假名替换直接标识(或其它敏感标识符)的去标识化技术。假名化技术为每一个人信息主体创建唯一标识符,以取代原来的直接标识或敏感标识符。不同数据集中的相关记录在 进行假名化处理后依然可以进行关联,并且不会泄露个人信息主体的身份。例如用户在发送位置服务请求时采用虚假的用户身份来代替真实的用户身份,这样就无法收集到用户身份以及与位置的关联关系。例如李明,男,深圳市南山区是真实的个人数据,在此基础上生成假名数据:“JDID100086,男,深圳市南山区

加密是采用密码技术以保护数据的隐秘性,保证它不被非授权的第三方访问或者使得非授权第三方获得的数据变得不可用。哈希算法是一种加密技术,简单地说就是将任意长度的二进制串映射为固定长度二进制串,这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制值串就是哈希值。通常加密的哈希(Hash)的算法包括 MD5 MD5 Message-Digest Algorithm,消息摘要算法) SHA Secure Hash Algorithm,安全散列算法),DESData Encryption Standard,数据加密标准),和 AESAdvanced Encryption Standard,高级加密标准)等。密码经加盐后进行 hash 运算得到的哈希值与原密码的哈希值会完全不同,可以更有效的保护个人信息。

除了上述去标识化技术外,常用的去标识化技术和模型还包括统计、抑制、泛化、随机、聚合,以及计算重标识风险的k-anonymity匿名模型和差分隐私模型,以上可以明显看到去标识化和匿名化所使用的技术处理手段大多重合。但匿名化技术的安全程度更高,处理的目的是将个人信息处理为非个人信息,以最大程度保护个人隐私和数据安全。而去标识化技术目标是降低数据集中信息和个人信息主体之间的关联性,去标识化技术更强调降低信息的区分度,使得信息不能对应到特定个人,更低的区分是不能判定不同的信息是否对应到同一个人。

第三部分 匿名化和去标识化的应用场景

基于两者的上述区别或差异,新版《个人信息安全规范》对匿名化和去标识化的一些具体应用场景、原则及安全要求不同,具体如下:

(一)匿名化的应用场景和安全要求

1、超出个人信息存储期限(包括为实现使用目的所必需的最短时间、法定时间,或授权期限)后,个人信息控制者应对个人信息进行删除或匿名化处理。

2、个人信息主体注销账户的过程中,个人信息控制者需收集个人敏感信息核验身份时,应明确对收集个人敏感信息后的处理措施,如达成目的后立即删除或匿名化处理等。

3、个人信息主体注销账户后,个人信息控制者应及时删除其个人信息或匿名化处理。

4、个人信息控制者停止运营其产品或服务时,应对其所持有的个人信息进行删除或匿名化处理。

5、个人信息控制者在向个人信息主体推送新闻信息服务的过程中使用个性化展示的,应:当个人信息主体选择退出或关闭个性化展示模式时,向个人信息主体提供删除或匿名化定向推送活动所基于的个人信息的选项。

这里个性化展示的使用的场景是:发生在向个人信息主体推送新闻信息服务过程中,个人信息控制者基于特定个人信息主体的网络浏览历史、兴趣爱好、消费记录和习惯等个人信息,向该个人信息主体展示或推荐新闻咨询。我国《网络安全法》和新版《个人信息安全规范》均采用opt-in模式,数据控制者收集、处理个人信息主体的个人信息前必须获得该主体的同意,即选择进入。因此,当个人信息主体主动选择退出或关闭个性化推荐功能后,个人信息控制者还应向个人信息主体提供删除或匿名化该个人信息主体浏览历史、兴趣爱好、 消费记录和习惯等个人信息的选项。

个人信息控制者应对匿名化处理后的数据集重新识别出个人信息主体或与其他数据集汇聚后重新识别出个人信息主体的风险进行个人信息安全影响评估。

 (二)去标识化的应用场景和安全要求

1、个人信息控制者为学术研究机构,出于公共利益开展统计或学术研究所必要,其对外提供学术研究或描述的结果时,收集、使用个人信息不必征得个人信息主体的授权同意。但个人信息控制着须对结果中所包含的个人信息进行去标识化处理。

2、个人信息控制者将所收集的个人信息用于学术研究或得出对自然、科学、社会、经济等现象总体状态的描述,属于与收集目的具有合理关联的范围之内,不需另行征得个人信息主体明示同意。但对外提供学术研究或描述的结果时,需对结果中所包含的个人信息进行去标识化处理。

3、收集个人信息后,个人信息控制者宜立即进行去标识化处理,并采取技术和管理方面的措施,将可用于恢复识别个人的信息与去标识化后的信息分开存储并加强访问和使用的权限管理。个人信息控制者应尽其所能避免去标识化后的信息与其他可用于恢复识别个人的额外信息关联,或产生重标识风险。

4、涉及通过界面展示个人信息的(如显示屏幕、纸面),个人信息控制者宜对需展示的个人信息采取去标识化处理等措施,降低个人信息在展示环节的泄露风险。例如,在个人信息展示时,防止内部非授权人员及个人信息主体之外的其他人员未经授权获取个人信息。

个人信息控制者共享、转让经去标识化处理的个人信息,且确保数据接收方无法重新识别或者关联个人信息主体的,不需要向个人信息主体告知共享、转让个人信息的目的、数据接收方的类型以及可能产生的后果,不需要事先征得个人信息主体的授权同意。

6、个人信息控制者应对去标识化处理后的数据集重新识别出个人信息主体或与其他数据集汇聚后重新识别出个人信息主体的风险进行个人信息安全影响评估。

结语

个人信息控制者对个人信息处理的过程,是长期以来用户及广大网民所重点关注的问题。目前很多企业或组织均愿意主动公开各自的隐私政策、隐私保护原则和方法以及信息安全技术原理;让公众更直观了解企业或组织在保护个人信息所做出的努力。但在评估个人信息处理过程的各个环节,揭开个人信息控制者面纱的同时,我们有必要对匿名化和去标识化在应用场景上进行区分,这样才可以更有效促进企业或组织对个人信息采用匿名化或恰当的去标识化处理,在保护个人信息安全的前提下确保匿名化或去标识化后的数据发挥其应用价值。

(作者 深圳市和讯华谷信息技术有限公司 孙艳华)