ICS 35.030 CCS L 80 中华人民共和国团体标准 T/CSAC 007—2024 隐私计算脱敏算法能力评估技术要求 Privacy computing: Technical requirements for desensitization algorithm capabilityevaluation 2024-12-18 发布2024-12-18 实施中国网络空间安全协会发布目次前言................................................................................. IV 1 范围................................................................................ 1 2 规范性引用文件...................................................................... 1 3 术语和定义.......................................................................... 1 4 概述................................................................................ 4 4.1 脱敏算法能力评估的目的.......................................................... 4 4.2 脱敏算法能力评估的基本原则...................................................... 4 4.3 脱敏算法能力评估的使用.......................................................... 4 5 脱敏算法分类........................................................................ 4 5.1 脱敏算法分类概述................................................................ 4 5.2 基于扰动技术的脱敏算法.......................................................... 4 5.3 基于泛化技术的脱敏算法.......................................................... 5 5.4 基于匿名技术的脱敏算法.......................................................... 5 5.5 基于置换技术的脱敏算法.......................................................... 5 6 脱敏算法能力评估指标体系............................................................ 5 6.1 脱敏算法能力评估指标体系概述.................................................... 5 6.2 可逆性评估指标.................................................................. 6 6.3 信息偏差性评估指标.............................................................. 6 6.4 信息损失性评估指标.............................................................. 6 6.5 复杂性评估指标.................................................................. 7 6.6 算法能力综合评估指标............................................................ 8 7 脱敏算法能力评估通用技术要求........................................................ 8 7.1 脱敏算法可逆性评估.............................................................. 8 7.2 脱敏算法信息偏差性评估.......................................................... 8 7.3 脱敏算法信息损失性评估.......................................................... 9 7.4 脱敏算法复杂性评估.............................................................. 9 附录A (资料性) 脱敏算法能力评估示例................................................10 A.1 概述........................................................................... 10 A.2 脱敏算法评估维度权重确定....................................................... 10 A.3 敏感信息属性确定............................................................... 11 A.4 评估指标选定................................................................... 11 A.5 可逆性评估..................................................................... 12 A.6 信息偏差性评估................................................................. 12 A.7 信息损失性评估................................................................. 12 A.8 复杂性评估..................................................................... 12 T/CSAC 007—2024 II A.9 评估报告生成................................................................... 12 附录B (资料性) 脱敏算法分类示例....................................................13 B.1 概述........................................................................... 13 B.2 基于扰动技术的脱敏算法......................................................... 13 B.3 基于泛化技术的脱敏算法......................................................... 15 B.4 基于匿名技术的脱敏算法......................................................... 16 B.5 基于置换技术的脱敏算法......................................................... 17 附录C (资料性) 可逆性的计算方法....................................................19 C.1 概述........................................................................... 19 C.2 逆向映射....................................................................... 19 C.3 字典攻击....................................................................... 19 C.4 统计分析....................................................................... 19 C.5 机器学习攻击................................................................... 19 附录D (资料性) 信息偏差性的计算方法................................................20 D.1 概述........................................................................... 20 D.2 均方误差....................................................................... 20 D.3 均绝对误差..................................................................... 20 D.4 Kullback-Leibler 散度...........................................................20 D.5 欧氏距离的计算方法............................................................. 21 D.6 余弦距离的计算方法............................................................. 21 D.7 峰值信噪比..................................................................... 21 D.8 结构相似性指数................................................................. 22 D.9 平均数......................................................................... 22 D.10 中位数........................................................................ 22 D.11 标准差........................................................................ 22 D.12 方差.......................................................................... 23 D.13 最大值........................................................................ 23 D.14 最小值........................................................................ 23 附录E (资料性) 信息损失性的计算方法................................................24 E.1 概述........................................................................... 24 E.2 信息熵的计算方法............................................................... 24 附录F (资料性) 复杂性的计算方法....................................................25 F.1 概述........................................................................... 25 F.2 时间复杂度的计算方法........................................................... 25 F.3 空间复杂度的计算方法........................................................... 25 附录G (资料性) 脱敏算法能力评估报告要求............................................26 G.1 形成评估报告的目的............................................................. 26 G.2 评估报告的组成内容............................................................. 26 G.3 评估项目概述组成内容........................................................... 26 T/CSAC 007—2024 III G.4 评估指标....................................................................... 26 G.5 单项评估结果分析............................................................... 26 G.6 整体评估组成内容............................................................... 26 G.7 等级评估结论组成内容........................................................... 27 G.8 脱敏算法能力评估报告示例....................................................... 27 参考文献............................................................................. 29 T/CSAC 007—2024 IV 前言本文件按照GB 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的规则起草。 请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。 本文件由中国网络空间安全协会提出并归口。 本文件起草单位:西安电子科技大学、中国科学院信息工程研究所、中国网络安全审查认证和市场监管大数据中心、北京理工大学、四川昊华锐恒科技有限公司、上海交通大学、海南大学、成都西电网络安全研究院、长春吉大正元信息技术股份有限公司、国网上海研究院、航天信息股份有限公司、普华永道商务咨询(上海)有限公司、中移(杭州)信息技术有限公司。 本文件主要起草人:朱辉、李凤华、李晖、张玲翠、牛犇、宋祁朋、崔琦、闫小良、赵兴文、聂智戈、徐倩华、蒋芃、崔艳鹏、邱卫东、曹春杰、陈科名、吴裔、王杰斌、马驰、唐鹏、郭祯、倪华军。 T/CSAC 007—2024 1 隐私计算脱敏算法能力评估技术要求 1 范围本文件描述了脱敏算法能力评估的目的、基本原则和使用情况,给出了脱敏算法能力评估的通用技术要求,规定脱敏算法的分类、能力评估指标体系、可逆性评估、信息偏差性评估、损失性评估和复杂性评估等内容。 本文件适用于规范各类组织的隐私信息脱敏处理活动,也适用于互联网、通信、金融、医疗、物流、 交通、教育、文旅和公共服务等领域的机构为主体的个人信息处理者,以及个人信息保护产品提供商、 产品评测机构、个人信息保护合规审计评估机构、审查认证机构等组织对隐私信息脱敏处理活动进行监督、管理和评估提供参考。 2 规范性引用文件本文件引述下列文件中的部分内容。下列文件中,注日期的引用文件,仅该日期对应的版本适用于本指南;不注日期的引用文件,其最新版本适用于本指南。 GB 25069-2022 信息安全技术术语 GB 35273-2020 信息安全技术个人信息安全规范 GB 37964-2019 信息安全技术个人信息去标识化指南 GB 37988-2019 信息安全技术数据安全能力成熟度模型 T/CSAC 005—2024 隐私计算总体框架 T/CSAC 006—2024 隐私计算脱敏控制技术要求 3 术语和定义 GB 25069-2022和GB 35273-2020界定的以及下列术语和定义适用于本文件。 3.1 个人信息personal information 以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包含个人信息本身及其衍生信息,不包括匿名化处理后的信息。 [来源:GB 44588—2024,3.3,有修改] 3.2 标识符identity 可以明显识别记录主体身份的属性集合,包括姓名、电话号码、身份证号码等信息。 [来源:T/CSAC 005—2024,3.2] 3.3 准标识符implied identity 组合起来可以识别记录主体身份的属性集合,包括年龄、性别、邮编等信息。 [来源:T/CSAC 005—2024,3.3] T/CSAC 007—2024 2 3.4 敏感个人信息sensitive personal information 一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。 注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周岁未成年人的个人信息。 [来源:GB 35273-2020,3.4] 3.5 隐私信息private information 能通过信息系统进行处理的敏感个人信息,是个人信息记录中的标识符、准标识符和敏感属性的集合。 注:隐私信息包括个人生物特征信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、 健康生理信息、交易信息、14岁以下(含)儿童的个人信息等。 [来源:T/CSAC 005—2024,3.4] 3.6 隐私信息所有者private information owner 隐私信息所标识或者关联的自然人、组织、设备或程序等实体。 [来源:T/CSAC 005—2024,3.14] 3.7 隐私信息处理者private information processor 对隐私信息进行收集、存储、使用、加工、传输、提供、公开、删除、脱敏、存证与取证等操作的实体。 [来源:T/CSAC 005—2024,3.22] 3.8 敏感属性sensitive attribute 信息载体中含有敏感个人信息的属性,泄露、修改或破坏该属性值会对个人权益产生影响。 注:在潜在的重标识攻击期间需要防止其值与任何一个隐私信息主体相关联。 [来源:GB 37964-2019,3.10,有修改] 3.9 原始信息raw information 当前主体采集或者接收到的信息,其包含敏感个人信息,需要进行脱敏处理,且可以通过携带脱敏控制策略来实现个人信息的流转脱敏控制。 3.10 脱敏信息desensitized information 经过特定脱敏算法处理的原始数据,使其中的隐私信息难以直接关联到特定的隐私信息主体。 3.11 脱敏要求desensitization requirements 待脱敏的隐私信息的脱敏等级、脱敏时机、脱敏算法及其参数选择等约束信息。 [来源:T/CSAC 005—2024,3.24] 3.12 数据模态data mode 个人信息载体数据的具体表示形式,比如数字、文本、图像、视频、语音等。 T/CSAC 007—2024 3 3.13 数据脱敏data desensitization 通过一系列数据处理方法对原始数据进行处理以减少或消除敏感个人信息的一种数据保护方法。 [来源:GB 37988-2019,3.12,有修改] 3.14 脱敏算法desensitization algorithm 通过对隐私信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联隐私信息主体。 注:脱敏算法包括k-匿名、差分隐私等算法。 [来源:GB 35273-2020,3.15] 3.15 可逆性reversibility 被脱敏掉的隐私信息被复原的可能性。 [来源:T/CSAC 005—2024,3.28] 3.16 信息偏差性information deviation 脱敏算法执行前后,可观测到的脱敏信息与原始信息的偏差。 [来源:T/CSAC 005—2024,3.34] 3.17 信息损失性information loss 信息被不可逆的脱敏算法作用后,隐私信息损失部分对可用性的影响程度。 [来源:T/CSAC 005—2024,3.35] 3.18 复杂性complexity 执行脱敏算法所需要的资源开销。 注:复杂性通常用时间开销和空间开销表示。 [来源:T/CSAC 005—2024,3.37] 3.19 泛化generalization 将一类属性中的特定值用一个更宽泛的值代替,以更概括、抽象的方式描述数据。 注:泛化技术包括替换、取整、k-匿名、模糊化、概化等手段。 [来源:GB 37964-2019,A.5.1,有修改] 3.20 抑制suppression 将某个属性、属性的值或者属性值的一部分进行删除或者以特定的符号代替。 [来源:T/CSAC 005—2024,3.30] 3.21 解耦和置换anatomization and permutation 去除准标识符和敏感属性间的关联性,而不改变准标识符或敏感属性的值。 [来源:T/CSAC 005—2024,3.31] 3.22 扰动perturbation T/CSAC 007—2024 4 用合成的数据值取代原始的数据值,改变后的数据与真实数据主体失去关联性。 注1:扰动后统计信息不发生显著改变。 注2:扰动化技术包括加噪、数据交换、合成数据生成等。 [来源:T/CSAC 005—2024,3.32] 3.23 差分隐私differential privacy 通过扰动的方式对个人隐私信息进行脱敏,且扰动添加的噪声类型和参数满足差分的数学定义。 [来源:T/CSAC 005—2024,3.33] 4 概述 4.1 脱敏算法能力评估的目的脱敏算法能力评估的目标包括: a) 脱敏算法能力应符合法律规定与脱敏控制要求,可支持自动选择算法; b) 在第三方评估的过程中,保障不同的单位和团体所采用的脱敏算法具有合规性和一致性,防止跨系统中的隐私泄露问题,预防全社会各系统隐私保护的短板效应。 4.2 脱敏算法能力评估的基本原则脱敏算法能力评估分为可逆性评估、信息偏差性评估、信息损失性评估和复杂性评估,并且依据所采用脱敏算法的类别,为以上四个评估维度赋予相应的权重值。其中,可逆性评估是衡量脱敏算法处理后信息中复原隐私信息的可能性;信息偏差性评估是衡量脱敏算法处理后的信息失真和偏移程度;信息损失性评估是衡量脱敏算法处理后隐私信息损失部分对可用性的影响程度;复杂性评估是衡量脱敏算法处理隐私信息所需的资源开销。 4.3 脱敏算法能力评估的使用脱敏算法能力评估技术要求可以为企业自身、监督管理部门、安全合规团队以及第三方评估机构等主体适用,用以评估其脱敏算法前后脱敏信息的可逆性、信息偏差性、信息损失性是否符合发布的要求, 以及脱敏算法的资源开销是否符合性能要求。 5 脱敏算法分类 5.1 脱敏算法分类概述根据脱敏算法的实现原理、应用场景、处理数据方式等因素,可以分为扰动、泛化、匿名、置换四类技术。 5.2 基于扰动技术的脱敏算法基于扰动的脱敏算法主要采用差分隐私算法中的拉普拉斯机制、指数机制、稀疏向量技术、随机响应技术和高斯机制。附录B.2给出了27种基于扰动技术的脱敏算法描述示例。具体如下: a) 拉普拉斯机制,是指通过向源数据中添加拉普拉斯噪声以满足差分隐私的要求,该机制可以保证数据集中任何特定的个人信息主体的存在与否,无法从脱敏数据集或系统响应结果中推 T/CSAC 007—2024 5 导出;即使攻击者能够访问其他相关的数据集,只要隐私损失限定在一定范围内,就可以保证隐私信息无法被获取; b) 指数机制,是指通过一个评分函数输出查询函数的每个可能输出分数,并返回分数近似最大的回复来实现差分隐私保护;该机制可以在不向原始数据添加噪声的基础上满足差分隐私的要求; c) 稀疏向量技术,用于回答有一个预先固定的阈值T 的查询,该技术将在被查询值中添加噪声, 并将结果与阈值T 进行比较,并只返回高于阈值T 的查询结果;适用于需要多次查询的场景; d) 随机响应技术,是指通过模糊用户对问题的结果响应,用户将以一定的概率返回自己的真实数据或者值域中包含的其他可能数据,从而实现在保护用户隐私的情况下进行频数统计的目的,一般用于本地化差分隐私场景中; e) 高斯机制,是指针对数值型查询的结果响应,它通过向数值型查询结果中添加从特定高斯分布中抽取的噪声,使得查询结果在一定程度上被随机化,从而保护了原始数据集中个体数据的隐私。 5.3 基于泛化技术的脱敏算法基于泛化技术的脱敏算法是指通过引入不确定性或模糊性,使原始隐私信息变得更加模糊或不精确,以实现对隐私信息的脱敏;可以基于规则、概率分布或其他方式进行,可用于文本类数据、图像类数据、音频类数据以及视频类数据的脱敏。附录B.3给出了22种基于泛化技术的脱敏算法描述示例。 5.4 基于匿名技术的脱敏算法基于匿名技术的脱敏算法包括k-匿名算法、l-多样性算法、t-贴近性算法等数据处理手段。附录B.4 给出了12种基于匿名技术的脱敏算法描述示例。具体如下: a) k-匿名算法,要求发布的数据中指定标识符(直接标识符或准标识符)属性值相同的每一等价类至少包含k 个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护个人信息安全; b) l-多样性算法,是对k-匿名算法的改进,该算法首先对数据进行k-匿名处理生成多个等价类, 并通过确保每个等价类中的敏感属性具有多样性,防止通过背景知识攻击识别敏感信息; c) t-贴近性算法,进一步改进了l-多样性算法,通过确保每个等价类中敏感属性的分布与整体数据集的分布相似,防止敏感属性分布的偏离。 5.5 基于置换技术的脱敏算法基于置换技术的脱敏算法是指将原始隐私信息中的具体值替换为其他确定性或随机性的值,从而实现对隐私信息的脱敏。置换可以基于规则、概率分布或其他方式进行,例如:将具体的数字替换为某个范围内的值,或者将文本中的具体词语替换为一般性类别的词语。附录B.5给出了19种基于置换技术的脱敏算法描述示例。 6 脱敏算法能力评估指标体系 6.1 脱敏算法能力评估指标体系概述脱敏算法能力评估的指标体系包括可逆性、信息偏差性、信息损失性和复杂性等四类指标,且基于测评样本基准数据集,对各类脱敏算法进行能力评估。 T/CSAC 007—2024 6 6.2 可逆性评估指标可逆性评估是衡量从脱敏算法处理后信息中复原隐私信息的可能性。由于脱敏旨在保护敏感个人信息,通常情况下脱敏是不可逆的。可逆性度量方法如下: a) 脱敏算法可逆性,评估隐私信息脱敏使用的是否是不可逆脱敏算法,并根据算法是否可逆确立不同的可逆性评估指标,具体如下: 1) 脱敏算法为不可逆算法,宜依据脱敏算法参数确立可逆性评估指标; 2) 脱敏算法为可逆算法,宜依据脱敏算法恢复密钥强度确立可逆性评估指标。 b) 脱敏算法参数强度,评估脱敏算法使用的参数强度,并根据处理的数据模态,确立算法参数强度指标的所占权重值,具体如下: 1) 数据模态为文本、表格等的数据,算法参数强度指标所占权重值较低; 2) 数据模态为图形、图像、音频、视频等的数据,算法参数强度指标所占权重值较高。 c) 信息还原性,评估通过脱敏后的隐私信息还原出原始隐私信息的程度,例如:恢复信息的准确度、恢复信息的偏差度,以此评估脱敏算法的可逆性,具体如下: 1) 恢复信息的准确度越高,脱敏算法的可逆性就相对越高; 2) 恢复信息的偏差度越高,脱敏算法的可逆性就相对越低。 6.3 信息偏差性评估指标信息偏差性评估是衡量脱敏算法处理后的信息失真和偏移程度。信息偏差性度量方法如下: a) 统计偏差性,比较原始数据和脱敏后数据的统计指标,例如:均方差、平均绝对值、KL散度、 欧氏距离、余弦距离、峰值信噪比、结构相似性指数、均值、中位数、方差、标准差、最大值、最小值等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下: 1) 数据模态为文本、表格等的数据,宜选择均方差、平均绝对值等指标为统计偏差性评估指标; 2) 数据模态为图形、图像、音频、视频等的数据,宜选择峰值信噪比、结构相似性指数等指标为统计偏差性评估指标。 b) 数据分布偏差性,比较原始数据和脱敏后数据的分布差异,例如:分布形状、分位数和累积分布函数等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下: 1) 数据模态为文本、表格等的数据,宜选择分布形状等指标为数据分布偏差性评估指标; 2) 数据模态为图形、图像、音频、视频等的数据,宜选择累积分布函数等指标为数据分布偏差性评估指标。 c) 模型应用准确性,使用原始数据和脱敏后数据分别构建训练模型,选择合适的验证集或测试集, 比较模型在验证集或测试集上的效果,以此评估脱敏算法的信息偏差性,具体如下: 1) 模型在验证集或测试集上的效果越好,脱敏算法的信息偏差性相对越低; 2) 模型在验证集或测试集上的效果越差,脱敏算法的信息偏差性相对越高。 d) 数据随机性分析,评估脱敏算法对隐私信息的随机性影响程度,以此评估脱敏算法的信息偏差性,具体如下: 1) 脱敏算法对隐私信息的随机性影响越小,脱敏算法的信息偏差性相对越低; 2) 脱敏算法对隐私信息的随机性影响越大,脱敏算法的信息偏差性相对越高。 6.4 信息损失性评估指标 T/CSAC 007—2024 7 信息损失性评估是衡量脱敏算法处理后隐私信息损失部分对可用性的影响程度。信息损失性度量方法如下: a) 信息熵,信息熵是衡量数据集中信息量的度量指标,通过计算原始数据和脱敏后数据的信息熵, 比较差异,并根据处理的数据模态,确立信息损失性的评估指标,具体如下: 1) 数据模态为图形、图像、音频、视频等的数据,宜选择信息熵等指标为信息损失性评估指标; 2) 脱敏算法前后数据的信息熵差值越大,脱敏算法的信息损失性相对越高。 b) 互信息,互信息是衡量两个随机变量之间相互依赖程度的度量指标,通过计算原始数据和脱敏后数据之间的互信息进行量化评估,并根据处理的数据模态,确立信息损失性的评估指标, 具体如下: 1) 数据模态为文本、表格等的数据,宜选择互信息等指标为信息损失性评估指标; 2) 脱敏算法前后数据的互信息越高,脱敏算法的信息损失性相对越低。 c) 数据分布特征,比较原始数据和脱敏后数据的分布特征的统计指标,例如:均值、方差、分位数等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下: 1) 数据模态为文本、表格等的数据,宜选择数据分布特征等指标为信息损失性评估指标; 2) 脱敏算法前后数据的数据分布特征越相近,脱敏算法的信息损失性相对越低。 d) 数据关联性,计算原始数据和脱敏后数据之间的关联性的度量指标,例如:相关系数、协方差等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下: 1) 数据模态为文本、表格等的数据,宜选择数据关联性等指标为信息损失性评估指标; 2) 脱敏算法前后数据的数据关联性越高,脱敏算法的信息损失性相对越低。 e) 数据可用性,评估脱敏数据在特定应用场景下的可用程度指标,例如:数据分析、模型训练等应用场景,并根据处理的数据模态,确立信息损失性的评估指标,具体如下: 1) 数据模态为图形、图像、音频、视频等的数据,宜选择数据可用性等指标为信息损失性评估指标; 2) 脱敏算法前后数据的数据可用性越高,脱敏算法的信息损失性相对越低。 6.5 复杂性评估指标复杂性评估是衡量脱敏算法处理隐私信息所需的资源开销。复杂性度量方法如下: a) 时间复杂度,用于衡量算法执行所需时间的度量指标,可以通过分析算法中的操作、迭代次数和数据规模等来确定,例如:常数时间、线性时间、对数时间、平方时间等,并根据处理的数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下: 1) 对于任何类型的数据模态,都宜选择时间复杂度等指标为复杂性评估指标; 2) 脱敏算法执行的时间复杂度越高,脱敏算法的复杂性相对越高。 b) 空间复杂度,用于衡量算法执行所需内存空间的度量指标,可以通过分析算法中使用的额外数据结构、变量和递归调用的深度等来确定,例如:常数空间、线性空间、指数空间等,并根据处理的数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下: 1) 对于任何类型的数据模态,都宜选择空间复杂度等指标为复杂性评估指标; 2) 脱敏算法执行的空间复杂度越高,脱敏算法的复杂性相对越高。 c) 计算资源需求,评估算法执行所需的计算资源,包括CPU执行时间、占用内存等,并根据处理的数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下: 1) 对于任何类型的数据模态,都宜选择计算资源需求等指标为复杂性评估指标; T/CSAC 007—2024 8 2) 脱敏算法执行的计算资源需求越高,脱敏算法的复杂性相对越高。 6.6 算法能力综合评估指标在脱敏算法能力评估的过程中,需要根据所采用脱敏算法的类别和数据应用场景,分别为可逆性、 信息偏差性、信息损失性以及复杂性四个评估维度设置相应的权重,进行加权计算,得出算法能力的综合评估结果。例如:基于扰动技术的脱敏算法的信息偏差性评估的权重值宜设置较高;基于泛化技术的脱敏算法的信息损失性评估的权重值宜设置较高;基于匿名技术的脱敏算法的信息损失性评估的权重值宜设置较高;基于置换技术的脱敏算法的可逆性评估的权重值宜设置较高。附录A.2给出了一种不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重参考。 7 脱敏算法能力评估通用技术要求 7.1 脱敏算法可逆性评估脱敏算法可逆性评估的具体内容如下: a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定算法可逆性对应的权重值,具体如下: 1) 数据模态为文本、表格等的数据,算法可逆性评估的权重值宜设置较低; 2) 数据模态为图形、图像、音频、视频等的数据,算法可逆性评估的权重值宜设置较高。 b) 结合隐私信息数据模态及应用场景,选择6.2节中的评估指标,衡量脱敏信息的被还原能力, 评估内容包括但不限于:恢复信息的准确度、恢复信息的偏差度等,并根据确立的各可逆性指标的权重值进行评估,具体如下: 1) 数据在数据域内流转场景下,恢复信息的准确度、恢复信息的偏差度指标可适用于任何类型的数据模态的数据; 2) 数据在数据域外发布场景下,恢复信息的准确度、恢复信息的偏差度指标的权重值宜设置较高。 c) 综合考虑算法类别、算法参数、数据模态等因素,设计合理的可逆性评估方案,设置合理的可逆性评估权重值,保证评估结果的准确性和可信性,具体如下: 1) 分类为置换技术的脱敏算法,其可逆性评估的权重值宜设置较高; 2) 分类为扰动技术、泛化技术、匿名技术的脱敏算法,其可逆性评估的权重值宜设置较低。 7.2 脱敏算法信息偏差性评估脱敏算法信息偏差性评估的具体内容如下: a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定信息偏差性对应的权重值,具体如下: 1) 数据模态为图形、图像、音频、视频等的数据,算法信息偏差性评估的权重值宜设置较低; 2) 数据模态为文本、表格等的数据,算法信息偏差性评估的权重值宜设置较高。 b) 结合隐私信息数据模态及应用场景,选择6.3节中的评估指标,衡量脱敏算法执行前的原始隐私信息与脱敏后的隐私信息之间的偏差程度,评估内容包括但不限于:数据统计、数据应用测试、随机性分析等,并根据确立的各信息偏差性指标的权重值进行评估,具体如下: 1) 均方误差、平均数等指标可适用于文本、表格等模态的数据; T/CSAC 007—2024 9 2) Kullback-Leibler 散度、余弦距离等指标可适用于图形、图像、音频、视频等模态的数据。 c) 综合考虑数据规模、数据分布、数据模态等因素,设计合理的信息偏差性评估方案,设置合理的信息偏差性评估权重值,保证评估结果的准确性和可用性,具体如下: 1) 分类为扰动技术的脱敏算法,其信息偏差性评估的权重值宜设置较高; 2) 分类为匿名技术、泛化技术、置换技术的脱敏算法,其信息偏差性评估的权重值宜设置较低。 7.3 脱敏算法信息损失性评估脱敏算法信息损失性评估的具体内容如下: a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定信息损失性对应的权重值,具体如下: 1) 数据模态为图形、图像、音频、视频等的数据,算法信息损失性评估的权重值宜设置较低; 2) 数据模态为文本、表格等的数据,算法信息损失性评估的权重值宜设置较高。 b) 结合隐私信息数据模态及应用场景,选择6.4节中的评估指标,衡量脱敏算法执行前的原始隐私信息与脱敏后的隐私信息之间的信息损失程度,评估内容包括但不限于:信息熵、互信息、 数据分布特征、数据关联性、信息可用性等,并根据确立的各信息损失性指标的权重值进行评估,具体如下: 1) 数据分布特征、数据关联性等指标可适用于文本、表格等模态的数据; 2) 信息熵、信息可用性等指标可适用于图形、图像、音频、视频等模态的数据。 c) 综合考虑数据可用、数据关联、应用场景等因素,设计合理的信息损失性评估方案,设置合理的信息损失性评估权重值,保证评估结果的准确性和有效性,具体如下: 1) 分类为泛化技术、匿名技术的脱敏算法,其信息损失性评估的权重值宜设置较高; 2) 分类为扰动技术、置换技术的脱敏算法,其信息损失性评估的权重值宜设置较低。 7.4 脱敏算法复杂性评估脱敏算法复杂性评估的具体内容如下: a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定算法复杂性对应的权重值,具体如下: 1) 数据模态为文本、表格等的数据,算法复杂性评估的权重值宜设置较低; 2) 数据模态为图形、图像、音频、视频等的数据,算法复杂性评估的权重值宜设置较高。 b) 结合隐私信息数据模态及应用场景,选择6.5节中的评估指标,衡量脱敏算法的执行效率和资源消耗情况,评估内容包括但不限于:时间复杂度、空间复杂度、资源消耗等,并根据确立的各复杂性指标的权重值进行评估,具体如下: 1) 时间复杂度、空间复杂度等指标可适用于任何类型的数据模态的数据; 2) 资源消耗等指标可适用于任何类型的数据模态的数据。 c) 综合考虑平台资源、数据模态、数据规模、数据结构等因素,设计合理的复杂性评估方案,设置合理的复杂性评估权重值,保证评估结果的准确性和有效性,具体如下: 1) 分类为扰动技术的脱敏算法,其复杂性评估的权重值宜设置较高; 2) 分类为泛化技术、匿名技术、置换技术的脱敏算法,其复杂性评估的权重值宜设置较低。 T/CSAC 007—2024 10 附录A (资料性) 脱敏算法能力评估示例 A.1 概述本附录以k-匿名算法对文本类医疗数据的脱敏能力评估为例,介绍针对脱敏算法能力评估指标体系的使用方法,供进行脱敏算法能力评估时参考。 脱敏算法能力评估过程的关键处理环节包括脱敏算法评估维度权重确定、敏感信息属性确定、评估指标选定、可逆性评估、信息偏差性评估、信息损失性评估、复杂性评估以及评估报告生成。 A.2 脱敏算法评估维度权重确定根据数据的使用场景、来源、脱敏意图等因素,定义脱敏算法评估维度的权重。本示例中数据的应用场景为医疗问诊场景,数据模态为表格型,使用的k-匿名算法(脱敏参数k=3)属于泛化技术,参考表A.1建议的不同脱敏算法类别(泛化、匿名、置换、扰动)处理文本类医疗数据时的评估指标维度权重,将可逆性、信息偏差性、信息损失性、复杂性四个维度的对应权重分别为0.2、0.2、0.5、0.1。 表A.1 不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重参考可逆性信息偏差性信息损失性复杂性算法类别评估点参考权重评估点参考权重评估点参考权重评估点参考权重泛化技术脱敏算法是否可逆0.1 脱敏前后数据均值 0.04 信息熵差值0.5 时间复杂度0.05 脱敏前后数据方差0.04 还原信息的准确性0.05 脱敏前后数据均方差0.03 KL散度0.03 空间复杂度还原信息0.05 的误差性0.05 欧氏距离0.03 平均绝对值0.03 匿名技术脱敏算法是否可逆0.1 脱敏前后数据均值0.04 信息熵差值0.5 时间复杂度0.05 脱敏前后数据方差0.04 还原信息的准确性0.05 脱敏前后数据均方差0.03 KL散度0.03 空间复杂度还原信息0.05 的误差性0.05 欧氏距离0.03 平均绝对值0.03 置换技术脱敏算法是否可逆0.3 脱敏前后数据均值0.04 信息熵差值0.2 时间复杂度0.05 脱敏前后数据方差0.04 还原信息的准确性0.1 脱敏前后数据均方差0.03 KL散度0.03 空间复杂度还原信息0.05 的误差性0.1 欧氏距离0.03 平均绝对值0.03 扰动技术脱敏算法是否可逆0.1 脱敏前后数据均值0.08 信息熵差值0.2 时间复杂度0.05 T/CSAC 007—2024 11 脱敏前后数据方差0.08 还原信息的准确性0.05 脱敏前后数据均方差 0.08 KL散度0.08 空间复杂度还原信息0.05 的误差性0.05 欧氏距离0.09 平均绝对值0.09 A.3 敏感信息属性确定收集并整理待评测的原始数据和经过k-匿名算法处理后的数据,在本示例中,原始数据如表A.2所示,k-匿名算法处理后的数据如表A.3所示。确定本次脱敏操作的敏感信息属性为“年龄”。 表A.2 原始数据序号邮编年龄病症 1 47677 29 心脏病 2 47602 22 心脏病 3 47678 27 心脏病 4 47905 43 流感 5 47909 52 心脏病 6 47906 47 癌症 7 47605 30 心脏病 8 47617 36 癌症 9 47607 32 癌症注:本表格中示例用于数据脱敏。示例中数据为虚拟数据,不涉及公民的隐私信息。例如:邮编为无实际意义的信息;疾病类型为泛指类别,不涉及公民具体疾病信息。 表A.3 脱敏后数据序号邮编年龄病症 1 476** 476** 476** 2* 心脏病心脏病心脏病 2 2* 3 2* 4 4790* 4790* 4790* ≥40 ≥40 ≥40 流感心脏病癌症 5 6 7 476** 476** 476** 3* 3* 3* 心脏病癌症癌症 8 9 注:本表格中示例用于脱敏算法能力评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。 A.4 评估指标选定 a) 确定可逆性的评估为算法的可逆程度,脱敏算法参数以及信息的还原性。评估指标为脱敏算法是否为不可逆算法,脱敏算法的参数对于原始数据数据规模的脱敏强度是否合适,通过脱敏后的隐私信息还原出原始隐私信息的程度; T/CSAC 007—2024 12 b) 确定信息偏差性的评估为原始数据与脱敏后数据之间的平均绝对误差和欧氏距离。评估指标为脱敏前后数据间的平均绝对误差0~2.13 时为偏差性较低,2.13~4.63 时为偏差性中等,4.63 以上为偏差性较高。脱敏前后数据间的欧氏距离0~7.04 时为偏差性较低,7.04~9.38 时为偏差性中等,9.38 以上为偏差性较高; c) 确定信息损失性的评估为原始数据与脱敏后数据之间的信息熵差值和互信息。评估指标为脱敏前后数据间的信息熵差值0~0.06 时为信息损失性低,0.06~4.36 时为信息损失性中等,4.36 以上信息损失性高。脱敏前后数据间的互信息为0.8~1.0 时为信息损失性低,0.4~0.8 为信息损失性中等,0~0.4 为信息损失性高; d) 确定复杂性的评估为脱敏算法的时间复杂度和空间复杂度。评估指标为脱敏算法的时间复杂度小于为复杂性低, 间为复杂性中等,大于为复杂性高。脱敏算法的空间复杂度小于等于为复杂性低,为为复杂性中等,大于为复杂性高。 A.5 可逆性评估本次脱敏使用的脱敏算法类别为泛化技术,使用k-匿名算法,判断该脱敏算法为不可逆算法,参数 k=3,数据量为9条,通过脱敏后的隐私信息还原出原始隐私信息的概率为0.1,故本次脱敏任务中的可逆性低。 A.6 信息偏差性评估计算得到脱敏前后数据的平均绝对误差为13.44,依据评估指标13.44>4.64,脱敏前后数据的欧氏距离为11.00,依据评估指标11.00>9.38,故本次脱敏效果中的偏差性高。 A.7 信息损失性评估计算得到脱敏前数据的信息熵为3.17。脱敏后数据的信息熵为1.58。脱敏前后数据的信息熵差值为 1.59,依据评估指标0.06<1.59<4.36,脱敏前后数据的互信息为0.48,依据评估指标0.4<0.48<0.8,故本次脱敏效果中的信息损失性中等。 A.8 复杂性评估分析k-匿名算法的时间复杂度为,空间复杂度为,故本次脱敏效果中的复杂性高。 A.9 评估报告生成对可逆性评估结果、信息偏差性评估结果、信息损失性评估结果、复杂性评估结果进行加权操作, 得出算法能力的综合评估结果。 T/CSAC 007—2024 13 附录B (资料性) 脱敏算法分类示例 B.1 概述本附录以脱敏算法的按需选择为例,根据脱敏算法的实现原理、应用场景、处理数据方式等因素, 可以分为扰动、泛化、匿名、置换四类技术。在本示例中,分别介绍基于扰动技术的脱敏算法描述示例、 基于泛化的脱敏算法描述示例、基于匿名的脱敏算法描述示例和基于置换的脱敏算法描述示例,供执行脱敏算法选择操作时参考。 B.2 基于扰动技术的脱敏算法表B.1给出了27种基于扰动技术的脱敏算法描述示例。 表B.1 基于扰动技术的脱敏算法描述示例序号名称编号功能使用方式 1 Laplace Mecha nism A-1-1 添加拉普拉斯噪声,返回添加噪声后的数值列表输入:数值列表输出:数值列表, 参数:隐私保护级别参数含义:选取隐私预算 2 Report Noisy Max1-L aplace A-1-2 添加拉普拉斯噪声,返回添加n 次噪声后的最大值索引列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 3 Report Noisy Max3 A-1-3 添加拉普拉斯噪声,返回添加n 次噪声后的最大值列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 4 Snappin g Mech anism A-1-4 添加拉普拉斯噪声,返回截断后的数值列表输入:数值列表输出:数值列表参数:截断边界B,采样次数n 参数含义:数值列表中数据的截断边界,对输入的数值列表添加噪声的次数 5 IM-Cod er1 A-1-5 为图片添加拉普拉斯噪声,返回加噪后的图片输入:图像输出:图像参数:隐私保护级别参数含义:选取隐私预算 6 dpAudio A-1-6 对声纹特征添加拉普拉斯噪声,返回加噪后的音频输入:音频输出:音频参数:隐私保护级别参数含义:选取隐私预算 7 dpGraph A-1-7 为图形数据添加拉普拉斯噪声输入:图形输出:图形参数:隐私保护级别参数含义:选取隐私预算 8 dpDate A-1-8 为日期数据添加拉普拉斯噪声,返回加噪后的日期数组输入:日期列表输出:日期列表参数:隐私保护级别参数含义:选取隐私预算 9 IM-Cod er2 A-1-9 为图像添加拉普拉斯噪声,返回加噪后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选取隐私预算 10 Expone ntial M echanis m A-2-1 返回一组数值中每个数值被选中的概率,返回每个数值被选中的概率输入:数值列表输出:数值列表参数:隐私保护级别参数含义:选取隐私预算 11 Report A-2-2 向数组添加指数噪输入:数值列表输出:数值列表 T/CSAC 007—2024 14 Noisy Max2-E xponenti al 声后,返回添加n 次噪声后最大值的索引参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 12 Report Noisy Max4 A-2-3 向数组添加指数噪声后,返回添加n 次噪声后数组的最大值列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 13 Sparse Vector Techniq ue1 A-3-1 稀疏向量技术,数组值和阈值t 加噪后进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t,计数c 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t,返回应答的计数c 14 Sparse Vector Techniq ue2 A-3-2 稀疏向量技术,数组值和阈值t 加噪后进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t,计数c 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t,返回应答的计数c 15 Sparse Vector Techniq ue3 A-3-3 稀疏向量技术,给数组值和阈值t 加噪后进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t,计数c 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t,返回应答的计数c 16 Sparse Vector Techniq ue4 A-3-4 稀疏向量技术,给数组值和阈值t 加噪后进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t,计数c 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t,返回应答的计数c 17 Sparse Vector Techniq ue5 A-3-5 稀疏向量技术,给阈值t 加噪后与数组进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t 18 Sparse Vector Techniq ue6 A-3-6 稀疏向量技术,给数组值和阈值t 加噪进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t 19 Numeric al Spars e Vecto r Techn ique A-3-7 稀疏向量技术,给数组值和阈值t 加噪后进行比较,返回n 个比较结果列表输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n,阈值t,计数c 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数, 用于比较的阈值t,返回应答的计数c 20 Rappor A-4-1 基于随机响应统计用户某一特征的直方图(频次)信息, 返回n 维二进制数组输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 21 One Ti me Rap por A-4-2 基于随机响应统计用户某一特征的直方图(频次)信息, 返回n 维二进制数组输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 22 dpCode A-4-3 对数据进行GRR 扰动输入:数值列表输出:数值列表参数:隐私保护级别参数含义:选取隐私预算 23 random Mean A-5-1 为数组添加随机均匀噪声,返回添加噪声后的数值列表输入:数值列表输出:数值列表参数:隐私保护级别参数含义:选取隐私预算 24 random A-5-2 为数组添加随机拉输入:数值列表输出:数值列表 T/CSAC 007—2024 15 Laplace 普拉斯噪声,返回添加噪声后的数值列表参数:隐私保护级别参数含义:选取隐私预算 25 random Gaussia n A-5-3 为数组添加随机高斯噪声,返回添加噪声后的数值列表输入:数值列表输出:数值列表参数:隐私保护级别参数含义:选取隐私预算 26 Noisy Histogra m1 A-5-4 给直方图的每个值加噪,返回n 维数组输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 27 Noisy Histogra m2 A-5-5 给直方图的每个值加噪并反馈影响门限,返回n 维数组输入:数值列表输出:数值列表参数:隐私保护级别,采样次数n 参数含义:选取隐私预算,对输入的数值列表添加噪声的次数 B.3 基于泛化技术的脱敏算法表B.2给出了22种基于泛化技术的脱敏算法描述示例。 表B.2 基于泛化技术的脱敏算法描述示例序号名称编号功能使用方式 1 Truncatio n B-1-1 对字符串进行尾部截断,返回截断后的字符串输入:字符串输出:字符串参数:隐私保护等级参数含义:选择是否进行字符串截断 2 Floor B-1-2 对数值取整,返回取整后的数值输入:数值输出:数值参数:隐私保护级别参数含义:选择是否进行数值取整 3 floorTime B-1-3 对时间取整,返回取整后的时间输入:符合时间格式要求的字符串输出:符合时间格式要求的字符串参数:隐私保护级别参数含义:选择是否进行时间取整 4 addressHi de B-1-4 隐藏具体地址信息,返回隐藏后的地址信息输入:地址字符串输出:地址字符串参数:隐私保护级别参数含义:选择将要保留的地址的行政区划级别 5 date_grou p_replace B-1-5 将日期数据分组,将分组内日期替换为同一日期,返回处理后的日期列表输入:日期列表输出:日期列表参数:隐私保护级别参数含义:选择分组大小 6 mixzone_ 1 B-2-1 生成假名位置信息,返回位置信息或假名 ID 输入:经度、纬度输出:位置信息字符串或假名ID 参数:用户id、进入区域的时间、区域点集参数含义:用户id,用户进入该区域的时间, 区域四个顶点的经纬度 7 mixzone_ 3 B-2-2 生成假名位置信息,返回位置信息或假名 ID 输入:经度、纬度输出:位置信息字符串或假名ID 参数:用户id、进入区域的时间、区域点集参数含义:用户id,用户进入该区域的时间, 区域四个顶点的经纬度 8 Accuracy _reduction B-2-3 根据特定的精度需求对用户发送过来的位置信息进行模糊处理,返回处理后的经纬度输入:经纬度输出:经纬度参数:隐私保护级别参数含义:不同的精度需求 9 pixelate B-3-1 对图像打马赛克,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择滤波核的大小 10 gaussian_ blur B-3-2 对图像进行高斯模糊,返回处理后的图像输入:图像输出:图像参数:隐私保护级别 T/CSAC 007—2024 16 参数含义:选择高斯滤波器滤波核的大小 11 box_blur B-3-3 对图像进行盒式模糊,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择盒式滤波器滤波核的大小 12 meanValu eImage B-3-4 对图像进行均值模糊,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择均值滤波器滤波核的大小 13 replace_re gion B-3-5 将图像的一部分像素替换为黑色,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择被替换为黑色的区域大小 14 pixelate_v ideo B-4-1 对视频打马赛克,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择滤波核的大小 15 gaussian_ blur_vide o B-4-2 对视频进行高斯模糊,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择高斯滤波器滤波核的大小 16 box_blur_ video B-4-3 对视频进行盒式模糊,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择盒式滤波器滤波核的大小 17 meanValu eVideo B-4-4 对视频进行均值模糊,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择均值滤波器滤波核的大小 18 replace_re gion_vide o B-4-5 对视频每一帧的部分像素替换为黑色,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择被替换为黑色的区域大小 19 audio_flo or B-5-1 对音频采样点数据进行取整操作,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:选择采样点数据要保留的精度 20 audio_spe c B-5-2 删除特定频域段音频,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:控制频域掩码的范围 21 audio_aug mentation B-5-3 使用滤波器等对音频进行失真处理,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:选择选用的效果器 22 audio_me dian B-5-4 对采样点进行分块,块内采样点的均值作为新的采样点输入:音频输出:音频参数:隐私保护级别参数含义:选择分块大小 B.4 基于匿名技术的脱敏算法表B.3给出了12种基于匿名技术的脱敏算法描述示例。 表B.3 基于匿名技术的脱敏算法描述示例序号名称编号功能使用方式 1 k-anony mity C-1-1 对csv 文件进行k-匿名处理, 返回处理后的csv 文件输入:数值或标识符型csv 文件输出:数值或标识符型csv 文件参数:k,泛化模板参数含义:等价类中每条记录的数量,用于确定准标识符的模板 2 CirDum my C-1-2 基于包含用户真实位置的虚拟圆产生匿名位置,返回经纬度列表输入:经纬度输出:经纬度列表参数:匿名度k,匿名区域面积s_cd,圆环内径系数rho 参数含义:结果数组的长度,指定匿名区域的面积,指定虚拟圆环内径系数 3 GridDu mmy C-1-3 基于包含用户真实位置的虚拟方格产生虚拟位置,返回经纬度列表输入:经纬度输出:经纬度列表参数:匿名度k,匿名区域面积s_cd 参数含义:结果数组的长度,指定匿名区域的面积 T/CSAC 007—2024 17 4 Adaptiv e Interv al Cloa king Al gorithm C-1-4 为用户生成虚假位置,返回经纬度列表输入:经度、纬度输出:经纬度列表参数:最小匿名度k,横纵坐标范围c 参数含义:输出的数组长度的最小值,包含所有用户的矩形横纵坐标范围 5 CaDSA C-1-5 为用户生成虚假位置,返回经纬度列表输入:经度、纬度输出:经纬度列表参数:算法类型参数含义:用于选择使用哪种CaDSA 算法 6 location k-anon ymity C-1-6 随机选择k-1 个匿名位置, 与真实位置一起形成k-匿名位置集合,返回经纬度列表输入:经度、纬度输出:经纬度列表参数:匿名度k、虚拟位置库经纬度参数含义:返回的经纬度列表长度,虚拟位置库经纬度横纵坐标列表 7 l-diversi ty C-2-1 为同一个等价类中生成至少 l 种不同的敏感属性值,返回处理后的csv 文件输入:数值或标识符型csv 文件输出:数值或标识符型c sv 文件参数:k、l、泛化模板参数含义:等价类中每条记录的数量,等价类中敏感属性的种类数量,用于确定准标识符的模板 8 Entropyl- diversi ty C-2-2 在一个等价类中敏感数据分布熵的大小至少是log(l),返回处理后的csv 文件输入:数值或标识符型csv 文件输出:数值或标识符型c sv 文件参数:k、l、泛化模板参数含义:等价类中每条记录的数量,等价类中敏感属性的种类数量,准标识符泛化模板 9 Recursiv e-C- l-d iversity C-2-3 通过递归的方式,保证等价类中最经常出现的值的出现频率不要太高,返回处理后的csv 文件输入:数值或标识符型csv 文件输出:数值或标识符型c sv 文件参数:k、l、C、泛化模板参数含义:等价类中每条记录的数量,等价类中敏感属性的种类数量,用于调节某一敏感属性出现的次数,准标识符泛化模板 10 t-closen ess C-3-1 对csv 文件进行t-closeness 处理,返回处理后的csv 文件输入:数值或标识符型csv 文件输出:数值或标识符型c sv 文件参数:k、t、泛化模板参数含义:等价类中每条记录的数量,控制等价类中敏感属性的分布阈值,准标识符泛化模板 11 Hilbert C-3-2 将用户的坐标转换为Hilbert 曲线上的值,返回坐标列表输入:用户坐标输出:坐标列表参数:匿名度k、虚拟位置库坐标参数含义:返回的坐标列表长度,虚拟位置库横纵坐标列表 12 SpaceT wist C-3-3 用于返回距离用户最近的k 个POI,返回经纬度列表输入:经度、纬度输出:经纬度列表参数:匿名度k、所有用户经纬度参数含义:返回的经纬度列表长度,所有用户经纬度坐标列表 B.5 基于置换技术的脱敏算法表B.4给出了19种基于置换技术的脱敏算法描述示例。 表B.4 基于置换技术的脱敏算法描述示例序号名称编号功能使用方式 1 Hiding D-1-1 将数值替换成常量,返回替换后的字符串输入:字符串输出:字符串参数:隐私保护级别参数含义:选择数值将要被替换的内容 2 Shift D-1-2 给数值增加一个固定的偏移量,返回处理后的数值输入:数值输出:数值参数:隐私保护级别参数含义:选择数值偏移量大小 3 Hashing D-1-3 将数据映射为定长hash 值,返回处理后的字符串输入:字符串输出:字符串参数:隐私保护级别参数含义:使用的哈希算法 T/CSAC 007—2024 18 4 Enumeration D-1-4 映射为新值同时保持数据顺序,返回处理后的字符串输入:数值列表输出:数值列表参数:隐私保护级别参数含义:值的映射系数 5 passReplace D-1-5 使用随机数据替代原始数据,返回处理后的字符串输入:字符串输出:字符串参数:隐私保护级别参数含义:选择是否使用随机数据替代原始数据 6 nameHide D-1-6 从第2 个字符用*代替,返回处理后的字符串输入:字符串输出:字符串参数:隐私保护级别参数含义:选择字符串替换范围 7 numberHide D-1-7 字符串中间的字符用*代替,返回处理后的字符串输入:字符串输出:字符串参数:隐私保护级别参数含义:选择字符串替换范围 8 suppressEmail D-1-8 隐藏邮箱信息,返回处理后的字符串输入:邮箱格式的字符串输出:字符串参数:隐私保护级别参数含义:选择邮箱字符串处理的程度 9 suppressAllIp D-1-9 隐藏IP 地址信息,返回处理后的字符串输入:IP 地址格式的字符串输出:字符串参数:隐私保护级别参数含义:选择IP 地址字符串处理的程度 10 suppressIpRandomPar ts D-1-10 将IP 地址随机替换为*,返回处理后的字符串输入:IP 地址格式的字符串输出:字符串参数:隐私保护级别参数含义:选择IP 地址字符串处理的程度 11 image_exchange_cha nnel D-2-1 将图像的每个像素的RGB 通道值随机打乱,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择是否进行随机打乱 12 image_add_color_offs et D-2-2 将图像的每个像素的RGB 通道值加上一个偏移量,返回处理后的图像输入:图像输出:图像参数:隐私保护级别参数含义:选择像素颜色通道偏移量大小 13 image_face_sub D-2-3 将原图像人脸替换为目标图像人脸,返回处理后的图像输入:图像输出:图像参数:目标人脸图片参数含义:选择目标人脸 14 video_add_color_offs et D-3-1 将每一帧的每个像素RGB 通道值加上一个固定的偏移量,返回处理后的视频输入:视频输出:视频参数:隐私保护级别参数含义:选择像素颜色通道偏移量大小 15 video_remove_bg D-3-2 将视频背景进行替换,返回处理后的视频输入:视频输出:视频参数:背景图片参数含义:选择目标背景图片 16 video_face_sub D-3-3 将原视频人脸替换为目标图像人脸,返回处理后的视频输入:视频输出:视频参数:目标人脸图片参数含义:选择目标人脸 17 audio_reshuffle D-4-1 对音频进行分块,随机重排所有分块后合并为一个音频,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:选择分块数量 18 apply_audio_effects D-4-2 对音频进行拉伸、移位和增益,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:选择处理音频的不同参数设置 19 voice_replace D-4-3 用固定声纹替换原始音频的声纹,返回处理后的音频输入:音频输出:音频参数:隐私保护级别参数含义:是否替换原声纹 T/CSAC 007—2024 19 附录C (资料性) 可逆性的计算方法 C.1 概述可逆性可以通过逆向映射、字典攻击、统计攻击、机器学习等方法判断,本附录介绍了逆向映射、 字典攻击、统计攻击、机器学习的方法描述,可供隐私脱敏的组织者参考。 C.2 逆向映射逆向映射是一种简单的可逆性评估方法,即尝试将脱敏后的数据重新映射回原始数据。如果能够准确还原原始数据,说明脱敏算法不安全。逆向映射的关键在于找到逆向映射函数或算法,使得脱敏结果能够被逆向操作还原。 C.3 字典攻击字典攻击是一种基于预先构建的字典或映射表来还原脱敏结果的方法。攻击者通过穷举字典中的映射关系,尝试将脱敏结果映射回原始数据,如果能够找到匹配的映射关系,即可还原原始数据。为了防止字典攻击,脱敏算法需要使用随机化技术或其他安全措施,使得字典攻击的成功率极低。 C.4 统计分析统计分析是一种基于脱敏结果统计特征来推断原始数据的方法。攻击者通过分析脱敏结果的统计特征,如频率分布、均值、方差等,来推测原始数据的可能取值范围。脱敏算法需要通过添加噪音、扰动或其他技术来破坏统计特征,从而提高脱敏结果的安全性。 C.5 机器学习攻击机器学习攻击是一种利用机器学习模型来还原脱敏结果的方法。攻击者可以使用机器学习算法,通过训练模型来学习脱敏结果与原始数据之间的映射关系,一旦攻击者成