T/CSAC 007-2024 隐私计算 脱敏算法能力评估技术要求

文档天下 图书评论15阅读模式

T/CSAC 007-2024 隐私计算 脱敏算法能力评估技术要求 ,该文件为pdf格式 ,请用户放心下载!

尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。

如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。

收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!

资源简介
ICS 35.030
CCS L 80
中华人民共和国团体标准
T/CSAC 007—2024
隐私计算脱敏算法能力评估技术要求
Privacy computing: Technical requirements for desensitization algorithm capabilityevaluation
2024 - 12 - 18 发布2024 - 12 - 18 实施
中国网络空间安全协会 发布

目 次
前言................................................................................. IV
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 概述................................................................................ 4
4.1 脱敏算法能力评估的目的.......................................................... 4
4.2 脱敏算法能力评估的基本原则...................................................... 4
4.3 脱敏算法能力评估的使用.......................................................... 4
5 脱敏算法分类........................................................................ 4
5.1 脱敏算法分类概述................................................................ 4
5.2 基于扰动技术的脱敏算法.......................................................... 4
5.3 基于泛化技术的脱敏算法.......................................................... 5
5.4 基于匿名技术的脱敏算法.......................................................... 5
5.5 基于置换技术的脱敏算法.......................................................... 5
6 脱敏算法能力评估指标体系............................................................ 5
6.1 脱敏算法能力评估指标体系概述.................................................... 5
6.2 可逆性评估指标.................................................................. 6
6.3 信息偏差性评估指标.............................................................. 6
6.4 信息损失性评估指标.............................................................. 6
6.5 复杂性评估指标.................................................................. 7
6.6 算法能力综合评估指标............................................................ 8
7 脱敏算法能力评估通用技术要求........................................................ 8
7.1 脱敏算法可逆性评估.............................................................. 8
7.2 脱敏算法信息偏差性评估.......................................................... 8
7.3 脱敏算法信息损失性评估.......................................................... 9
7.4 脱敏算法复杂性评估.............................................................. 9
附录A (资料性) 脱敏算法能力评估示例................................................10
A.1 概述........................................................................... 10
A.2 脱敏算法评估维度权重确定....................................................... 10
A.3 敏感信息属性确定............................................................... 11
A.4 评估指标选定................................................................... 11
A.5 可逆性评估..................................................................... 12
A.6 信息偏差性评估................................................................. 12
A.7 信息损失性评估................................................................. 12
A.8 复杂性评估..................................................................... 12
T/CSAC 007—2024
II
A.9 评估报告生成................................................................... 12
附录B (资料性) 脱敏算法分类示例....................................................13
B.1 概述........................................................................... 13
B.2 基于扰动技术的脱敏算法......................................................... 13
B.3 基于泛化技术的脱敏算法......................................................... 15
B.4 基于匿名技术的脱敏算法......................................................... 16
B.5 基于置换技术的脱敏算法......................................................... 17
附录C (资料性) 可逆性的计算方法....................................................19
C.1 概述........................................................................... 19
C.2 逆向映射....................................................................... 19
C.3 字典攻击....................................................................... 19
C.4 统计分析....................................................................... 19
C.5 机器学习攻击................................................................... 19
附录D (资料性) 信息偏差性的计算方法................................................20
D.1 概述........................................................................... 20
D.2 均方误差....................................................................... 20
D.3 均绝对误差..................................................................... 20
D.4 Kullback-Leibler 散度...........................................................20
D.5 欧氏距离的计算方法............................................................. 21
D.6 余弦距离的计算方法............................................................. 21
D.7 峰值信噪比..................................................................... 21
D.8 结构相似性指数................................................................. 22
D.9 平均数......................................................................... 22
D.10 中位数........................................................................ 22
D.11 标准差........................................................................ 22
D.12 方差.......................................................................... 23
D.13 最大值........................................................................ 23
D.14 最小值........................................................................ 23
附录E (资料性) 信息损失性的计算方法................................................24
E.1 概述........................................................................... 24
E.2 信息熵的计算方法............................................................... 24
附录F (资料性) 复杂性的计算方法....................................................25
F.1 概述........................................................................... 25
F.2 时间复杂度的计算方法........................................................... 25
F.3 空间复杂度的计算方法........................................................... 25
附录G (资料性) 脱敏算法能力评估报告要求............................................26
G.1 形成评估报告的目的............................................................. 26
G.2 评估报告的组成内容............................................................. 26
G.3 评估项目概述组成内容........................................................... 26
T/CSAC 007—2024
III
G.4 评估指标....................................................................... 26
G.5 单项评估结果分析............................................................... 26
G.6 整体评估组成内容............................................................... 26
G.7 等级评估结论组成内容........................................................... 27
G.8 脱敏算法能力评估报告示例....................................................... 27
参考文献............................................................................. 29
T/CSAC 007—2024
IV
前 言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的
规则起草。
请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。
本文件由中国网络空间安全协会提出并归口。
本文件起草单位:西安电子科技大学、中国科学院信息工程研究所、中国网络安全审查认证和市场
监管大数据中心、北京理工大学、四川昊华锐恒科技有限公司、上海交通大学、海南大学、成都西电网
络安全研究院、长春吉大正元信息技术股份有限公司、国网上海研究院、航天信息股份有限公司、普华
永道商务咨询(上海)有限公司、中移(杭州)信息技术有限公司。
本文件主要起草人:朱辉、李凤华、李晖、张玲翠、牛犇、宋祁朋、崔琦、闫小良、赵兴文、聂智
戈、徐倩华、蒋芃、崔艳鹏、邱卫东、曹春杰、陈科名、吴裔、王杰斌、马驰、唐鹏、郭祯、倪华军。
T/CSAC 007—2024
1
隐私计算脱敏算法能力评估技术要求
1 范围
本文件描述了脱敏算法能力评估的目的、基本原则和使用情况,给出了脱敏算法能力评估的通用技
术要求,规定脱敏算法的分类、能力评估指标体系、可逆性评估、信息偏差性评估、损失性评估和复杂
性评估等内容。
本文件适用于规范各类组织的隐私信息脱敏处理活动,也适用于互联网、通信、金融、医疗、物流、
交通、教育、文旅和公共服务等领域的机构为主体的个人信息处理者,以及个人信息保护产品提供商、
产品评测机构、个人信息保护合规审计评估机构、审查认证机构等组织对隐私信息脱敏处理活动进行监
督、管理和评估提供参考。
2 规范性引用文件
本文件引述下列文件中的部分内容。下列文件中,注日期的引用文件,仅该日期对应的版本适用于
本指南;不注日期的引用文件,其最新版本适用于本指南。
GB/T 25069-2022 信息安全技术术语
GB/T 35273-2020 信息安全技术个人信息安全规范
GB/T 37964-2019 信息安全技术个人信息去标识化指南
GB/T 37988-2019 信息安全技术数据安全能力成熟度模型
T/CSAC 005—2024 隐私计算总体框架
T/CSAC 006—2024 隐私计算脱敏控制技术要求
3 术语和定义
GB/T 25069-2022和GB/T 35273-2020界定的以及下列术语和定义适用于本文件。
3.1
个人信息personal information
以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然
人活动情况的各种信息,包含个人信息本身及其衍生信息,不包括匿名化处理后的信息。
[来源:GB/T 44588—2024,3.3,有修改]
3.2
标识符identity
可以明显识别记录主体身份的属性集合,包括姓名、电话号码、身份证号码等信息。
[来源:T/CSAC 005—2024,3.2]
3.3
准标识符implied identity
组合起来可以识别记录主体身份的属性集合,包括年龄、性别、邮编等信息。
[来源:T/CSAC 005—2024,3.3]
T/CSAC 007—2024
2
3.4
敏感个人信息sensitive personal information
一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人
信息。
注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周
岁未成年人的个人信息。
[来源:GB/T 35273-2020,3.4]
3.5
隐私信息private information
能通过信息系统进行处理的敏感个人信息,是个人信息记录中的标识符、准标识符和敏感属性的集
合。
注:隐私信息包括个人生物特征信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、
健康生理信息、交易信息、14岁以下(含)儿童的个人信息等。
[来源:T/CSAC 005—2024,3.4]
3.6
隐私信息所有者private information owner
隐私信息所标识或者关联的自然人、组织、设备或程序等实体。
[来源:T/CSAC 005—2024,3.14]
3.7
隐私信息处理者private information processor
对隐私信息进行收集、存储、使用、加工、传输、提供、公开、删除、脱敏、存证与取证等操作的
实体。
[来源:T/CSAC 005—2024,3.22]
3.8
敏感属性sensitive attribute
信息载体中含有敏感个人信息的属性,泄露、修改或破坏该属性值会对个人权益产生影响。
注:在潜在的重标识攻击期间需要防止其值与任何一个隐私信息主体相关联。
[来源:GB/T 37964-2019,3.10,有修改]
3.9
原始信息raw information
当前主体采集或者接收到的信息,其包含敏感个人信息,需要进行脱敏处理,且可以通过携带脱敏
控制策略来实现个人信息的流转脱敏控制。
3.10
脱敏信息desensitized information
经过特定脱敏算法处理的原始数据,使其中的隐私信息难以直接关联到特定的隐私信息主体。
3.11
脱敏要求desensitization requirements
待脱敏的隐私信息的脱敏等级、脱敏时机、脱敏算法及其参数选择等约束信息。
[来源:T/CSAC 005—2024,3.24]
3.12
数据模态data mode
个人信息载体数据的具体表示形式,比如数字、文本、图像、视频、语音等。
T/CSAC 007—2024
3
3.13
数据脱敏data desensitization
通过一系列数据处理方法对原始数据进行处理以减少或消除敏感个人信息的一种数据保护方法。
[来源:GB/T 37988-2019,3.12,有修改]
3.14
脱敏算法desensitization algorithm
通过对隐私信息的技术处理,使其在不借助额外信息的情况下,无法识别或者关联隐私信息主体。
注:脱敏算法包括k-匿名、差分隐私等算法。
[来源:GB/T 35273-2020,3.15]
3.15
可逆性reversibility
被脱敏掉的隐私信息被复原的可能性。
[来源:T/CSAC 005—2024,3.28]
3.16
信息偏差性information deviation
脱敏算法执行前后,可观测到的脱敏信息与原始信息的偏差。
[来源:T/CSAC 005—2024,3.34]
3.17
信息损失性information loss
信息被不可逆的脱敏算法作用后,隐私信息损失部分对可用性的影响程度。
[来源:T/CSAC 005—2024,3.35]
3.18
复杂性complexity
执行脱敏算法所需要的资源开销。
注:复杂性通常用时间开销和空间开销表示。
[来源:T/CSAC 005—2024,3.37]
3.19
泛化generalization
将一类属性中的特定值用一个更宽泛的值代替,以更概括、抽象的方式描述数据。
注:泛化技术包括替换、取整、k-匿名、模糊化、概化等手段。
[来源:GB/T 37964-2019,A.5.1,有修改]
3.20
抑制suppression
将某个属性、属性的值或者属性值的一部分进行删除或者以特定的符号代替。
[来源:T/CSAC 005—2024,3.30]
3.21
解耦和置换anatomization and permutation
去除准标识符和敏感属性间的关联性,而不改变准标识符或敏感属性的值。
[来源:T/CSAC 005—2024,3.31]
3.22
扰动perturbation
T/CSAC 007—2024
4
用合成的数据值取代原始的数据值,改变后的数据与真实数据主体失去关联性。
注1:扰动后统计信息不发生显著改变。
注2:扰动化技术包括加噪、数据交换、合成数据生成等。
[来源:T/CSAC 005—2024,3.32]
3.23
差分隐私differential privacy
通过扰动的方式对个人隐私信息进行脱敏,且扰动添加的噪声类型和参数满足差分的数学定义。
[来源:T/CSAC 005—2024,3.33]
4 概述
4.1 脱敏算法能力评估的目的
脱敏算法能力评估的目标包括:
a) 脱敏算法能力应符合法律规定与脱敏控制要求,可支持自动选择算法;
b) 在第三方评估的过程中,保障不同的单位和团体所采用的脱敏算法具有合规性和一致性,防
止跨系统中的隐私泄露问题,预防全社会各系统隐私保护的短板效应。
4.2 脱敏算法能力评估的基本原则
脱敏算法能力评估分为可逆性评估、信息偏差性评估、信息损失性评估和复杂性评估,并且依据所
采用脱敏算法的类别,为以上四个评估维度赋予相应的权重值。其中,可逆性评估是衡量脱敏算法处理
后信息中复原隐私信息的可能性;信息偏差性评估是衡量脱敏算法处理后的信息失真和偏移程度;信息
损失性评估是衡量脱敏算法处理后隐私信息损失部分对可用性的影响程度;复杂性评估是衡量脱敏算法
处理隐私信息所需的资源开销。
4.3 脱敏算法能力评估的使用
脱敏算法能力评估技术要求可以为企业自身、监督管理部门、安全合规团队以及第三方评估机构等
主体适用,用以评估其脱敏算法前后脱敏信息的可逆性、信息偏差性、信息损失性是否符合发布的要求,
以及脱敏算法的资源开销是否符合性能要求。
5 脱敏算法分类
5.1 脱敏算法分类概述
根据脱敏算法的实现原理、应用场景、处理数据方式等因素,可以分为扰动、泛化、匿名、置换四
类技术。
5.2 基于扰动技术的脱敏算法
基于扰动的脱敏算法主要采用差分隐私算法中的拉普拉斯机制、指数机制、稀疏向量技术、随机响
应技术和高斯机制。附录B.2给出了27种基于扰动技术的脱敏算法描述示例。具体如下:
a) 拉普拉斯机制,是指通过向源数据中添加拉普拉斯噪声以满足差分隐私的要求,该机制可以
保证数据集中任何特定的个人信息主体的存在与否,无法从脱敏数据集或系统响应结果中推
T/CSAC 007—2024
5
导出;即使攻击者能够访问其他相关的数据集,只要隐私损失限定在一定范围内,就可以保证
隐私信息无法被获取;
b) 指数机制,是指通过一个评分函数输出查询函数的每个可能输出分数,并返回分数近似最大
的回复来实现差分隐私保护;该机制可以在不向原始数据添加噪声的基础上满足差分隐私的
要求;
c) 稀疏向量技术,用于回答有一个预先固定的阈值T 的查询,该技术将在被查询值中添加噪声,
并将结果与阈值T 进行比较,并只返回高于阈值T 的查询结果;适用于需要多次查询的场景;
d) 随机响应技术,是指通过模糊用户对问题的结果响应,用户将以一定的概率返回自己的真实
数据或者值域中包含的其他可能数据,从而实现在保护用户隐私的情况下进行频数统计的目
的,一般用于本地化差分隐私场景中;
e) 高斯机制,是指针对数值型查询的结果响应,它通过向数值型查询结果中添加从特定高斯分
布中抽取的噪声,使得查询结果在一定程度上被随机化,从而保护了原始数据集中个体数据
的隐私。
5.3 基于泛化技术的脱敏算法
基于泛化技术的脱敏算法是指通过引入不确定性或模糊性,使原始隐私信息变得更加模糊或不精
确,以实现对隐私信息的脱敏;可以基于规则、概率分布或其他方式进行,可用于文本类数据、图像类
数据、音频类数据以及视频类数据的脱敏。附录B.3给出了22种基于泛化技术的脱敏算法描述示例。
5.4 基于匿名技术的脱敏算法
基于匿名技术的脱敏算法包括k-匿名算法、l-多样性算法、t-贴近性算法等数据处理手段。附录B.4
给出了12种基于匿名技术的脱敏算法描述示例。具体如下:
a) k-匿名算法,要求发布的数据中指定标识符(直接标识符或准标识符)属性值相同的每一等价
类至少包含k 个记录,使攻击者不能判别出个人信息所属的具体个体,从而保护个人信息安
全;
b) l-多样性算法,是对k-匿名算法的改进,该算法首先对数据进行k-匿名处理生成多个等价类,
并通过确保每个等价类中的敏感属性具有多样性,防止通过背景知识攻击识别敏感信息;
c) t-贴近性算法,进一步改进了l-多样性算法,通过确保每个等价类中敏感属性的分布与整体
数据集的分布相似,防止敏感属性分布的偏离。
5.5 基于置换技术的脱敏算法
基于置换技术的脱敏算法是指将原始隐私信息中的具体值替换为其他确定性或随机性的值,从而实
现对隐私信息的脱敏。置换可以基于规则、概率分布或其他方式进行,例如:将具体的数字替换为某个
范围内的值,或者将文本中的具体词语替换为一般性类别的词语。附录B.5给出了19种基于置换技术的
脱敏算法描述示例。
6 脱敏算法能力评估指标体系
6.1 脱敏算法能力评估指标体系概述
脱敏算法能力评估的指标体系包括可逆性、信息偏差性、信息损失性和复杂性等四类指标,且基于
测评样本基准数据集,对各类脱敏算法进行能力评估。
T/CSAC 007—2024
6
6.2 可逆性评估指标
可逆性评估是衡量从脱敏算法处理后信息中复原隐私信息的可能性。由于脱敏旨在保护敏感个人信
息,通常情况下脱敏是不可逆的。可逆性度量方法如下:
a) 脱敏算法可逆性,评估隐私信息脱敏使用的是否是不可逆脱敏算法,并根据算法是否可逆确
立不同的可逆性评估指标,具体如下:
1) 脱敏算法为不可逆算法,宜依据脱敏算法参数确立可逆性评估指标;
2) 脱敏算法为可逆算法,宜依据脱敏算法恢复密钥强度确立可逆性评估指标。
b) 脱敏算法参数强度,评估脱敏算法使用的参数强度,并根据处理的数据模态,确立算法参数
强度指标的所占权重值,具体如下:
1) 数据模态为文本、表格等的数据,算法参数强度指标所占权重值较低;
2) 数据模态为图形、图像、音频、视频等的数据,算法参数强度指标所占权重值较高。
c) 信息还原性,评估通过脱敏后的隐私信息还原出原始隐私信息的程度,例如:恢复信息的准
确度、恢复信息的偏差度,以此评估脱敏算法的可逆性,具体如下:
1) 恢复信息的准确度越高,脱敏算法的可逆性就相对越高;
2) 恢复信息的偏差度越高,脱敏算法的可逆性就相对越低。
6.3 信息偏差性评估指标
信息偏差性评估是衡量脱敏算法处理后的信息失真和偏移程度。信息偏差性度量方法如下:
a) 统计偏差性,比较原始数据和脱敏后数据的统计指标,例如:均方差、平均绝对值、KL散度、
欧氏距离、余弦距离、峰值信噪比、结构相似性指数、均值、中位数、方差、标准差、最大
值、最小值等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择均方差、平均绝对值等指标为统计偏差性评估
指标;
2) 数据模态为图形、图像、音频、视频等的数据,宜选择峰值信噪比、结构相似性指数等
指标为统计偏差性评估指标。
b) 数据分布偏差性,比较原始数据和脱敏后数据的分布差异,例如:分布形状、分位数和累积分
布函数等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择分布形状等指标为数据分布偏差性评估指标;
2) 数据模态为图形、图像、音频、视频等的数据,宜选择累积分布函数等指标为数据分布
偏差性评估指标。
c) 模型应用准确性,使用原始数据和脱敏后数据分别构建训练模型,选择合适的验证集或测试集,
比较模型在验证集或测试集上的效果,以此评估脱敏算法的信息偏差性,具体如下:
1) 模型在验证集或测试集上的效果越好,脱敏算法的信息偏差性相对越低;
2) 模型在验证集或测试集上的效果越差,脱敏算法的信息偏差性相对越高。
d) 数据随机性分析,评估脱敏算法对隐私信息的随机性影响程度,以此评估脱敏算法的信息偏差
性,具体如下:
1) 脱敏算法对隐私信息的随机性影响越小,脱敏算法的信息偏差性相对越低;
2) 脱敏算法对隐私信息的随机性影响越大,脱敏算法的信息偏差性相对越高。
6.4 信息损失性评估指标
T/CSAC 007—2024
7
信息损失性评估是衡量脱敏算法处理后隐私信息损失部分对可用性的影响程度。信息损失性度量方
法如下:
a) 信息熵,信息熵是衡量数据集中信息量的度量指标,通过计算原始数据和脱敏后数据的信息熵,
比较差异,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为图形、图像、音频、视频等的数据,宜选择信息熵等指标为信息损失性评估
指标;
2) 脱敏算法前后数据的信息熵差值越大,脱敏算法的信息损失性相对越高。
b) 互信息,互信息是衡量两个随机变量之间相互依赖程度的度量指标,通过计算原始数据和脱敏
后数据之间的互信息进行量化评估,并根据处理的数据模态,确立信息损失性的评估指标,
具体如下:
1) 数据模态为文本、表格等的数据,宜选择互信息等指标为信息损失性评估指标;
2) 脱敏算法前后数据的互信息越高,脱敏算法的信息损失性相对越低。
c) 数据分布特征,比较原始数据和脱敏后数据的分布特征的统计指标,例如:均值、方差、分位
数等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择数据分布特征等指标为信息损失性评估指标;
2) 脱敏算法前后数据的数据分布特征越相近,脱敏算法的信息损失性相对越低。
d) 数据关联性,计算原始数据和脱敏后数据之间的关联性的度量指标,例如:相关系数、协方差
等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择数据关联性等指标为信息损失性评估指标;
2) 脱敏算法前后数据的数据关联性越高,脱敏算法的信息损失性相对越低。
e) 数据可用性,评估脱敏数据在特定应用场景下的可用程度指标,例如:数据分析、模型训练等
应用场景,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为图形、图像、音频、视频等的数据,宜选择数据可用性等指标为信息损失性
评估指标;
2) 脱敏算法前后数据的数据可用性越高,脱敏算法的信息损失性相对越低。
6.5 复杂性评估指标
复杂性评估是衡量脱敏算法处理隐私信息所需的资源开销。复杂性度量方法如下:
a) 时间复杂度,用于衡量算法执行所需时间的度量指标,可以通过分析算法中的操作、迭代次数
和数据规模等来确定,例如:常数时间、线性时间、对数时间、平方时间等,并根据处理的
数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下:
1) 对于任何类型的数据模态,都宜选择时间复杂度等指标为复杂性评估指标;
2) 脱敏算法执行的时间复杂度越高,脱敏算法的复杂性相对越高。
b) 空间复杂度,用于衡量算法执行所需内存空间的度量指标,可以通过分析算法中使用的额外数
据结构、变量和递归调用的深度等来确定,例如:常数空间、线性空间、指数空间等,并根
据处理的数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下:
1) 对于任何类型的数据模态,都宜选择空间复杂度等指标为复杂性评估指标;
2) 脱敏算法执行的空间复杂度越高,脱敏算法的复杂性相对越高。
c) 计算资源需求,评估算法执行所需的计算资源,包括CPU执行时间、占用内存等,并根据处理
的数据模态,确立复杂性的评估指标,以此评估脱敏算法的复杂性,具体如下:
1) 对于任何类型的数据模态,都宜选择计算资源需求等指标为复杂性评估指标;
T/CSAC 007—2024
8
2) 脱敏算法执行的计算资源需求越高,脱敏算法的复杂性相对越高。
6.6 算法能力综合评估指标
在脱敏算法能力评估的过程中,需要根据所采用脱敏算法的类别和数据应用场景,分别为可逆性、
信息偏差性、信息损失性以及复杂性四个评估维度设置相应的权重,进行加权计算,得出算法能力的综
合评估结果。例如:基于扰动技术的脱敏算法的信息偏差性评估的权重值宜设置较高;基于泛化技术的
脱敏算法的信息损失性评估的权重值宜设置较高;基于匿名技术的脱敏算法的信息损失性评估的权重值
宜设置较高;基于置换技术的脱敏算法的可逆性评估的权重值宜设置较高。附录A.2给出了一种不同脱
敏算法类别处理文本类医疗数据时的评估指标维度权重参考。
7 脱敏算法能力评估通用技术要求
7.1 脱敏算法可逆性评估
脱敏算法可逆性评估的具体内容如下:
a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定算法可逆
性对应的权重值,具体如下:
1) 数据模态为文本、表格等的数据,算法可逆性评估的权重值宜设置较低;
2) 数据模态为图形、图像、音频、视频等的数据,算法可逆性评估的权重值宜设置较高。
b) 结合隐私信息数据模态及应用场景,选择6.2节中的评估指标,衡量脱敏信息的被还原能力,
评估内容包括但不限于:恢复信息的准确度、恢复信息的偏差度等,并根据确立的各可逆性
指标的权重值进行评估,具体如下:
1) 数据在数据域内流转场景下,恢复信息的准确度、恢复信息的偏差度指标可适用于任何
类型的数据模态的数据;
2) 数据在数据域外发布场景下,恢复信息的准确度、恢复信息的偏差度指标的权重值宜设
置较高。
c) 综合考虑算法类别、算法参数、数据模态等因素,设计合理的可逆性评估方案,设置合理的可
逆性评估权重值,保证评估结果的准确性和可信性,具体如下:
1) 分类为置换技术的脱敏算法,其可逆性评估的权重值宜设置较高;
2) 分类为扰动技术、泛化技术、匿名技术的脱敏算法,其可逆性评估的权重值宜设置较低。
7.2 脱敏算法信息偏差性评估
脱敏算法信息偏差性评估的具体内容如下:
a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定信息偏差
性对应的权重值,具体如下:
1) 数据模态为图形、图像、音频、视频等的数据,算法信息偏差性评估的权重值宜设置较
低;
2) 数据模态为文本、表格等的数据,算法信息偏差性评估的权重值宜设置较高。
b) 结合隐私信息数据模态及应用场景,选择6.3节中的评估指标,衡量脱敏算法执行前的原始隐
私信息与脱敏后的隐私信息之间的偏差程度,评估内容包括但不限于:数据统计、数据应用
测试、随机性分析等,并根据确立的各信息偏差性指标的权重值进行评估,具体如下:
1) 均方误差、平均数等指标可适用于文本、表格等模态的数据;
T/CSAC 007—2024
9
2) Kullback-Leibler 散度、余弦距离等指标可适用于图形、图像、音频、视频等模态的数
据。
c) 综合考虑数据规模、数据分布、数据模态等因素,设计合理的信息偏差性评估方案,设置合理
的信息偏差性评估权重值,保证评估结果的准确性和可用性,具体如下:
1) 分类为扰动技术的脱敏算法,其信息偏差性评估的权重值宜设置较高;
2) 分类为匿名技术、泛化技术、置换技术的脱敏算法,其信息偏差性评估的权重值宜设置
较低。
7.3 脱敏算法信息损失性评估
脱敏算法信息损失性评估的具体内容如下:
a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定信息损失
性对应的权重值,具体如下:
1) 数据模态为图形、图像、音频、视频等的数据,算法信息损失性评估的权重值宜设置较
低;
2) 数据模态为文本、表格等的数据,算法信息损失性评估的权重值宜设置较高。
b) 结合隐私信息数据模态及应用场景,选择6.4节中的评估指标,衡量脱敏算法执行前的原始隐
私信息与脱敏后的隐私信息之间的信息损失程度,评估内容包括但不限于:信息熵、互信息、
数据分布特征、数据关联性、信息可用性等,并根据确立的各信息损失性指标的权重值进行
评估,具体如下:
1) 数据分布特征、数据关联性等指标可适用于文本、表格等模态的数据;
2) 信息熵、信息可用性等指标可适用于图形、图像、音频、视频等模态的数据。
c) 综合考虑数据可用、数据关联、应用场景等因素,设计合理的信息损失性评估方案,设置合理
的信息损失性评估权重值,保证评估结果的准确性和有效性,具体如下:
1) 分类为泛化技术、匿名技术的脱敏算法,其信息损失性评估的权重值宜设置较高;
2) 分类为扰动技术、置换技术的脱敏算法,其信息损失性评估的权重值宜设置较低。
7.4 脱敏算法复杂性评估
脱敏算法复杂性评估的具体内容如下:
a) 判断脱敏算法支持的数据模态与应用场景,根据其支持的数据模态与应用场景,确定算法复杂
性对应的权重值,具体如下:
1) 数据模态为文本、表格等的数据,算法复杂性评估的权重值宜设置较低;
2) 数据模态为图形、图像、音频、视频等的数据,算法复杂性评估的权重值宜设置较高。
b) 结合隐私信息数据模态及应用场景,选择6.5节中的评估指标,衡量脱敏算法的执行效率和资
源消耗情况,评估内容包括但不限于:时间复杂度、空间复杂度、资源消耗等,并根据确立
的各复杂性指标的权重值进行评估,具体如下:
1) 时间复杂度、空间复杂度等指标可适用于任何类型的数据模态的数据;
2) 资源消耗等指标可适用于任何类型的数据模态的数据。
c) 综合考虑平台资源、数据模态、数据规模、数据结构等因素,设计合理的复杂性评估方案,设
置合理的复杂性评估权重值,保证评估结果的准确性和有效性,具体如下:
1) 分类为扰动技术的脱敏算法,其复杂性评估的权重值宜设置较高;
2) 分类为泛化技术、匿名技术、置换技术的脱敏算法,其复杂性评估的权重值宜设置较低。
T/CSAC 007—2024
10
附录A
(资料性)
脱敏算法能力评估示例
A.1 概述
本附录以k-匿名算法对文本类医疗数据的脱敏能力评估为例,介绍针对脱敏算法能力评估指标体系
的使用方法,供进行脱敏算法能力评估时参考。
脱敏算法能力评估过程的关键处理环节包括脱敏算法评估维度权重确定、敏感信息属性确定、评估
指标选定、可逆性评估、信息偏差性评估、信息损失性评估、复杂性评估以及评估报告生成。
A.2 脱敏算法评估维度权重确定
根据数据的使用场景、来源、脱敏意图等因素,定义脱敏算法评估维度的权重。本示例中数据的应
用场景为医疗问诊场景,数据模态为表格型,使用的k-匿名算法(脱敏参数k=3)属于泛化技术,参考
表A.1建议的不同脱敏算法类别(泛化、匿名、置换、扰动)处理文本类医疗数据时的评估指标维度权
重,将可逆性、信息偏差性、信息损失性、复杂性四个维度的对应权重分别为0.2、0.2、0.5、0.1。
表A.1 不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重参考
可逆性信息偏差性信息损失性复杂性
算法
类别
评估点
参考
权重
评估点
参考
权重
评估点
参考
权重
评估点
参考
权重
泛化
技术
脱敏算法
是否可逆0.1
脱敏前后数
据均值
0.04
信息熵
差值0.5
时间
复杂度0.05 脱敏前后数
据方差0.04
还原信息
的准确性0.05
脱敏前后数
据均方差0.03
KL散度0.03
空间
复杂度还原信息0.05
的误差性0.05 欧氏距离0.03
平均绝对值0.03
匿名
技术
脱敏算法
是否可逆0.1
脱敏前后数
据均值0.04
信息熵
差值0.5
时间
复杂度0.05 脱敏前后数
据方差0.04
还原信息
的准确性0.05
脱敏前后数
据均方差0.03
KL散度0.03
空间
复杂度还原信息0.05
的误差性0.05
欧氏距离0.03
平均绝对值0.03
置换
技术
脱敏算法
是否可逆0.3
脱敏前后数
据均值0.04
信息熵
差值0.2
时间
复杂度0.05 脱敏前后数
据方差0.04
还原信息
的准确性0.1
脱敏前后数
据均方差0.03
KL散度0.03
空间
复杂度还原信息0.05
的误差性0.1
欧氏距离0.03
平均绝对值0.03
扰动
技术
脱敏算法
是否可逆0.1 脱敏前后数
据均值0.08 信息熵
差值0.2 时间
复杂度0.05
T/CSAC 007—2024
11
脱敏前后数
据方差0.08
还原信息
的准确性0.05
脱敏前后数
据均方差
0.08
KL散度0.08
空间
复杂度还原信息0.05
的误差性0.05 欧氏距离0.09
平均绝对值0.09
A.3 敏感信息属性确定
收集并整理待评测的原始数据和经过k-匿名算法处理后的数据,在本示例中,原始数据如表A.2所
示,k-匿名算法处理后的数据如表A.3所示。确定本次脱敏操作的敏感信息属性为“年龄”。
表A.2 原始数据
序号邮编年龄病症
1 47677 29 心脏病
2 47602 22 心脏病
3 47678 27 心脏病
4 47905 43 流感
5 47909 52 心脏病
6 47906 47 癌症
7 47605 30 心脏病
8 47617 36 癌症
9 47607 32 癌症
注:本表格中示例用于数据脱敏。示例中数据为虚拟数据,不涉及公民的隐私信息。例如:邮编为无实际意义的信
息;疾病类型为泛指类别,不涉及公民具体疾病信息。
表A.3 脱敏后数据
序号邮编年龄病症
1 476**
476**
476**
2* 心脏病
心脏病
心脏病
2 2*
3 2*
4 4790*
4790*
4790*
≥40
≥40
≥40
流感
心脏病
癌症
5
6
7 476**
476**
476**
3*
3*
3*
心脏病
癌症
癌症
8
9
注:本表格中示例用于脱敏算法能力评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。
A.4 评估指标选定
a) 确定可逆性的评估为算法的可逆程度,脱敏算法参数以及信息的还原性。评估指标为脱敏算
法是否为不可逆算法,脱敏算法的参数对于原始数据数据规模的脱敏强度是否合适,通过脱
敏后的隐私信息还原出原始隐私信息的程度;
T/CSAC 007—2024
12
b) 确定信息偏差性的评估为原始数据与脱敏后数据之间的平均绝对误差和欧氏距离。评估指标
为脱敏前后数据间的平均绝对误差0~2.13 时为偏差性较低,2.13~4.63 时为偏差性中等,4.63
以上为偏差性较高。脱敏前后数据间的欧氏距离0~7.04 时为偏差性较低,7.04~9.38 时为偏
差性中等,9.38 以上为偏差性较高;
c) 确定信息损失性的评估为原始数据与脱敏后数据之间的信息熵差值和互信息。评估指标为脱
敏前后数据间的信息熵差值0~0.06 时为信息损失性低,0.06~4.36 时为信息损失性中等,4.36
以上信息损失性高。脱敏前后数据间的互信息为0.8~1.0 时为信息损失性低,0.4~0.8 为信息
损失性中等,0~0.4 为信息损失性高;
d) 确定复杂性的评估为脱敏算法的时间复杂度和空间复杂度。评估指标为脱敏算法的时间复杂
度小于为复杂性低, 间为复杂性中等,大于为复杂性高。脱敏算
法的空间复杂度小于等于为复杂性低,为为复杂性中等,大于为复杂性高。
A.5 可逆性评估
本次脱敏使用的脱敏算法类别为泛化技术,使用k-匿名算法,判断该脱敏算法为不可逆算法,参数
k=3,数据量为9条,通过脱敏后的隐私信息还原出原始隐私信息的概率为0.1,故本次脱敏任务中的可
逆性低。
A.6 信息偏差性评估
计算得到脱敏前后数据的平均绝对误差为13.44,依据评估指标13.44>4.64,脱敏前后数据的欧氏
距离为11.00,依据评估指标11.00>9.38,故本次脱敏效果中的偏差性高。
A.7 信息损失性评估
计算得到脱敏前数据的信息熵为3.17。脱敏后数据的信息熵为1.58。脱敏前后数据的信息熵差值为
1.59,依据评估指标0.06<1.59<4.36,脱敏前后数据的互信息为0.48,依据评估指标0.4<0.48<0.8,故
本次脱敏效果中的信息损失性中等。
A.8 复杂性评估
分析k-匿名算法的时间复杂度为,空间复杂度为,故本次脱敏效果中的复杂性高。
A.9 评估报告生成
对可逆性评估结果、信息偏差性评估结果、信息损失性评估结果、复杂性评估结果进行加权操作,
得出算法能力的综合评估结果。
T/CSAC 007—2024
13
附录B
(资料性)
脱敏算法分类示例
B.1 概述
本附录以脱敏算法的按需选择为例,根据脱敏算法的实现原理、应用场景、处理数据方式等因素,
可以分为扰动、泛化、匿名、置换四类技术。在本示例中,分别介绍基于扰动技术的脱敏算法描述示例、
基于泛化的脱敏算法描述示例、基于匿名的脱敏算法描述示例和基于置换的脱敏算法描述示例,供执行
脱敏算法选择操作时参考。
B.2 基于扰动技术的脱敏算法
表B.1给出了27种基于扰动技术的脱敏算法描述示例。
表B.1 基于扰动技术的脱敏算法描述示例
序号名称编号功能使用方式
1
Laplace
Mecha
nism
A-1-1
添加拉普拉斯噪
声,返回添加噪声
后的数值列表
输入:数值列表输出:数值列表,
参数:隐私保护级别
参数含义:选取隐私预算
2
Report
Noisy
Max1-L
aplace
A-1-2
添加拉普拉斯噪
声,返回添加n 次
噪声后的最大值索
引列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
3
Report
Noisy
Max3
A-1-3
添加拉普拉斯噪
声,返回添加n 次
噪声后的最大值列

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
4
Snappin
g Mech
anism
A-1-4
添加拉普拉斯噪
声,返回截断后的
数值列表
输入:数值列表输出:数值列表
参数:截断边界B,采样次数n
参数含义:数值列表中数据的截断边界,对输入的数值列表添
加噪声的次数
5 IM-Cod
er1 A-1-5
为图片添加拉普拉
斯噪声,返回加噪
后的图片
输入:图像输出:图像
参数:隐私保护级别
参数含义:选取隐私预算
6 dpAudio A-1-6
对声纹特征添加拉
普拉斯噪声,返回
加噪后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:选取隐私预算
7 dpGraph A-1-7 为图形数据添加拉
普拉斯噪声
输入:图形输出:图形
参数:隐私保护级别
参数含义:选取隐私预算
8 dpDate A-1-8
为日期数据添加拉
普拉斯噪声,返回
加噪后的日期数组
输入:日期列表输出:日期列表
参数:隐私保护级别
参数含义:选取隐私预算
9 IM-Cod
er2 A-1-9
为图像添加拉普拉
斯噪声,返回加噪
后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选取隐私预算
10
Expone
ntial M
echanis
m
A-2-1
返回一组数值中每
个数值被选中的概
率,返回每个数值
被选中的概率
输入:数值列表输出:数值列表
参数:隐私保护级别
参数含义:选取隐私预算
11 Report A-2-2 向数组添加指数噪输入:数值列表输出:数值列表
T/CSAC 007—2024
14
Noisy
Max2-E
xponenti
al
声后,返回添加n
次噪声后最大值的
索引
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
12
Report
Noisy
Max4
A-2-3
向数组添加指数噪
声后,返回添加n
次噪声后数组的最
大值列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
13
Sparse
Vector
Techniq
ue1
A-3-1
稀疏向量技术,数
组值和阈值t 加噪
后进行比较,返回n
个比较结果列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t,计数c
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t,返回应答的计数c
14
Sparse
Vector
Techniq
ue2
A-3-2
稀疏向量技术,数
组值和阈值t 加噪
后进行比较,返回n
个比较结果列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t,计数c
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t,返回应答的计数c
15
Sparse
Vector
Techniq
ue3
A-3-3
稀疏向量技术,给
数组值和阈值t 加
噪后进行比较,返
回n 个比较结果列

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t,计数c
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t,返回应答的计数c
16
Sparse
Vector
Techniq
ue4
A-3-4
稀疏向量技术,给
数组值和阈值t 加
噪后进行比较,返
回n 个比较结果列

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t,计数c
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t,返回应答的计数c
17
Sparse
Vector
Techniq
ue5
A-3-5
稀疏向量技术,给
阈值t 加噪后与数
组进行比较,返回n
个比较结果列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t
18
Sparse
Vector
Techniq
ue6
A-3-6
稀疏向量技术,给
数组值和阈值t 加
噪进行比较,返回n
个比较结果列表
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t
19
Numeric
al Spars
e Vecto
r Techn
ique
A-3-7
稀疏向量技术,给
数组值和阈值t 加
噪后进行比较,返
回n 个比较结果列

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n,阈值t,计数c
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数,
用于比较的阈值t,返回应答的计数c
20 Rappor A-4-1
基于随机响应统计
用户某一特征的直
方图(频次)信息,
返回n 维二进制数

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
21
One Ti
me Rap
por
A-4-2
基于随机响应统计
用户某一特征的直
方图(频次)信息,
返回n 维二进制数

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
22 dpCode A-4-3 对数据进行GRR
扰动
输入:数值列表输出:数值列表
参数:隐私保护级别
参数含义:选取隐私预算
23 random
Mean A-5-1
为数组添加随机均
匀噪声,返回添加
噪声后的数值列表
输入:数值列表输出:数值列表
参数:隐私保护级别
参数含义:选取隐私预算
24 random A-5-2 为数组添加随机拉输入:数值列表输出:数值列表
T/CSAC 007—2024
15
Laplace 普拉斯噪声,返回
添加噪声后的数值
列表
参数:隐私保护级别
参数含义:选取隐私预算
25
random
Gaussia
n
A-5-3
为数组添加随机高
斯噪声,返回添加
噪声后的数值列表
输入:数值列表输出:数值列表
参数:隐私保护级别
参数含义:选取隐私预算
26
Noisy
Histogra
m1
A-5-4
给直方图的每个值
加噪,返回n 维数

输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
27
Noisy
Histogra
m2
A-5-5
给直方图的每个值
加噪并反馈影响门
限,返回n 维数组
输入:数值列表输出:数值列表
参数:隐私保护级别,采样次数n
参数含义:选取隐私预算,对输入的数值列表添加噪声的次数
B.3 基于泛化技术的脱敏算法
表B.2给出了22种基于泛化技术的脱敏算法描述示例。
表B.2 基于泛化技术的脱敏算法描述示例
序号名称编号功能使用方式
1 Truncatio
n B-1-1 对字符串进行尾部截断,返回截断后的字
符串
输入:字符串输出:字符串
参数:隐私保护等级
参数含义:选择是否进行字符串截断
2 Floor B-1-2 对数值取整,返回取整后的数值
输入:数值输出:数值
参数:隐私保护级别
参数含义:选择是否进行数值取整
3 floorTime B-1-3 对时间取整,返回取整后的时间
输入:符合时间格式要求的字符串输出:符
合时间格式要求的字符串
参数:隐私保护级别
参数含义:选择是否进行时间取整
4 addressHi
de B-1-4 隐藏具体地址信息,返回隐藏后的地址信

输入:地址字符串输出:地址字符串
参数:隐私保护级别
参数含义:选择将要保留的地址的行政区划级

5 date_grou
p_replace B-1-5 将日期数据分组,将分组内日期替换为同
一日期,返回处理后的日期列表
输入:日期列表输出:日期列表
参数:隐私保护级别
参数含义:选择分组大小
6 mixzone_
1 B-2-1 生成假名位置信息,返回位置信息或假名
ID
输入:经度、纬度
输出:位置信息字符串或假名ID
参数:用户id、进入区域的时间、区域点集
参数含义:用户id,用户进入该区域的时间,
区域四个顶点的经纬度
7 mixzone_
3 B-2-2 生成假名位置信息,返回位置信息或假名
ID
输入:经度、纬度
输出:位置信息字符串或假名ID
参数:用户id、进入区域的时间、区域点集
参数含义:用户id,用户进入该区域的时间,
区域四个顶点的经纬度
8 Accuracy
_reduction B-2-3
根据特定的精度需求对用户发送过来的
位置信息进行模糊处理,返回处理后的经
纬度
输入:经纬度输出:经纬度
参数:隐私保护级别
参数含义:不同的精度需求
9 pixelate B-3-1 对图像打马赛克,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择滤波核的大小
10 gaussian_
blur B-3-2 对图像进行高斯模糊,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
T/CSAC 007—2024
16
参数含义:选择高斯滤波器滤波核的大小
11 box_blur B-3-3 对图像进行盒式模糊,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择盒式滤波器滤波核的大小
12 meanValu
eImage B-3-4 对图像进行均值模糊,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择均值滤波器滤波核的大小
13 replace_re
gion B-3-5 将图像的一部分像素替换为黑色,返回处
理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择被替换为黑色的区域大小
14 pixelate_v
ideo B-4-1 对视频打马赛克,返回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择滤波核的大小
15
gaussian_
blur_vide
o
B-4-2 对视频进行高斯模糊,返回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择高斯滤波器滤波核的大小
16 box_blur_
video B-4-3 对视频进行盒式模糊,返回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择盒式滤波器滤波核的大小
17 meanValu
eVideo B-4-4 对视频进行均值模糊,返回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择均值滤波器滤波核的大小
18
replace_re
gion_vide
o
B-4-5 对视频每一帧的部分像素替换为黑色,返
回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择被替换为黑色的区域大小
19 audio_flo
or B-5-1 对音频采样点数据进行取整操作,返回处
理后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:选择采样点数据要保留的精度
20 audio_spe
c B-5-2 删除特定频域段音频,返回处理后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:控制频域掩码的范围
21 audio_aug
mentation B-5-3 使用滤波器等对音频进行失真处理,返回
处理后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:选择选用的效果器
22 audio_me
dian B-5-4 对采样点进行分块,块内采样点的均值作
为新的采样点
输入:音频输出:音频
参数:隐私保护级别
参数含义:选择分块大小
B.4 基于匿名技术的脱敏算法
表B.3给出了12种基于匿名技术的脱敏算法描述示例。
表B.3 基于匿名技术的脱敏算法描述示例
序号名称编号功能使用方式
1 k-anony
mity C-1-1 对csv 文件进行k-匿名处理,
返回处理后的csv 文件
输入:数值或标识符型csv 文件输出:数值或标识符型csv
文件
参数:k,泛化模板
参数含义:等价类中每条记录的数量,用于确定准标识符的模板
2 CirDum
my C-1-2
基于包含用户真实位置的虚
拟圆产生匿名位置,返回经
纬度列表
输入:经纬度输出:经纬度列表
参数:匿名度k,匿名区域面积s_cd,圆环内径系数rho
参数含义:结果数组的长度,指定匿名区域的面积,指定虚拟圆
环内径系数
3 GridDu
mmy C-1-3
基于包含用户真实位置的虚
拟方格产生虚拟位置,返回
经纬度列表
输入:经纬度输出:经纬度列表
参数:匿名度k,匿名区域面积s_cd
参数含义:结果数组的长度,指定匿名区域的面积
T/CSAC 007—2024
17
4
Adaptiv
e Interv
al Cloa
king Al
gorithm
C-1-4 为用户生成虚假位置,返回
经纬度列表
输入:经度、纬度输出:经纬度列表
参数:最小匿名度k,横纵坐标范围c
参数含义:输出的数组长度的最小值,包含所有用户的矩形横纵
坐标范围
5 CaDSA C-1-5 为用户生成虚假位置,返回
经纬度列表
输入:经度、纬度输出:经纬度列表
参数:算法类型
参数含义:用于选择使用哪种CaDSA 算法
6
location
k-anon
ymity
C-1-6
随机选择k-1 个匿名位置,
与真实位置一起形成k-匿名
位置集合,返回经纬度列表
输入:经度、纬度输出:经纬度列表
参数:匿名度k、虚拟位置库经纬度
参数含义:返回的经纬度列表长度,虚拟位置库经纬度横纵坐标
列表
7 l-diversi
ty C-2-1
为同一个等价类中生成至少
l 种不同的敏感属性值,返回
处理后的csv 文件
输入:数值或标识符型csv 文件输出:数值或标识符型c
sv 文件
参数:k、l、泛化模板
参数含义:等价类中每条记录的数量,等价类中敏感属性的种类
数量,用于确定准标识符的模板
8
Entropyl-
diversi
ty
C-2-2
在一个等价类中敏感数据分
布熵的大小至少是log(l),返
回处理后的csv 文件
输入:数值或标识符型csv 文件输出:数值或标识符型c
sv 文件
参数:k、l、泛化模板
参数含义:等价类中每条记录的数量,等价类中敏感属性的种类
数量,准标识符泛化模板
9
Recursiv
e-C- l-d
iversity
C-2-3
通过递归的方式,保证等价
类中最经常出现的值的出现
频率不要太高,返回处理后
的csv 文件
输入:数值或标识符型csv 文件输出:数值或标识符型c
sv 文件
参数:k、l、C、泛化模板
参数含义:等价类中每条记录的数量,等价类中敏感属性的种类
数量,用于调节某一敏感属性出现的次数,准标识符泛化模板
10 t-closen
ess C-3-1
对csv 文件进行t-closeness
处理,返回处理后的csv 文

输入:数值或标识符型csv 文件输出:数值或标识符型c
sv 文件
参数:k、t、泛化模板
参数含义:等价类中每条记录的数量,控制等价类中敏感属性的
分布阈值,准标识符泛化模板
11 Hilbert C-3-2 将用户的坐标转换为Hilbert
曲线上的值,返回坐标列表
输入:用户坐标输出:坐标列表
参数:匿名度k、虚拟位置库坐标
参数含义:返回的坐标列表长度,虚拟位置库横纵坐标列表
12 SpaceT
wist C-3-3 用于返回距离用户最近的k
个POI,返回经纬度列表
输入:经度、纬度输出:经纬度列表
参数:匿名度k、所有用户经纬度
参数含义:返回的经纬度列表长度,所有用户经纬度坐标列表
B.5 基于置换技术的脱敏算法
表B.4给出了19种基于置换技术的脱敏算法描述示例。
表B.4 基于置换技术的脱敏算法描述示例
序号名称编号功能使用方式
1 Hiding D-1-1 将数值替换成常量,返回替换后的字符串
输入:字符串输出:字符串
参数:隐私保护级别
参数含义:选择数值将要被替换的内容
2 Shift D-1-2 给数值增加一个固定的偏移量,返回处理
后的数值
输入:数值输出:数值
参数:隐私保护级别
参数含义:选择数值偏移量大小
3 Hashing D-1-3 将数据映射为定长hash 值,返回处理后的
字符串
输入:字符串输出:字符串
参数:隐私保护级别
参数含义:使用的哈希算法
T/CSAC 007—2024
18
4 Enumeration D-1-4 映射为新值同时保持数据顺序,返回处理
后的字符串
输入:数值列表输出:数值列表
参数:隐私保护级别
参数含义:值的映射系数
5 passReplace D-1-5 使用随机数据替代原始数据,返回处理后
的字符串
输入:字符串输出:字符串
参数:隐私保护级别
参数含义:选择是否使用随机数据替代原始数

6 nameHide D-1-6 从第2 个字符用*代替,返回处理后的字
符串
输入:字符串输出:字符串
参数:隐私保护级别
参数含义:选择字符串替换范围
7 numberHide D-1-7 字符串中间的字符用*代替,返回处理后
的字符串
输入:字符串输出:字符串
参数:隐私保护级别
参数含义:选择字符串替换范围
8 suppressEmail D-1-8 隐藏邮箱信息,返回处理后的字符串
输入:邮箱格式的字符串输出:字符串
参数:隐私保护级别
参数含义:选择邮箱字符串处理的程度
9 suppressAllIp D-1-9 隐藏IP 地址信息,返回处理后的字符串
输入:IP 地址格式的字符串输出:字符串
参数:隐私保护级别
参数含义:选择IP 地址字符串处理的程度
10 suppressIpRandomPar
ts D-1-10 将IP 地址随机替换为*,返回处理后的字
符串
输入:IP 地址格式的字符串输出:字符串
参数:隐私保护级别
参数含义:选择IP 地址字符串处理的程度
11 image_exchange_cha
nnel D-2-1 将图像的每个像素的RGB 通道值随机打
乱,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择是否进行随机打乱
12 image_add_color_offs
et D-2-2 将图像的每个像素的RGB 通道值加上一
个偏移量,返回处理后的图像
输入:图像输出:图像
参数:隐私保护级别
参数含义:选择像素颜色通道偏移量大小
13 image_face_sub D-2-3 将原图像人脸替换为目标图像人脸,返回
处理后的图像
输入:图像输出:图像
参数:目标人脸图片
参数含义:选择目标人脸
14 video_add_color_offs
et D-3-1 将每一帧的每个像素RGB 通道值加上一
个固定的偏移量,返回处理后的视频
输入:视频输出:视频
参数:隐私保护级别
参数含义:选择像素颜色通道偏移量大小
15 video_remove_bg D-3-2 将视频背景进行替换,返回处理后的视频
输入:视频输出:视频
参数:背景图片
参数含义:选择目标背景图片
16 video_face_sub D-3-3 将原视频人脸替换为目标图像人脸,返回
处理后的视频
输入:视频输出:视频
参数:目标人脸图片
参数含义:选择目标人脸
17 audio_reshuffle D-4-1 对音频进行分块,随机重排所有分块后合
并为一个音频,返回处理后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:选择分块数量
18 apply_audio_effects D-4-2 对音频进行拉伸、移位和增益,返回处理
后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:选择处理音频的不同参数设置
19 voice_replace D-4-3 用固定声纹替换原始音频的声纹,返回处
理后的音频
输入:音频输出:音频
参数:隐私保护级别
参数含义:是否替换原声纹
T/CSAC 007—2024
19
附录C
(资料性)
可逆性的计算方法
C.1 概述
可逆性可以通过逆向映射、字典攻击、统计攻击、机器学习等方法判断,本附录介绍了逆向映射、
字典攻击、统计攻击、机器学习的方法描述,可供隐私脱敏的组织者参考。
C.2 逆向映射
逆向映射是一种简单的可逆性评估方法,即尝试将脱敏后的数据重新映射回原始数据。如果能够准
确还原原始数据,说明脱敏算法不安全。逆向映射的关键在于找到逆向映射函数或算法,使得脱敏结果
能够被逆向操作还原。
C.3 字典攻击
字典攻击是一种基于预先构建的字典或映射表来还原脱敏结果的方法。攻击者通过穷举字典中的映
射关系,尝试将脱敏结果映射回原始数据,如果能够找到匹配的映射关系,即可还原原始数据。为了防
止字典攻击,脱敏算法需要使用随机化技术或其他安全措施,使得字典攻击的成功率极低。
C.4 统计分析
统计分析是一种基于脱敏结果统计特征来推断原始数据的方法。攻击者通过分析脱敏结果的统计特
征,如频率分布、均值、方差等,来推测原始数据的可能取值范围。脱敏算法需要通过添加噪音、扰动
或其他技术来破坏统计特征,从而提高脱敏结果的安全性。
C.5 机器学习攻击
机器学习攻击是一种利用机器学习模型来还原脱敏结果的方法。攻击者可以使用机器学习算法,通
过训练模型来学习脱敏结果与原始数据之间的映射关系,一旦攻击者成

资源下载此资源下载价格为5金币立即购买,VIP免费

1.本站大部份文档均属免费,部份收费文档,经过本站分类整理,花了精力和时间,收费文档是为了网站运营成本等费用开支;
2.所有收费文档都真实可靠,为了节约成本,文档在网站前台不做预览,如果付费后,与实际文档不符合,都可以加微信号:pdftj88申请退款;
3.购买会员(或单次下载)即视为对网站的的赞助、打赏,非商业交易行为(不认同此观点请勿支付)请慎重考虑;
4.付费下载过程中,如果遇到下载问题,都可以加微信号pdftj88解决;
5.手机支付,尽量选择支付宝支付;
6.如图集或者标准不清楚,在本站找不到您需要的规范和图集,希望增加资料等任何问题,可联系微信号:pdftj88解决;

文档天下
  • 本文由 发表于 2025年4月9日 10:43:13
  • 转载请务必保留本文链接:https://www.998pdf.com/56122.html
图书

T/CMRS 002-2025 无砟轨道用聚氨酯隔振垫

T/CMRS 002-2025 无砟轨道用聚氨酯隔振垫 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: