T/CSAC 008-2024 隐私计算 脱敏效果评估技术要求

文档天下 图书评论28阅读模式

T/CSAC 008-2024 隐私计算 脱敏效果评估技术要求 ,该文件为pdf格式 ,请用户放心下载!

尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。

如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。

收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!

资源简介
ICS 35.030
CCS L 80
中华人民共和国团体标准
T/CSAC 008—2024
隐私计算脱敏效果评估技术要求
Privacy computing: Technical requirements for desensitization effect evaluation
2024 - 12 - 18 发布2024 - 12 - 18 实施
中国网络空间安全协会 发布

目 次
前言................................................................................ III
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 概述................................................................................ 3
4.1 脱敏效果评估的目标.............................................................. 3
4.2 脱敏效果评估的基本原则.......................................................... 4
4.3 脱敏效果评估的使用.............................................................. 5
5 脱敏效果评估指标体系................................................................ 5
5.1 脱敏效果评估指标体系概述........................................................ 5
5.2 可逆性评估指标.................................................................. 5
5.3 信息偏差性评估指标.............................................................. 5
5.4 信息损失性评估指标.............................................................. 6
6 脱敏效果评估通用技术要求............................................................ 7
6.1 单次脱敏效果评估的技术要求...................................................... 7
6.2 基于数据挖掘的脱敏效果评估的技术要求............................................ 8
6.3 脱敏系统效果评估的技术要求..................................................... 10
附录A (资料性) 脱敏效果评估示例....................................................12
A.1 概述........................................................................... 12
A.2 单次脱敏效果评估............................................................... 12
A.3 基于数据挖掘的脱敏效果评估..................................................... 13
A.4 脱敏系统效果评估............................................................... 13
附录B (资料性) 可逆性的计算方法....................................................15
B.1 概述........................................................................... 15
B.2 逆向映射....................................................................... 15
B.3 字典攻击....................................................................... 15
B.4 统计分析....................................................................... 15
B.5 机器学习攻击................................................................... 15
附录C (资料性) 信息偏差性的计算方法................................................16
C.1 概述........................................................................... 16
C.2 均方误差....................................................................... 16
C.3 均绝对误差..................................................................... 16
C.4 Kullback-Leibler 散度...........................................................16
C.5 欧氏距离的计算方法............................................................. 17
C.6 余弦距离的计算方法............................................................. 17
T/CSAC 008—2024
II
C.7 峰值信噪比..................................................................... 17
C.8 结构相似性指数................................................................. 18
C.9 平均数......................................................................... 18
C.10 中位数........................................................................ 18
C.11 标准差........................................................................ 18
C.12 方差.......................................................................... 19
C.13 最大值........................................................................ 19
C.14 最小值........................................................................ 19
附录D (资料性) 信息损失性的计算方法................................................20
D.1 概述........................................................................... 20
D.2 信息熵的计算方法............................................................... 20
附录E (资料性) 脱敏效果评估报告要求................................................21
E.1 形成评估报告的目的............................................................. 21
E.2 评估报告的组成内容............................................................. 21
E.3 评估项目概述组成内容........................................................... 21
E.4 被评估对象描述组成内容......................................................... 21
E.5 单项评估结果分析组成内容....................................................... 21
E.6 整体评估组成内容............................................................... 21
E.7 等级评估结论组成内容........................................................... 22
E.8 脱敏效果评估报告参考........................................................... 22
参考文献............................................................................. 24
T/CSAC 008—2024
III
前 言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》给出的
规则起草。
请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。
本文件由中国网络空间安全协会提出并归口。
本文件起草单位:西安电子科技大学、中国科学院信息工程研究所、中国网络安全审查认证和市场
监管大数据中心、中国电信股份有限公司、上海交通大学、海南大学、四川昊华锐恒科技有限公司、成
都西电网络安全研究院、国网上海研究院、北京市计算中心有限公司、航天信息股份有限公司、普华永
道商务咨询(上海)有限公司、中移(杭州)信息技术有限公司。
本文件主要起草人:李晖、李凤华、朱辉、牛犇、张玲翠、郭守坤、宋祁朋、崔琦、闫小良、聂智
戈、徐倩华、邱卫东、曹春杰、杨倩、王雪琼、赵兴文、崔艳鹏、吴裔、赵琉涛、王杰斌、马驰、唐鹏、
郭渊博、张龙。

T/CSAC 008—2024
1
隐私计算脱敏效果评估技术要求
1 范围
本文件描述了脱敏效果评估的目标、基本原则和使用情况,给出了脱敏效果评估的技术要求,包括
脱敏效果评估指标体系、单次脱敏效果评估、基于数据挖掘的脱敏效果评估、脱敏系统效果评估的技术
要求。
本文件适用于规范各类组织的隐私信息脱敏处理活动,也适用于互联网、通信、金融、医疗、物流、
交通、教育、文旅和公共服务等领域的机构为主体的个人信息处理者,以及个人信息保护产品提供商、
产品评测机构、个人信息保护合规审计评估机构、审查认证机构等组织对隐私信息脱敏处理活动进行监
督、管理和评估。
2 规范性引用文件
本文件引述下列文件中的部分内容。下列文件中,注日期的引用文件,仅该日期对应的版本适用于
本指南,不注日期的引用文件,其最新版本适用于本指南。
GB/T 25069-2022信息安全技术术语
GB/T 35273-2020信息安全技术个人信息安全规范
GB/T 37964-2019 信息安全技术个人信息去标识化指南
GB/T 37988-2019 信息安全技术数据安全能力成熟度模型
T/CSAC 005—2024 隐私计算总体框架
T/CSAC 006—2024 隐私计算脱敏控制技术要求
T/CSAC 007—2024 隐私计算脱敏算法能力评估技术要求
3 术语和定义
GB/T 25069-2022和GB/T 35273-2020界定的以及下列术语和定义适用于本文件。
3.1
个人信息personal information
以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然
人活动情况的各种信息,包含个人信息本身及其衍生信息,不包括匿名化处理后的信息。
[来源:GB/T 44588—2024,3.3,有修改]
3.2
隐私信息处理者private information processor
对隐私信息进行收集、存储、使用、加工、传输、提供、公开、删除、脱敏、存证与取证等操作的
实体。
[来源:T/CSAC 005—2024,3.22]
3.3
敏感属性private attribute
信息载体中含有敏感个人信息的属性,泄露、修改或破坏该属性值会对个人权益产生影响。
T/CSAC 008—2024
2
注:在潜在的重标识攻击期间需要防止其值与任何一个隐私信息主体相关联。
[来源:GB/T 37964-2019,3.10,有修改]
3.4
敏感个人信息sensitive personal information
一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人
信息。
注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以及不满十四周
岁未成年人的个人信息。
[来源:GB/T 35273-2020,3.4]
3.5
隐私信息privacy information
能通过信息系统进行处理的敏感个人信息,是个人信息记录中的标识符、准标识符和敏感属性的集
合。
注:隐私信息包括个人生物特征信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、
健康生理信息、交易信息、14岁以下(含)儿童的个人信息等。
[来源:T/CSAC 005—2024,3.4]
3.6
原始信息raw information
当前主体采集或者接收到的信息,其包含敏感个人信息,需要进行脱敏处理,且可以通过携带脱敏
控制策略来实现个人信息的流转脱敏控制。
3.7
脱敏信息desensitized information
经过特定脱敏算法处理的原始数据,使其中的隐私信息难以直接关联到特定的隐私信息主体。
3.8
脱敏要求desensitization requirement
待脱敏的隐私信息的脱敏等级、脱敏时机、脱敏算法及其参数选择等约束信息。
[来源:T/CSAC 005—2024,3.24]
3.9
延伸控制extended control
在数据流通与共享过程中,收集、存储、使用、加工、传输、提供、公开、删除、脱敏、存证与取
证等环节的隐私操作迭代控制、控制策略动态调整、控制策略可控传递,以及控制策略执行可信验证。
[来源:T/CSAC 005—2024,3.23]
3.10
数据模态data mode
个人信息载体数据的具体表示形式,比如数字、文本、图像、视频、语音等。
3.11
数据脱敏data desensitization
通过一系列数据处理方法对原始数据进行处理以减少或消除敏感个人信息的一种数据保护方法。
[来源:GB/T 37988-2019,3.12,有修改]
3.12
可逆性reversibility
被脱敏掉的隐私信息被复原的可能性。
T/CSAC 008—2024
3
[来源:T/CSAC 005—2024,3.28]
3.13
信息偏差性information deviation
脱敏算法执行前后,可观测到的脱敏信息与原始信息的偏差。
[来源:T/CSAC 005—2024,3.34]
3.14
信息损失性information loss
信息被不可逆的脱敏算法作用后,隐私信息损失部分对可用性的影响程度。
[来源:T/CSAC 005—2024,3.35]
3.15
数据域data domain
数据在收集、存储、使用、加工、传输、提供、公开、删除、脱敏、存证与取证等环节所依赖的相
同的防护要求和操作场景。
3.16
隐私信息分量private information element
具有一定语义的、不可再细分的隐私信息。
注:隐私信息分量具有原子特性,即不同的隐私信息分量彼此语义上不重叠。
[来源:T/CSAC 005—2024,3.7]
3.17
隐私信息抽取与度量extraction and measurement of private information
通过对采集或接收的信息进行分析,提取不同模态信息中的隐私信息分量,并对隐私信息分量进行
分类以及量化隐私信息分量的敏感度或保护程度。
3.18
隐私度量动态调整dynamic adjustment of privacy measurement
通过识别判断隐私信息所属的应用场景,对隐私信息分量的敏感度或保护程度进行针对性的度量调
整。
3.19
脱敏延伸控制extended control for desensitization
在数据泛在流通与共享过程中,对全生命周期各环节的隐私操作进行迭代控制。
3.20
隐私按需保护on-demond privacy protection
约束隐私信息处理者根据延伸控制策略,对接收到的隐私信息进行按需脱敏、按需删除等处理,提
供场景自适应的隐私保护能力。
4 概述
4.1 脱敏效果评估的目标
脱敏效果评估的目标包括:
a) 脱敏后的数据应该符合法律法规和脱敏控制的要求;
b) 脱敏效果评估应从可逆性、信息偏差性、信息损失性这三个维度来验证隐私信息脱敏处理的
有效性和安全性;
T/CSAC 008—2024
4
c) 脱敏效果评估应该确保脱敏后的数据可以安全地用于特定的分析、共享或存储等需求。
4.2 脱敏效果评估的基本原则
保护效果评估是对从脱敏后的隐私信息中恢复损失信息的难度进行评价。脱敏效果评估执行策略思
路如图1所示,若保护效果评估未达到预期效果,则可能重新执行隐私信息抽取与度量、隐私度量动态
调整、脱敏延伸控制、隐私按需保护,详细示例见附录A。包括:
a) 脱敏效果评估的指标体系,采用可逆性、信息偏差性和信息损失性等评估指标;
b) 单次脱敏效果评估,通过分析脱敏算法执行前后的信息,衡量已脱敏的隐私信息分量的可恢
复程度;
c) 基于数据挖掘的脱敏效果评估,通过收集特定个人一定时间内的脱敏信息,采用数据挖掘技
术试图推算出已脱敏的隐私信息分量;
d) 脱敏系统效果评估,通过收集若干特定个人或所有个人的一定时间内的脱敏信息,采用数据
挖掘技术试图推算特定个人的已脱敏的隐私信息分量;
e) 单次脱敏效果评估、基于数据挖掘的脱敏效果评估和脱敏系统效果评估的区别在于评估对象
的数据集合范围和规模不同。
图1 脱敏效果评估执行策略思路
4.2.1 单次脱敏效果评估
单次脱敏效果评估,是对从原始信息得到中间信息这一单一过程进行的评估。单次脱敏效果可以从
可逆性、信息偏差性、信息损失性三个维度进行评估,若单次脱敏效果评估未达到预期阈值,则需反馈
到隐私按需保护组件重新定义隐私操作。
4.2.2 基于数据挖掘的脱敏效果评估
基于数据挖掘的脱敏效果评估,是指对采用数据挖掘技术分析特定个人一定时间内的已通过单次脱
敏效果评估的脱敏信息,以推算出已脱敏的隐私信息分量程度的评估。基于数据挖掘的脱敏效果可以从
信息偏差性、信息损失性两个维度进行评估。若基于数据挖掘的脱敏效果评估未达到预期阈值,则需反
馈到隐私度量动态调整组件和脱敏延伸控制组件更换场景描述和重新调整控制策略。
4.2.3 脱敏系统效果评估
脱敏系统效果评估是指对采用数据挖掘技术分析若干特定个人或所有个人一定时间内的已通过基
于数据挖掘的脱敏效果评估的脱敏信息,以推算出特定个人已脱敏的隐私信息分量程度的评估。脱敏系
统整体效果可以从信息偏差性、信息损失性两个维度进行评估。若脱敏系统效果评估未达到预期阈值,
T/CSAC 008—2024
5
则需反馈到隐私信息抽取与度量组件、隐私度量动态调整组件和脱敏延伸控制组件重新调整原始度量、
更换场景描述和重新调整控制策略。
4.3 脱敏效果评估的使用
脱敏效果评估是支撑信息发布、统计查询和数据交换的决策依据,也是筛选和自动化选择隐私保护
算法的基础。脱敏效果评估的结果包括:单次脱敏效果评估的结果、基于数据挖掘的脱敏效果评估的结
果和脱敏系统效果评估的结果,这三种类别评估结果的使用对象和作用如下:
a) 单次脱敏效果评估的结果:可以为隐私信息处理者、安全合规审查团队等使用,以便衡量本
次脱敏操作的效果和脱敏信息的可用性、安全性等,是否符合本次的脱敏期望;
b) 基于数据挖掘的脱敏效果评估的结果:可以为脱敏系统使用者、脱敏系统开发者等使用,以
便衡量个人敏感数据在系统内流转时,脱敏操作对隐私信息的保护效果;
c) 脱敏系统效果评估的结果:可以为监管机构、数据管理者等使用,以便衡量隐私信息在跨系
统流转时的隐私保护效果。
5 脱敏效果评估指标体系
5.1 脱敏效果评估指标体系概述
脱敏效果评估指标体系包括可逆性、信息偏差性和信息损失性等三类指标,根据应用场景、数据模
态、脱敏控制策略等要素,为每个评估维度设置相应的权重,进行加权计算,得出脱敏效果的综合评估
结果。
5.2 可逆性评估指标
可逆性评估是衡量从脱敏算法处理后信息中复原隐私信息的可能性。由于脱敏旨在保护敏感个人信
息,通常情况下脱敏是不可逆的。可逆性度量方法如下:
a) 脱敏算法可逆性,评估隐私信息脱敏使用的是否是不可逆脱敏算法,并根据算法是否可逆确
立不同的可逆性评估指标,具体如下:
1) 脱敏算法为不可逆算法,宜依据脱敏算法参数确立可逆性评估指标;
2) 脱敏算法为可逆算法,宜依据脱敏算法恢复密钥强度确立可逆性评估指标。
b) 脱敏算法参数强度,评估脱敏算法使用的参数强度,并根据处理的数据模态,确立算法参数
强度指标的所占权重值,具体如下:
1) 数据模态为文本、表格等的数据,算法参数强度指标所占权重值宜较低;
2) 数据模态为图形、图像、视频、音频等的数据,算法参数强度指标所占权重值宜较高。
c) 信息还原性,评估通过脱敏后的隐私信息还原出原始隐私信息的程度,例如:恢复信息的准
确度、恢复信息的偏差度,以此评估脱敏效果的可逆性,具体如下:
1) 恢复信息的准确度越高,脱敏效果的可逆性就相对越高;
2) 恢复信息的偏差度越高,脱敏效果的可逆性就相对越低。
5.3 信息偏差性评估指标
信息偏差性评估是衡量脱敏算法处理后的信息失真和偏移程度。信息偏差性度量方法如下:
T/CSAC 008—2024
6
a) 统计偏差性,比较原始数据和脱敏后数据的统计指标,例如:均方差、平均绝对值、KL散度、
欧氏距离、余弦距离、峰值信噪比、结构相似性指数、均值、中位数、方差、标准差、最大
值、最小值等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择均方差、平均绝对值等指标为统计偏差性评估
指标;
2) 数据模态为图形、图像、视频、音频等的数据,宜选择峰值信噪比、结构相似性指数等
指标为统计偏差性评估指标。
b) 数据分布偏差性,比较原始数据和脱敏后数据的分布差异,例如:分布形状、分位数和累积分
布函数等,并根据处理的数据模态,确立信息偏差性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择分布形状等指标为数据分布偏差性评估指标;
2) 数据模态为图形、图像、视频、音频等的数据,宜选择累积分布函数等指标为数据分布
偏差性评估指标。
c) 模型应用准确性,使用原始数据和脱敏后数据分别构建训练模型,选择合适的验证集或测试集,
比较模型在验证集或测试集上的效果,以此评估脱敏效果的信息偏差性,具体如下:
1) 模型在验证集或测试集上的效果越好,脱敏效果的信息偏差性相对越低;
2) 模型在验证集或测试集上的效果越差,脱敏效果的信息偏差性相对越高。
d) 数据随机性分析,评估脱敏算法对隐私信息的随机性影响程度,以此评估脱敏效果的信息偏差
性,具体如下:
1) 脱敏算法对隐私信息的随机性影响越小,脱敏效果的信息偏差性相对越低;
2) 脱敏算法对隐私信息的随机性影响越大,脱敏效果的信息偏差性相对越高。
5.4 信息损失性评估指标
信息损失性评估是衡量脱敏算法处理后隐私信息损失部分对可用性的影响程度。信息损失性度量方
法如下:
a) 信息熵,信息熵是衡量数据集中信息量的度量指标,通过计算原始数据和脱敏后数据的信息熵,
比较差异,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为图形、图像、视频、音频等的数据,宜选择信息熵等指标为信息损失性评估
指标;
2) 脱敏算法前后数据的信息熵差值越大,脱敏效果的信息损失性相对越高。
b) 互信息,互信息是衡量两个随机变量之间相互依赖程度的度量指标,通过计算原始数据和脱敏
后数据之间的互信息进行量化评估,并根据处理的数据模态,确立信息损失性的评估指标,
具体如下:
1) 数据模态为文本、表格等的数据,宜选择互信息等指标为信息损失性评估指标;
2) 脱敏算法前后数据的互信息越高,脱敏效果的信息损失性相对越低。
c) 数据分布特征,比较原始数据和脱敏后数据的分布特征的统计指标,例如:均值、方差、分位
数等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择数据分布特征等指标为信息损失性评估指标;
2) 脱敏算法前后数据的数据分布特征越相近,脱敏效果的信息损失性相对越低。
d) 数据关联性,计算原始数据和脱敏后数据之间的关联性的度量指标,例如:相关系数、协方差
等,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为文本、表格等的数据,宜选择数据关联性等指标为信息损失性评估指标;
2) 脱敏算法前后数据的数据关联性越高,脱敏效果的信息损失性相对越低。
T/CSAC 008—2024
7
e) 数据可用性,评估脱敏数据在特定应用场景下的可用程度指标,例如:数据分析、模型训练等
应用场景,并根据处理的数据模态,确立信息损失性的评估指标,具体如下:
1) 数据模态为图形、图像、视频、音频等的数据,宜选择数据可用性等指标为信息损失性
评估指标;
2) 脱敏算法前后数据的数据可用性越高,脱敏效果的信息损失性相对越低。
6 脱敏效果评估通用技术要求
6.1 单次脱敏效果评估的技术要求
单次脱敏效果评估,将执行脱敏算法前的隐私信息与脱敏后的隐私信息进行可逆性、信息偏差性和
信息损失性的评估。具体的技术要求分为可逆性评估的技术要求,信息偏差性评估的技术要求和信息损
失性评估的技术要求。单次脱敏效果评估中,未符合脱敏效果期望阈值的指标反馈流程如图2所示。
图2 单次脱敏效果评估中,未符合脱敏效果期望阈值的指标反馈流程
6.1.1 可逆性评估的技术要求
单次脱敏效果评估中,可逆性的评估技术要求如下:
a) 依据执行脱敏算法后的数据模态、数据规模和应用场景,确定可逆性对应的权重值,具体如
下:
1) 数据模态为文本、表格等的数据,脱敏效果可逆性评估的权重值宜设置较低;
2) 数据模态为图形、图像、视频、音频等的数据,脱敏效果可逆性评估的权重值宜设置较
高。
b) 依据隐私信息的数据模态及应用场景,选择5.1.2节中的评估指标,评估已脱敏的隐私信息分
量的被还原能力,并根据确立的各可逆性指标的权重值进行评估,具体如下:
1) 数据在数据域内流转场景下,恢复信息的准确度、恢复信息的偏差度指标可适用于任何
类型的数据模态的数据;
2) 数据在数据域外发布场景下,恢复信息的准确度、恢复信息的偏差度指标的权重值宜设
置较高。
c) 单次脱敏效果评估结论的可逆性指标未达到脱敏效果期望阈值时,宜重新定义隐私操作,具体
如下:
T/CSAC 008—2024
8
1) 宜反馈到隐私按需保护组件中的按需脱敏模块,重新选择脱敏算法,并设置该脱敏算法
的参数;
2) 重新定义隐私操作后,再次进行数据脱敏,重新进行单次脱敏效果的可逆性评估。
6.1.2 信息偏差性评估的技术要求
单次脱敏效果评估中,信息偏差性的评估技术要求如下:
a) 依据执行脱敏算法后的数据模态、数据规模和应用场景,确定信息偏差性对应的权重值,具
体如下:
1) 数据模态为图形、图像、视频、音频等的数据,脱敏效果信息偏差性评估的权重值宜设
置较低;
2) 数据模态为文本、表格等的数据,脱敏效果信息偏差性评估的权重值宜设置较高。
b) 依据数据规模及统计特性,选择5.1.3节中的评估指标,评估脱敏算法执行前的原始隐私信息
与脱敏后的隐私信息之间的偏差程度,并根据确立的各信息偏差性指标的权重值进行评估,
具体如下:
1) 均方误差、平均数等指标可适用于数据规模较小的数据;
2) Kullback-Leibler 散度、余弦距离等指标可适用于数据规模较大的数据。
c) 单次脱敏效果评估结论的可逆性指标符合脱敏效果期望阈值,但其信息偏差性未达到脱敏效果
期望阈值时,宜重新定义隐私操作,具体如下:
1) 宜反馈到隐私按需保护组件中的按需脱敏模块,修改脱敏算法的参数;
2) 若多次反馈后,仍未达到脱敏效果期望阈值,需反馈到脱敏延伸控制组件中的延伸控制
策略生成模块,生成调整后的延伸控制策略。
6.1.3 信息损失性评估的技术要求
单次脱敏效果评估中,信息损失性的评估技术要求如下:
a) 依据执行脱敏算法后的数据模态、数据规模和应用场景,确定信息损失性对应的权重值,具
体如下:
1) 数据模态为图形、图像、视频、音频等的数据,脱敏效果信息损失性评估的权重值宜设
置较低;
2) 数据模态为文本、表格等的数据,脱敏效果信息损失性评估的权重值宜设置较高。
b) 依据数据规模及统计特性,选择5.1.4节中的评估指标,评估脱敏算法执行前的原始隐私信息
与脱敏后的隐私信息之间的信息损失程度,并根据确立的各信息损失性指标的权重值进行评
估,具体如下:
1) 信息熵、互信息等指标可适用于数据规模较小的数据;
2) 信息可用性、数据分布特征等指标可适用于数据规模较大的数据。
c) 单次脱敏效果评估结论的可逆性指标符合脱敏效果期望阈值,但其信息损失性未达到脱敏效果
期望阈值时,宜重新定义隐私操作,具体如下:
1) 宜反馈到隐私按需保护组件中的按需脱敏模块,修改脱敏算法的参数;
2) 若多次反馈后,仍未达到脱敏效果期望阈值,需反馈到脱敏延伸控制组件中的延伸控制
策略生成模块,生成调整后的延伸控制策略。
6.2 基于数据挖掘的脱敏效果评估的技术要求
T/CSAC 008—2024
9
基于数据挖掘的脱敏效果评估,是指对采用数据挖掘技术分析特定个人一定时间内的已通过单次脱
敏效果评估的脱敏信息,以推算出已脱敏的隐私信息分量程度的评估。具体的技术要求分为信息偏差性
评估的技术要求和信息损失性评估的技术要求。基于数据挖掘的脱敏效果评估中,未符合脱敏效果期望
阈值的指标反馈流程如图3所示。
图3 基于数据挖掘的脱敏效果评估中,未符合脱敏效果期望阈值的指标反馈流程
6.2.1 信息偏差性评估的技术要求
基于数据挖掘的脱敏效果评估中,信息偏差性的评估技术要求如下:
a) 选取数据挖掘算法,对特定个人一定时间内的脱敏信息进行挖掘分析,推断出特定个人的被
脱敏的隐私信息,应根据处理的数据模态,确立数据挖掘算法,具体如下:
1) 数据模态为文本、表格等的数据,宜使用文本挖掘、关联规则挖掘等数据挖掘算法;
2) 数据模态为图形、图像、视频、音频等的数据,宜使用降维、图数据挖掘等数据挖掘算
法。
b) 评估推断出的特定个人的隐私信息,与其对应的真实隐私信息进行偏差性的对比分析,并根据
确立的各信息偏差性指标的权重值进行评估,具体如下:
1) 均方误差、平均数等指标可适用于文本、表格等模态的数据;
2) Kullback-Leibler 散度、余弦距离等指标可适用于图形、图像、视频、音频等模态的数
据。
c) 基于数据挖掘的脱敏效果评估结论的信息偏差性未达到脱敏需求阈值时,宜重新调整控制策
略,具体如下:
1) 宜反馈到脱敏延伸控制组件中的延伸控制策略生成模块,生成调整后的延伸控制策略;
2) 重新调整控制策略,再次进行数据脱敏,重新进行基于数据挖掘的脱敏效果的信息偏差
性评估。
6.2.2 信息损失性评估的技术要求
基于数据挖掘的脱敏效果评估中,信息损失性的评估技术要求如下:
a) 选取数据挖掘算法,对特定个人一定时间内的脱敏信息进行挖掘分析,推断出特定个人的被脱
敏的隐私信息,应根据处理的数据模态,确立数据挖掘算法,具体如下:
1) 数据模态为文本、表格等的数据,宜使用文本挖掘、关联规则挖掘等数据挖掘算法;
2) 数据模态为图形、图像、视频、音频等的数据,宜使用降维、图数据挖掘等数据挖掘算
法。
b) 评估推断出的特定个人的隐私信息,与其对应的真实隐私信息进行损失性的对比分析,并根据
确立的各信息损失性指标的权重值进行评估,具体如下:
T/CSAC 008—2024
10
1) 数据分布特征、数据关联性等指标可适用于文本、表格等模态的数据;
2) 信息熵、信息可用性等指标可适用于图形、图像、视频、音频等模态的数据。
c) 基于数据挖掘的脱敏效果评估结论的信息偏差性达到脱敏需求阈值,而信息损失性未达到脱敏
效果期望阈值时,宜更换场景描述,具体如下:
1) 宜反馈到隐私度量动态调整组件中的场景识别和度量调整模块,修正场景识别、度量调
整机制;
2) 重新更换场景描述,再次进行数据脱敏,重新进行基于数据挖掘的脱敏效果的信息损失
性评估。
6.3 脱敏系统效果评估的技术要求
脱敏系统效果评估,是指对采用数据挖掘技术分析若干特定个人或所有个人一定时间内的已通过基
于数据挖掘的脱敏效果评估的脱敏信息,以推算出特定个人已脱敏的隐私信息分量程度的评估。具体的
技术要求分为信息偏差性评估的技术要求和信息损失性评估的技术要求。脱敏系统效果评估中,未符合
脱敏效果期望阈值的指标反馈流程如图4所示。
图4 脱敏系统效果评估中,未符合脱敏效果期望阈值的指标反馈流程
6.3.1 信息偏差性评估的技术要求
脱敏系统效果评估中,信息偏差性的评估技术要求如下:
a) 选取数据挖掘算法,对若干特定个人或所有个人一定时间内的脱敏信息进行挖掘分析,推断出
特定个人的被脱敏的隐私信息,应根据处理的数据模态,确立数据挖掘算法,具体如下:
1) 数据模态为文本、表格等的数据,宜使用文本挖掘、关联规则挖掘等数据挖掘算法;
2) 数据模态为图形、图像、视频、音频等的数据,宜使用降维、图数据挖掘等数据挖掘算
法。
b) 评估推断出的特定个人的隐私信息,与其对应的真实隐私信息进行偏差性的对比分析,并根据
确立的各信息偏差性指标的权重值进行评估,具体如下:
1) 均方误差、平均数等指标可适用于文本、表格等模态的数据;
2) Kullback-Leibler 散度、余弦距离等指标可适用于图形、图像、视频、音频等模态的数
据。
c) 脱敏系统效果评估结论的信息偏差性达到脱敏需求阈值时,宜重新调整控制策略,具体如下:
1) 宜反馈到脱敏延伸控制组件中的延伸控制策略生成模块,生成调整后的延伸控制策略;
2) 重新调整控制策略,再次进行数据脱敏,重新进行脱敏系统效果的信息偏差性评估。
T/CSAC 008—2024
11
6.3.2 信息损失性评估的技术要求
脱敏系统效果评估中,信息损失性的评估技术要求如下:
a) 选取数据挖掘算法,对若干特定个人或所有个人一定时间内的脱敏信息进行挖掘分析,推断出
特定个人的被脱敏的隐私信息,应根据处理的数据模态,确立数据挖掘算法,具体如下:
1) 数据模态为文本、表格等的数据,宜使用文本挖掘、关联规则挖掘等数据挖掘算法;
2) 数据模态为图形、图像、视频、音频等的数据,宜使用降维、图数据挖掘等数据挖掘算
法。
b) 评估推断出的特定个人的隐私信息,与其对应的真实隐私信息进行损失性的对比分析,并根据
确立的各信息损失性指标的权重值进行评估,具体如下:
1) 数据分布特征、数据关联性等指标可适用于文本、表格等模态的数据;
2) 信息熵、信息可用性等指标可适用于图形、图像、视频、音频等模态的数据。
c) 脱敏系统效果评估结论的信息偏差性达到脱敏效果期望阈值,而信息损失性未达到脱敏效果期
望阈值,宜更换场景描述,具体如下:
1) 宜反馈到隐私度量动态调整组件中的场景识别和度量调整模块,修正场景识别、度量调
整机制;
2) 若多次反馈后,仍未达到脱敏效果期望阈值,需反馈到隐私信息抽取与度量组件中的隐
私信息抽取、隐私信息分类及隐私信息度量模块,修正隐私信息的抽取、分类和度量。
T/CSAC 008—2024
12
附录A
(资料性)
脱敏效果评估示例
A.1 概述
根据脱敏效果评估指标体系,本附录介绍单次脱敏效果评估、基于数据挖掘的脱敏效果评估、脱敏
系统效果评估的方法,可供进行脱敏效果评估时参考。脱敏效果评估过程的关键处理环节如下。
A.2 单次脱敏效果评估
单次脱敏效果评估流程如下:
a) 收集待评测的原始数据与脱敏后数据。原始数据示例如表A.1所示,脱敏后数据示例如表A.2
所示。其涉及到的敏感信息属性为“姓名”、“身份证号码”、“年龄”、“手机号码”,
本示例中年选择“年龄”属性作为评估示例;
表A.1 原始数据
姓名身份证号码年龄疾病类型手机号码
1 张三971501199202194333 33 流感28187829965
2 李四930202195505189547 69 癌症25708026968
3 王五952322198909202525 62 流感25528151426
4 赵六950401197008177286 54 流感25938458003
5 李三941181197602209520 49 流感28281903000
6 黄四912400197502037260 50 癌症28801694181
7 赵五930511195508207803 69 心脏病23992704048
8 周六971501199202194333 33 心脏病28187829965
注:本表格中示例用于数据脱敏。示例中数据为虚拟数据,不涉及公民的隐私信息。例如:身份证号码、手机号码
为无实际意义的信息;姓名为常见假名;疾病类型为泛指类别,不涉及公民具体疾病信息。
表A.2 脱敏后数据
姓名身份证号码年龄疾病类型手机号码
1 张* 971501000000004333 31 流感281****9965
2 李* 930202000000009547 67 癌症257****6968
3 王* 952322000000002525 61 流感255****1426
4 赵* 950401000000007286 53 流感259****8003
5 李* 941181000000009520 52 流感282****3000
6 黄* 912400000000007260 47 癌症288****4181
7 赵* 930511000000007803 70 心脏病239****4048
8 周* 971501000000004333 35 心脏病281****9965
注:本表格中示例用于脱敏效果评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。
b) 判断隐私信息所属场景,本次评估示例中隐私信息的应用场景为医疗问诊类场景,数据模态为
数值型数据,数据规模较小,由此确定可逆性、信息偏差性和信息损失性对应的权重值为0.2、
0.6、0.2;
T/CSAC 008—2024
13
c) 依据隐私信息的数据模态和应用场景,选择恢复信息的准确度和恢复信息的偏差度为本次脱敏
效果评估的可逆性的评估指标。经评估,脱敏后数据恢复得到原始信息的准确度达到了脱敏
效果期望阈值,恢复信息的偏差度达到了脱敏效果期望阈值;
d) 依据数据规模及统计特性,选择均值和方差为本次脱敏效果评估的信息偏差性的评估指标。经
评估,脱敏后数据与原始数据的均值变化量未达到脱敏效果期望阈值,脱敏后数据与原始数
据的方差变化量达到了脱敏效果期望阈值;
e) 依据数据信息量及关联性,选择信息熵差值为本次脱敏效果评估的信息损失性评估指标。经评
估,脱敏后数据与原始数据的信息熵差值达到了脱敏效果期望阈值。
A.3 基于数据挖掘的脱敏效果评估
基于数据挖掘的脱敏效果评估流程如下:
a) 收集得到用户“张三”一定时间内的其他场景中的脱敏后数据如表A.3,A.4所示。选择决策树
算法对收集到的用户“张三”的脱敏信息进行挖掘分析,推断得到用户“张三”的被脱敏的
隐私信息为{年龄:30-35};
表A.3 收集到的用户“张三”在网络问诊场景中的脱敏后数据
姓名年龄疾病类型手机号码
1 *三20-35 流感****9965
注:本表格中示例用于脱敏效果评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。
表A.4 收集到的用户“张三”在交通票务场景中的脱敏后数据
姓名年龄性别
1 张三30-50 男
注:本表格中示例用于脱敏效果评估。示例中数据为虚拟数据,不涉及公民的隐私信息。例如:姓名为常见假名;
年龄为泛化区间;疾病类型为泛指类别,不涉及公民具体疾病信息。
b) 使用信息偏差性和信息损失性的评估指标作为基于数据挖掘的脱敏效果评估指标。经评估推断
出的用户“张三”的隐私信息与对应的真实隐私信息的信息偏差性指标未达到脱敏效果期望
阈值,信息损失性指标也未达到脱敏效果期望阈值。
A.4 脱敏系统效果评估
脱敏系统效果评估流程如下:
a) 收集得到用户“王*”和用户“吴*”一定时间内的其他场景中的脱敏后数据如表A.5,A.6 所
示,以及用户“张三”一定时间内的各个场景中的脱敏后数据如表A.3,A.4 所示。选择决策
树算法对收集到的用户“张三”、用户“王*”和用户“吴*”用户的脱敏信息进行挖掘分析,
推断得到用户“张三”的被脱敏的隐私信息为{年龄:30-34};
表A.5 收集到的用户“王*”在医疗问诊场景中的脱敏后数据
序号姓名职业治疗患者姓名疾病类型身份证号码
1 王* 医生张* 流感971501199*********
注:本表格中示例用于脱敏效果评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。
T/CSAC 008—2024
14
表A.6 收集到的用户“吴*”在网约车场景中的脱敏后数据
序号姓名乘客手机号码目的地址类型年龄
1 吴* 281******** 医疗机构20-40
注:本表格中示例用于脱敏效果评估。示例中虚构数据已经进行脱敏处理,不涉及公民的隐私信息。
b) 使用信息偏差性和信息损失性的评估指标作为基于数据挖掘的脱敏效果评估指标。经评估推
断出的用户“张三”的隐私信息与对应的真实隐私信息的信息偏差性指标达到了脱敏效果期
望阈值,信息损失性指标未达到脱敏效果期望阈值。
T/CSAC 008—2024
15
附录B
(资料性)
可逆性的计算方法
B.1 概述
可逆性可以通过逆向映射、字典攻击、统计攻击、机器学习等方法判断,本附录介绍了逆向映射、
字典攻击、统计攻击、机器学习的方法描述,可供隐私脱敏的组织者参考。
B.2 逆向映射
逆向映射是一种简单的可逆性评估方法,即尝试将脱敏后的数据重新映射回原始数据。如果能够准
确还原原始数据,说明脱敏算法不安全。逆向映射的关键在于找到逆向映射函数或算法,使得脱敏结果
能够被逆向操作还原。
B.3 字典攻击
字典攻击是一种基于预先构建的字典或映射表来还原脱敏结果的方法。攻击者通过穷举字典中的映
射关系,尝试将脱敏结果映射回原始数据,如果能够找到匹配的映射关系,即可还原原始数据。为了防
止字典攻击,脱敏算法需要使用随机化技术或其他安全措施,使得字典攻击的成功率极低。
B.4 统计分析
统计分析是一种基于脱敏结果统计特征来推断原始数据的方法。攻击者通过分析脱敏结果的统计特
征,如频率分布、均值、方差等,来推测原始数据的可能取值范围。脱敏算法需要通过添加噪音、扰动
或其他技术来破坏统计特征,从而提高脱敏结果的安全性。
B.5 机器学习攻击
机器学习攻击是一种利用机器学习模型来还原脱敏结果的方法。攻击者可以使用机器学习算法,通
过训练模型来学习脱敏结果与原始数据之间的映射关系,一旦攻击者成功构建了准确的模型,即可使用
该模型将脱敏结果还原回原始数据。为了抵御机器学习攻击,脱敏算法需要采用对抗性机器学习技术或
其他防御机制,使得攻击者难以构建准确的模型。
T/CSAC 008—2024
16
附录C
(资料性)
信息偏差性的计算方法
C.1 概述
信息偏差性可以通过计算脱敏算法执行前后数据的均方误差、欧式距离、余弦距离等表示,本附录
介绍了相关计算信息偏差性的方法,可供隐私脱敏的组织者参考。
C.2 均方误差
对于两个数据集X 和Y,均方误差(Mean Squared Error,MSE)是用来衡量它们之间的差异程度
的统计指标。它的作用是评估模型预测或拟合的准确性,或者比较两个数据集之间的差异程度。均方误
差的计算公式如下:
表示数据点的个数, 表示X 数据集中的第个数据点, 表示Y 数据集中的第个数据点。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的均方误差,均方误差的数值越大,
表示脱敏操作引入的偏差越大,均方误差越小,表示脱敏操作引入的偏差越小。
均方误差可运用的数据模态为:数值型和编码型。
C.3 均绝对误差
对于两个数据集X和Y,平均绝对误差(Mean Absolute Error,MAE)是用来衡量它们之间的差异程
度的统计指标。它的作用是评估模型预测或拟合的准确性,或者比较两个数据集之间的差异程度。平均
绝对误差的计算公式如下:
其中, 表示数据点的个数, 表示X数据集中的第个数据点, 表示Y数据集中的第个数据点。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的平均绝对误差,平均绝对误差的
数值越大,表示脱敏操作引入的偏差越大,平均绝对误差越小,表示脱敏操作引入的偏差越小。
平均绝对误差可运用的数据模态为:数值型和编码型。
C.4 Kullback-Leibler 散度
对于两个离散分布P 和Q , 其中P 表示真实分布, Q 表示近似分布, Kullback-Leibler 散度
(Kullback-Leibler Divergence,KLD)是用来衡量它们之间的差异程度的统计指标。它的作用是评估一
个概率分布相对于另一个概率分布的信息丢失或信息增益。KL散度的公式如下:
其中, 表示P分布中元素的个数, 表示P分布中第个元素, 表示元素在分布P中的概率,
表示元素在分布Q中的概率。
T/CSAC 008—2024
17
比较原始信息和脱敏信息之间的偏差,可以计算它们之间的Kullback-Leibler散度,Kullback-Leibler
散度的数值越大,表示脱敏操作引入的偏差越大,Kullback-Leibler散度越小,表示脱敏操作引入的偏差
越小。
Kullback-Leibler散度可运用的数据模态为:编码型。
C.5 欧氏距离的计算方法
欧式距离(Euclidean distance,ED)是指两个n 维向量之间的距离,即欧氏空间中两点之间的物
理距离。计算两个向量和的欧氏距离的公式如下:
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的欧氏距离,如果欧氏距离较小,
则说明脱敏操作引入的偏差较小,反之则说明脱敏操作引入的偏差较大。
欧氏距离可运用的数据模态为:数值型和编码型。
C.6 余弦距离的计算方法
余弦距离(Cosine distance,CD)是指两个向量之间的夹角余弦值,用于衡量它们的相似度。计算
两个向量和的欧氏距离的公式如下:
其中, 是两个向量的点集, 和分别是向量和向量的范数。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的余弦距离。余弦距离的取值在0
到1 之间,如果余弦距离接近1,则说明脱敏操作引入的偏差较小,如果余弦距离接近0,则说明脱敏
操作引入的偏差较大。
余弦距离可运用的数据模态为:音频型。
C.7 峰值信噪比
峰值信噪比(Peak Signal-to-Noise Ratio,简称PSNR)是一种用于衡量两个数据集之间的重建质量
或差异程度的指标。PSNR 可以用于比较不同数据集之间的相似度,从而确定哪个数据集的质量更高。
较高的PSNR 表示数据集之间的差异较小,较低的PSNR 表示数据集之间的差异较大。计算两个数据集
峰值信噪比的公式如下:
其中,MAX 表示信号的最大可能取值(对于8 位图像通常为255),MSE 表示均方误差,是两个
数据集之间的平均差异。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的峰值信噪比。峰值信噪比越高,
表示数据集的偏差较小,峰值信噪越低,表示数据集的偏差较大。
峰值信噪比可运用的数据模态为:图像型和视频型。
T/CSAC 008—2024
18
C.8 结构相似性指数
结构相似性指数(Structural Similarity Index,简称SSIM)是一种用于衡量两个图像之间结构相似
度的指标。它综合考虑了亮度、对比度和结构等因素,能够更准确地评估图像的相似度。SSIM的计算
公式如下:
其中, 和表示两个图像, 表示亮度相似度, 表示对比度相似度, 表示结构相
似度, 是一个参数(通常取1)。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的结构相似性指数。SSIM的取值
范围在0到1之间,如果结构相似性指数接近1,则说明脱敏操作引入的偏差较小,如果结构相似性指数
接近0,则说明脱敏操作引入的偏差越小。
结构相似性指数可运用的数据模态为:图像型和视频型。
C.9 平均数
平均数(Average,AVE)是一种常见的统计量,通过比较不同数据集的平均数,可以了解它们之间的
差异。平均数可以帮助识别数据集之间的相似性或差异性,并对数据进行比较和分析。平均数的计算公
式如下:
其中, 表示数据集中的第个数据点, 表示数据点的总数。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的平均数的差值。平均数的差值越
大,表示脱敏操作引入的偏差越大,平均数的差值越小,表示脱敏操作引入的偏差越小。
平均数可运用的数据模态为:数值型。
C.10 中位数
中位数(Median,MED)是一种用于衡量数据集的中心位置的统计量。中位数是将数据集按照大
小排序后,位于中间位置的数值。中位数可以帮助识别数据集之间的相似性或差异性,并对数据进行比
较和分析。中位数的计算方式如下:
a) 如果数据集中的数据个数为奇数,中位数是排序后位于中间位置的数值;
b) 如果数据集中的数据个数为偶数,中位数是排序后中间两个数值的平均值。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的中位数的差值。中位数的差值越
大,表示脱敏操作引入的偏差越大,中位数的差值越小,表示脱敏操作引入的偏差越小。
中位数可运用的数据模态为:数值型。
C.11 标准差
标准差(Standard Deviation,缩写为SD)是用来衡量数据集中数据的离散程度或变异程度的统
计量。标准差可以用来比较不同数据集之间的离散程度。计算数据集标准差的公式如下:
其中, 表示数据集中的第个数据点, 表示数据集的均值, 表示数据点的总数。
T/CSAC 008—2024
19
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的标准差的差值。标准差的差值越
大,表示脱敏操作引入的偏差越大,标准差的差值越小,表示脱敏操作引入的偏差越小。
标准差可运用的数据模态为:数值型。
C.12 方差
方差(Variance,Var)是一种统计量,用于描述数据集内数据点的变异程度。方差可以帮助我们
了解数据集中数据点的分布情况和数据的稳定性,经常用于比较不同数据集之间的差异或进行数据筛
选。计算方差的公式如下:
其中, 表示数据集中的第个数据点, 表示数据集的均值, 表示数据点的总数。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的方差的差值。方差的差值越大,
表示脱敏操作引入的偏差越大,方差的差值越小,表示脱敏操作引入的偏差越小。
方差可运用的数据模态为:数值型。
C.13 最大值
最大值(Maximum Value,缩写为Max)是数据集中的最大观测值,它表示数据集中的最高点或
最大的数据点。最大值可以帮助确定数据集中的极端值,帮助了解数据的范围和数据的分布情况,在数
据分析和统计中,最大值经常用于比较不同数据集之间的差异或进行数据筛选。计算最大值的公式如下:
其中, 表示数据集中的数据点,而表示数据集的最大值。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的最大值的差值。最大值的差值越
大,表示脱敏操作引入的偏差越大,最大值的差值越小,表示脱敏操作引入的偏差越小。
最大值可运用的数据模态为:数值型。
C.14 最小值
最小值(Minimum Value,缩写为Min)是数据集中的最小观测值,它表示数据集中的最低点或最
小的数据点。最小值可以帮助确定数据集中的极端值,对于了解数据的范围和数据的分布情况非常有用,
在数据分析和统计中,最小值经常用于比较不同数据集之间的差异或进行数据筛选。计算最小值的公式
如下:
其中, 表示数据集中的数据点,而表示数据集的最小值。
比较原始信息和脱敏信息之间的信息偏差性,可以计算它们之间的最小值的差值。最小值的差值越
大,表示脱敏操作引入的偏差越大,最小值的差值越小,表示脱敏操作引入的偏差越小。
最小值可运用的数据模态为:数值型。
T/CSAC 008—2024
20
附录D
(资料性)
信息损失性的计算方法
D.1 概述
信息损失性可以通过脱敏算法执行前后数据的信息熵差值、相关系数差值、协方差等表示,本附录
介绍了信息熵算法和相关性分析算法,可供隐私脱敏的组织者参考。
D.2 信息熵的计算方法
信息熵(Information Entropy,缩写为IE)是信息论中用来衡量随机变量不确定性的指标。可以通
过计算数据集的信息熵,然后比较不同数据集的信息熵大小来评估它们的信息损失性。计算信息熵的公
式如下:
其中, 表示数据中某个值出现的概率。对于给定的数据集,可以将每个数据值出现的概率代入
公式中,然后将结果相加,即可得到数据集的信息熵。
比较原始信息和脱敏信息之间的信息损失性,可以计算它们之间的信息熵的差值。信息熵的差值越
大,表示脱敏操作引入的信息损失越大,信息熵的差值越小,表示脱敏操作引入的信息损失越小。
信息熵可运用的数据模态为:数值型、编码型、图像型、视频型和音频型。
T/CSAC 008—2024
21
附录E
(资料性)
脱敏效果评估报告要求
E.1 形成评估报告的目的
评估报告可以更好地帮助当前隐私信息处理者、个人信息保护合规审计评估机构、审查认证机构等
组织了解隐私信息脱敏处理的效果,并更加直观地展示脱敏效果评估的结果。
E.2 评估报告的组成内容
评估报告的内容由评估项目概述、被评估对象描述、单项评估结果分析、整体评估、等级评估结论
五部分组成。
E.3 评估项目概述组成内容
评估内容概述由评估的目的、评估的依据、评估的过程、评估报告的分发范围四部分组成。
评估目的部分主要简述评估开展的背景、评估涉及的主体和评估目标等内容。评估的依据部分主要
分类列出开展评估活动所依据的标准、文件和合同等。评估的过程部分应根据实际评估情况描述等级评
估工作流程、评估每个阶段完成的关键任务和评估的时间节点等内容。评估报告的分发范围部分应说明
等级评估报告正本的份数与分发范围。
E.4 被评估对象描述组成内容
被评估对象描述包括可选择的评估类型、待评估的数据、待评估数据的类型和所属主体、脱敏要求
四部分。
可选择的评估类型包括单次脱敏效果评估、基于数据挖掘的脱敏效果评估、脱敏系统效果评估三类。
待评估的数据伴随选择的评估类型不同会有所不同,具体在“6.1 单次脱敏效果评估的技术要求”、“6.2
基于数据挖掘的脱敏效果评估的技术要求”、“6.3 脱敏系统效果评估的技术要求”中进行了描述。待
评估数据的类型包括结构化数据和非结构化数据两个类别,每一个类别下又可以细分多个子类别,例如
结构化数据下的文本型数据、非结构化数据下的图片型数据等。所属主体用于描述当前数据拥有者的信
息。脱敏要求是脱敏控制集合中曾经和当前信息所属主脱敏要求的并集。
E.5 单项评估结果分析组成内容
单项评估内容包括“5 脱敏效果评估指标体系”中涉及的一个或多个类别。由达标的评估点汇总分
析和存在问题的评估点汇总分析两部分构成。
达标的评估点汇总分析是针对评估结果中存在的符合项进行汇总分析,存在问题的评估点汇总分析
是针对评估结果中存在的部分符合项和不符合项进行汇总和分析,例如,当单项评估为脱敏效果可逆性
评估时,评估点可以为脱敏后数据恢复为脱敏前数据的还原度是否符合预期。
E.6 整体评估组成内容
整体评估从单项评估结果与脱敏要求的匹配程度进行分析和整体评价。整体评估结果示例如表E.1
所示。
T/CSAC 008—2024
22
表E.1 整体评估结果示例
单项评估结果类别评估点
与脱敏要求的
匹配程度级别
单项评估得分权重参考
可逆性评估结果
恢复信息的准确度高10 0.6
… … … …
信息偏差性评估结果
欧式距离中7 0.2
… … … …
信息损失性评估结果
信息熵低4 0.2
… … … …
E.7 等级评估结论组成内容
说明等级评估结论确定的方法,并根据单项评估得分和对应的权重参考,给出被测对象的等级评估
结论,等级评估结论示例如表E.2所示。
表E.2 等级评估结论示例
等级评估结论脱敏效果评估综合分数
优9-10
良7-8
中4-6
差0-3
E.8 脱敏效果评估报告参考
E.8.1 评估项目概述
a) 评估的目的
b) 评估的依据
c) 评估的过程
d) 评估报告的分发范围
E.8.2 被评估对象概述
a) 评估类型
b) 待评估数据
c) 待评估数据的类型和所属主体
d) 脱敏要求
E.8.3 单项评估结果分析
a) 达标的评估点汇总分析
BCDE
表E.3 达标的评估点汇总分析
达标的评估点达标情况分析
评估点1 分析1
… …
T/CSAC 008—2024
23
b) 存在问题的评估点汇总分析
表E.4 达标的评估点汇总分析
未达标的评估点达标情况分析
评估点1 分析1
… …
E.8.4 整体评估
表E.5 达标的评估点汇总分析
单项评估结果类别评估点
与脱敏要求的
匹配程度级别
单项评估得分权重参考
可逆性评估结果
评估点1

偏差性评估结果
评估点2

信息损失性评估结果
评估点3

E.8.5 等级评估结论
□优□良□中□差
T/CSAC 008—2024
24
参 考 文 献
[1] GB/T 25069-2022 信息安全技术术语
[2] GB/T 35273-2020 信息安全技术个人信息安全规范
[3] GB/T 37964-2019 信息安全技术个人信息去标识化指南
[4] GB/T 37988-2019 信息安全技术数据安全能力成熟度模型
[5] GB/T 44588-2024 数据安全技术互联网平台及产品服务个人信息处理规则
[6] T/CSAC 005—2024 隐私计算总体框架
[7] T/CSAC 006—2024 隐私计算脱敏控制技术要求
[8] T/CSAC 007—2024 隐私计算脱敏算法能力评估技术要求
[9] 中华人民共和国网络安全法(2016 年11 月7 日第十二届全国人民代表大会常务委员会第二十四次
会议通过)
[10]中华人民共和国数据安全法(2021 年6 月10 日第十三届全国人民代表大会常务委员会第二十九次
会议通过)
[11]中华人民共和国个人信息保护法(2021 年8 月20 日第十三届全国人民代表大会常务委员会第三十
次会议通过)
[12]关键信息基础设施安全保护条例(2021 年4 月27 日国务院第133 次常务会议通过)
[13]网络安全审查办法(2021 年11 月16 日国家互联网信息办公室2021 年第20 次室务会议审议通过)

资源下载此资源下载价格为5金币立即购买,VIP免费

1.本站大部份文档均属免费,部份收费文档,经过本站分类整理,花了精力和时间,收费文档是为了网站运营成本等费用开支;
2.所有收费文档都真实可靠,为了节约成本,文档在网站前台不做预览,如果付费后,与实际文档不符合,都可以加微信号:pdftj88申请退款;
3.购买会员(或单次下载)即视为对网站的的赞助、打赏,非商业交易行为(不认同此观点请勿支付)请慎重考虑;
4.付费下载过程中,如果遇到下载问题,都可以加微信号pdftj88解决;
5.手机支付,尽量选择支付宝支付;
6.如图集或者标准不清楚,在本站找不到您需要的规范和图集,希望增加资料等任何问题,可联系微信号:pdftj88解决;

文档天下
  • 本文由 发表于 2025年4月9日 10:42:04
  • 转载请务必保留本文链接:https://www.998pdf.com/56121.html
图书

T/CMRS 002-2025 无砟轨道用聚氨酯隔振垫

T/CMRS 002-2025 无砟轨道用聚氨酯隔振垫 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: