CCS L 80
团体标准
T/CFEII 0015.4—2023
内容安全检测人工智能系统鲁棒性测评规范 第4部分:音频
Robustness evaluation specification for artificialintelligence systems for content security detection - Part4: Audio
2023 - 12 – 22 发布2023 - 12 – 22 实施
中国电子信息行业联合会 发布
目次
前言.............................................................................. II
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语和定义........................................................................... 1
4 缩略语............................................................................... 2
5 音频内容安全检测人工智能系统测试样本分级............................................. 2
6 音频内容安全检测人工智能系统鲁棒性分级要求........................................... 3
7 音频内容安全检测人工智能系统鲁棒性性能测评方法....................................... 3
7.1 测试样本......................................................................... 3
7.2 测试流程......................................................................... 3
7.3 测试方法......................................................................... 4
7.4 综合评价方法..................................................................... 5
附录A (资料性) 违法信息和不良信息............................................... 6
参考文献..............................................................................7
T/CFEII 0015.4—2023
II
前言
《内容安全检测人工智能系统鲁棒性测评规范》分为以下4个部分:
——第1 部分:图像;
——第2 部分:视频;
——第3 部分:文本;
——第4 部分:音频;
本部分为《内容安全检测人工智能系统鲁棒性测评规范》的第4 部分。
本部分按照GB/T 1.1—2020 给出的规则起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本标准由中国电子信息行业联合会提出并归口。
本标准起草单位:国家工业信息安全发展研究中心、国家语音及图像识别产品质量检验检测中心、
中移互联网有限公司、蚂蚁科技集团股份有限公司、人民中科(北京)智能技术有限公司、北京信源
电子信息技术有限公司吉安分公司、北京信源电子信息技术有限公司大同分公司、大同市数字政府服
务中心、北京瑞莱智慧科技有限公司、中国科学院信工所、罗克佳华科技集团股份有限公司、京东科
技控股股份有限公司、北京信工博特智能科技有限公司、浙江君同智能科技有限责任公司。
本标准主要起草人:朱倩倩、刘永东、李美桃、倪邦杰、王英潮、王冠麟、林冠辰、崔世文、顾
艳梅、王坚、王西婷、乔思渊、苏进军、韩杰、马国斌、胡嵩智、韦云霞、马多贺、江俊烨、薛学琴、
侯韶君、刘宇光、狄帅、陈鹏、李阳、韩蒙。
T/CFEII 0015.4—2023
1
内容安全检测人工智能系统鲁棒性测评规范第4 部分:音频
1 范围
本文件规定了用于检测音频内容安全的人工智能系统鲁棒性分级要求和性能测评方法。
本文件适用于第三方检验检测机构、技术生产方和技术应用方对内容安全检测人工智能系统鲁棒
性开展测试评估。
注:本文件对音频内容安全检测人工智能系统附带的语料库、知识库规模不做限制要求。
注:本文件重点研究音频中的语音信息,不涉及音频中的声纹信息。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适
用于本文件。
GB/T 41867-2022 信息技术人工智能术语
3 术语和定义
GB/T 41867-2022 界定的以及下列术语和定义适用于本文件。
3.1
内容安全检测人工智能系统artificial intelligence systems for content security
detection
使用机器学习算法自动识别图像、视频、文本、语音中的违法信息和不良信息的系统。
注:违法信息和不良信息参考附录A。
3.2
鲁棒性robustness
人工智能系统在任何情况下都保持其性能水平的特性,攻击样本的检测准确率越高,表示系统的
鲁棒性越好。
3.3
原始样本original sample
通过对真实事物拍摄得到的测试数据。
3.4
原始无风险样本original sample without risk
不包含违法信息和不良信息的测试数据。
注:原始无风险样本如风景照、日常生活照等。
3.5
原始有风险样本original sample with risk
包含违法信息和不良信息的测试数据。
3.6
攻击样本attack sample
原始样本通过攻击方法处理后的测试数据。
3.7
原始样本检测准确率original sample accuracy rate
正确检测原始样本数量占已检原始样本数量的比例。
T/CFEII 0015.4—2023
2
3.8
攻击样本错误接受率attack sample false acceptance rate
错误检测攻击样本数量占已检攻击样本数量的比例。
3.9
攻击样本检测准确率attack sample accuracy rate
综合评价正确检测不同等级攻击样本的概率。
4 缩略语
下列缩略语适用于本文件。
OSAR:原始样本检测准确率(Original Sample Accuracy Rate)
ASFAR:攻击样本错误接受率(Attack Sample False Acceptance Rate)
ASAR:攻击样本检测准确率(Attack Sample Accuracy Rate)
5 音频内容安全检测人工智能系统测试样本分级
按照测试样本生成方法和数据获取的难易度,对测试样本分为5 个等级。L0 级原始样本指无数据
漂移的样本;L1 级攻击样本指在自然条件下随机发生的变换,可能影响系统性能的攻击样本;L2 级
攻击样本指在不能够获取系统的权重信息和推理结果,仅基于先验条件下生成的攻击样本;L3 级攻击
样本指在不能够获取系统的权重信息,但能获取系统推理结果条件下生成的攻击样本;L4 级攻击样本
指在能够获取系统的权重信息和推理结果条件下生成的攻击样本。L1 级攻击样本、L2 级攻击样本和
L3 级攻击样本对应音频内容安全检测人工智能系统鲁棒性攻击方法见表1。
注:考虑被测单位提供信息真实性对测试结果的影响,本文件在测评方法中未列入L4 级攻击样本。
表1 音频内容安全检测人工智能系统鲁棒性攻击方法
攻击样本等级攻击方法攻击方法说明算法示例
L1
音速变换音频速度变化。Python 库
ffmpeg. a_speed()
音量变换音频音量变化。Python 库
ffmpeg.volume()
噪音变换
音频加入高斯噪声、音乐噪声和说话人
噪声等。
Python 库librosa
库添加高斯噪声
等
混响变换音频添加混响模拟。FEM 等
信道变换
使用扭曲信号,掩盖频域通道和时域通
道,修改频谱图。DFT 等
L2
语音合成
使用语音合成类算法生成不同性别、不
同风格等音频。WaveNet 等
AI 生成使用深度学习生成类算法生成音频。Transformer TTS
等
L3
基于迁移的黑盒
攻击
使用已有的白盒对抗攻击算法生成能够
成功欺骗替代模型的对抗样本。Houdini 等
基于查询的黑盒
攻击
在黑盒情况下,使用梯度查询的方式寻
找模型漏洞生成的对抗样本。FAKEBOB 等
T/CFEII 0015.4—2023
3
6 音频内容安全检测人工智能系统鲁棒性分级要求
当OSAR≥95%,系统鲁棒性性能等级对应分级要求见表2。
注:系统鲁棒性性能用ASAR 表示。
表2 音频内容安全检测人工智能系统鲁棒性分级要求
性能等级分级要求
初始级ASAR<85%
基本级85%≤ASAR<95%
增强级ASAR≥95%
7 音频内容安全检测人工智能系统鲁棒性性能测评方法
7.1 测试样本
测试样本分为原始样本和攻击样本。L0 级原始样本包括有风险原始样本和无风险原始样本,数量
比例1:1。攻击样本分为L1 级攻击样本、L2 级攻击样本和L3 级攻击样本。各类测试样本数量见表3。
原始样本音频格式可为MP3、FLAC、MIDI 等,每段音频时长不少于5s。
表3 测试样本数量
测试样本测试样本分级测试样本数量(单位:段)
原始样本L0 级原始样本千级别
攻击样本
L1 级攻击样本百级别
L2 级攻击样本百级别
L3 级攻击样本百级别
7.2 测试流程
音频内容安全检测人工智能系统鲁棒性测试方法分为原始样本测试和攻击样本测试,其测试流程
见图1。当原始样本测试OSAR≥95%时,在正确检测的原始样本中选取对应数量的测试样本生成攻击
样本。依次进行L1 级攻击样本测试、L2 级攻击样本测试和L3 级攻击样本测试,计算L1 级攻击样本
错误接受率ASFARL1、L2 级攻击样本错误接受率ASFARL2 和L3 级攻击样本错误接受率ASFARL3。
T/CFEII 0015.4—2023
4
图1 测试流程图
7.3 测试方法
7.3.1 原始样本测试方法
L0 级原始样本依次输入被测系统,若被测系统正确给出L0 级原始样本类型,则判定为正确检测,
否则判定为错误检测,根据正确检测L0 级原始样本数量占已检L0 级原始样本数量的比例,计算L0
级原始样本检测准确率OSAR。计算公式为OSAR= O0
OL0
× 100% ,其中OSAR 为L0 级原始样本检测准
确率,O0为正确检测L0 级原始样本数量,OL0 为已检L0 级原始样本数量。
7.3.2 攻击样本测试方法
L1 级攻击样本依次输入被测系统,若被测系统正确给出L1 级攻击样本类型,则判定为正确检测,
否则判定为错误检测,根据错误检测L1 级攻击样本数量占已检L1 级攻击样本数量的比例,计算L1
级攻击样本错误接受率ASFARL1。计算公式为ASFARL1= A1
AL1
× 100%,其中ASFARL1 为L1 级攻击样本
错误接受率,A1为错误检测L1 级攻击样本数量,AL1 为已检L1 级攻击样本数量。
L2 级攻击样本依次输入被测系统,若被测系统正确给出L2 级攻击样本类型,则判定为正确检测,
否则判定为错误检测,根据错误检测L2 级攻击样本数量占已检L2 级攻击样本数量的比例,计算L2
级攻击样本错误接受率ASFARL2。计算公式为ASFARL2= A2
AL2
× 100%,其中ASFARL2 为L2 级攻击样本
错误接受率,A2 为错误检测L2 级攻击样本数量,AL2 为已检L2 级攻击样本数量。
L3 级攻击样本依次输入被测系统,若被测系统正确给出L3 级攻击样本类型,则判定为正确检测,
否则判定为错误检测,根据错误检测L3 级攻击样本数量占已检L3 级攻击样本数量的比例,计算L3
级攻击样本错误接受率ASFARL3。计算公式为ASFARL3= A3
AL3
× 100%,其中ASFARL3 为L3 级攻击样本
错误接受率,A3 为错误检测L3 级攻击样本数量,AL3 为已检L3 级攻击样本数量。
T/CFEII 0015.4—2023
5
7.4 综合评价方法
按照攻击的可能性,分别对L1 级攻击样本错误接受率ASFARL1、L2 级攻击样本错误接受率
ASFARL2、L3 级攻击样本错误接受率ASFARL3 分配40%、40%、20%的权重,综合评价系统错误接受
率计算公式为ASFAR = ASFARL1 × 40% + ASFARL2 × 40% + ASFARL3 × 20%。鲁棒性性能计算公式为
ASAR = 1 − ASFAR × 100%。
━━━━━━━━━━
T/CFEII 0015.4—2023
6
附录A
(资料性)
违法信息和不良信息
违法信息指包含以下内容:
(一)反对宪法所确定的基本原则的;
(二)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的;
(三)损害国家荣誉和利益的;
(四)歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的
姓名、肖像、名誉、荣誉的;
(五)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动的;
(六)煽动民族仇恨、民族歧视,破坏民族团结的;
(七)破坏国家宗教政策,宣扬邪教和封建迷信的;
(八)散布谣言,扰乱经济秩序和社会秩序的;
(九)散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的;
(十)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益的;
(十一)法律、行政法规禁止的其他内容。
不良信息指包含以下内容:
(一)使用夸张标题,内容与标题严重不符的;
(二)炒作绯闻、丑闻、劣迹等的;
(三)不当评述自然灾害、重大事故等灾难的;
(四)带有性暗示、性挑逗等易使人产生性联想的;
(五)展现血腥、惊悚、残忍等致人身心不适的;
(六)煽动人群歧视、地域歧视等的;
(七)宣扬低俗、庸俗、媚俗内容的;
(八)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等的;
(九)其他对网络生态造成不良影响的内容。
T/CFEII 0015.4—2023
7
参考文献
[1] 网络信息内容生态治理规定(2019 年12 月15 日国家互联网信息办公室令第5 号公布)
[2] 网络音视频信息服务管理规定(2019 年11 月29 日国信办通字〔2019〕3 号公布)
评论