GB/T 45087-2024 人工智能 服务器系统性能测试方法 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L61
中华人民共和国国家标准
GB/T45087—2024
人工智能 服务器系统性能测试方法
Artificialintelligence—Performancetestingmethodsforserversystems
2024-11-28发布2024-11-28实施
国家市场监督管理总局
国家标准化管理委员会发布
目 次
前言………………………………………………………………………………………………………… Ⅲ
引言………………………………………………………………………………………………………… Ⅳ
1 范围……………………………………………………………………………………………………… 1
2 规范性引用文件………………………………………………………………………………………… 1
3 术语和定义……………………………………………………………………………………………… 1
4 缩略语…………………………………………………………………………………………………… 3
5 测试模式………………………………………………………………………………………………… 4
5.1 封闭模式…………………………………………………………………………………………… 4
5.2 开放模式…………………………………………………………………………………………… 4
6 训练性能测试…………………………………………………………………………………………… 4
6.1 测试过程…………………………………………………………………………………………… 4
6.2 训练测试要求……………………………………………………………………………………… 5
6.3 训练测试结果……………………………………………………………………………………… 6
6.4 测试场景…………………………………………………………………………………………… 7
6.5 测试场景配置要求………………………………………………………………………………… 11
6.6 指标项及测试方法………………………………………………………………………………… 12
6.7 训练用测试系统要求……………………………………………………………………………… 16
7 推理性能测试…………………………………………………………………………………………… 17
7.1 测试过程…………………………………………………………………………………………… 17
7.2 推理测试要求……………………………………………………………………………………… 17
7.3 推理测试结果……………………………………………………………………………………… 18
7.4 测试场景…………………………………………………………………………………………… 18
7.5 场景配置要求……………………………………………………………………………………… 24
7.6 指标项及测试方法………………………………………………………………………………… 24
7.7 推理用测试系统要求……………………………………………………………………………… 29
附录A (资料性) 人工智能服务器系统性能测试工具示例…………………………………………… 31
附录B(规范性) AUTOML训练测试要求…………………………………………………………… 32
B.1 训练要求…………………………………………………………………………………………… 32
B.2 训练结果日志要求………………………………………………………………………………… 32
附录C(规范性) 测试代码公开规则…………………………………………………………………… 33
C.1 通则………………………………………………………………………………………………… 33
C.2 训练测试代码公开规则…………………………………………………………………………… 33
C.3 推理测试代码公开规则…………………………………………………………………………… 33
附录D(资料性) 测试场景类型说明…………………………………………………………………… 35
D.1 图像识别…………………………………………………………………………………………… 35
Ⅰ
GB/T45087—2024
D.2 物体检测…………………………………………………………………………………………… 35
D.3 语义分割…………………………………………………………………………………………… 35
D.4 推荐………………………………………………………………………………………………… 35
D.5 自然语言处理……………………………………………………………………………………… 35
D.6 语音识别…………………………………………………………………………………………… 35
D.7 光学字符识别……………………………………………………………………………………… 36
D.8 人脸识别…………………………………………………………………………………………… 36
D.9 多模态……………………………………………………………………………………………… 36
附录E(资料性) 能效及效率指标项和测试方法……………………………………………………… 37
E.1 训练………………………………………………………………………………………………… 37
E.2 推理………………………………………………………………………………………………… 38
参考文献…………………………………………………………………………………………………… 40
Ⅱ
GB/T45087—2024
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本 文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、华为技术有限公司、浪潮电子信息产业股份有限公
司、英特尔(中国)有限公司、平头哥(上海)半导体技术有限公司、科大讯飞股份有限公司、新华三信息技
术有限公司、超威半导体产品(中国)有限公司、北京航空航天大学、中科寒武纪科技股份有限公司、南京
南瑞瑞腾科技有限责任公司、中国南方电网有限责任公司超高压输电公司、石化盈科信息技术有限责任
公司、中国电信股份有限公司广东研究院、上海燧原科技股份有限公司、中国科学院软件研究所、北京壁
仞科技开发有限公司、上海阡视科技有限公司、上海超级计算中心、上海文鳐信息科技有限公司、美的集
团(上海)有限公司、国科础石(重庆)软件有限公司、上海人工智能研究院有限公司、四川华鲲振宇智能
科技有限责任公司、深圳鲲云信息科技有限公司、中国铁建股份有限公司、中铁第五勘察设计院集团有
限公司、西南科技大学。
本文件主要起草人:董建、徐洋、张琦、王莞尔、曹晓琦、黄剑彬、梁朝明、鲍薇、吴韶华、王海宁、
林晓东、马珊珊、高慧、张艺伯、陶玉梅、杨雨泽、郑会平、刘如冰、李岚泊、纪拓、栾钟治、程归鹏、黄现翠、
牧军、石超、叶珩、王宁、刘东庆、李先绪、师春雨、梅敬青、孟令中、丁瑞全、程秋林、吴庚、郁华真、张丹丹、
仲凯韬、任沛、傅欣杰、胡艳玲、宋海涛、白士玉、刘东、栾丽红、李栋、郑中、俞文心。
Ⅲ
GB/T45087—2024
引 言
人工智能服务器系统包含人工智能服务器、集群和高性能计算设施等形态,是各类深度学习模型
(包含大规模预训练模型)训练和推理的核心载体,是各行业应用人工智能技术提高生产效率的核心工
具。人工智能服务器系统专为处理人工智能计算任务设计,在架构、运算方式和用途用法上,与通用服
务器系统有较大差别,其测试过程、负载和指标等,皆有独特性。本文件提出人工智能服务器系统性能
基准测试的方法,并对基准测试工具的功能和公平性提出要求。
本文件的发布机构提请注意,声明符合本文件时,可能涉及7.4.2、7.7.1与人工智能服务器系统性
能测试方法相关专利的使用。
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构承诺,他愿意同任何申请人在合理且无歧视的条款和条件
下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,相关信息可以通过以
下联系方式获得。
专利持有人:中国电子技术标准化研究院
地址:北京市东城区安定门东大街1号
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别专利的
责任。
Ⅳ
GB/T45087—2024
人工智能 服务器系统性能测试方法
1 范围
本文件界定了服务器系统性能测试模式,描述了人工智能服务器系统训练性能和推理性能测试
方法。
本 文件适用于人工智能服务器系统的性能测试与评价。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T41867—2022 信息技术 人工智能 术语
3 术语和定义
GB/T41867—2022界定的以及下列术语和定义适用于本文件。
3.1
被测系统 systemundertest
处理测试者给出的测试作业,并返回符合要求结果的系统。
注:被测系统由人工智能服务器系统硬件、算子实现库、机器学习框架软件、模型编译组件和其他必要软硬件组成。
3.2
被测者 testedparty
提供被测系统和测试信息,并协助测试实施的机构或个人。
3.3
参考模型 referencemodel
用于定义系统测试要求的标准化的模型。
[来源:ISO/IEC14776-414:2009,3.1.87,有修改]
3.4
计时 timing
获取并返回被测系统当前时间戳。
注:假设被测系统(3.1)各节点时间一致。
3.5
人工智能服务器 artificialintelligenceserver
信息系统中能为人工智能应用提供高效能计算处理能力的服务器。
注1:人工智能服务器含有专为人工智能计算设计的计算模块,为人工智能应用提供专用加速计算能力。
注2:以通用服务器为基础,配备人工智能加速卡后,为人工智能应用提供专用计算加速能力的服务器,称“人工智
能兼容服务器”。
注3:专为人工智能加速计算设计,提供人工智能专用计算能力的服务器,称“人工智能一体机服务器”。
[来源:GB/T41867—2022,3.1.3,有修改]
1
GB/T45087—2024
3.6
人工智能服务器集群 artificialintelligenceservercluster
由通过高速互联网络(或协议)连接的若干人工智能服务器组成,遵循统一控制和调度,对外提供人
工智能计算的系统。
注:简称“集群”。
3.7
人工智能服务器系统 artificialintelligenceserversystem
由人工智能服务器(含集群)和其他必要的计算、存储设备、操作系统等组成,承担人工智能运算任
务的计算系统。
3.8
测试数据 testdata
测试集 testdataset
用于测试最终机器学习模型功能的数据。
[来源:ISO/IEC22989:2022,3.2.14]
3.9
测试者 tester
组织、实施测试的机构或个人。
3.10
测试系统 testsystem
测试实验室执行测试方法所采用的硬件、软件和数据。
注:测试系统不是被测系统中的机器学习框架软件或加速库。
[来源:GB/T16656.34—2002,3.5.9,有修改]
3.11
作业 job
含有测试样本的数据包。
注1:1个作业通常含有1个或多个测试样本。
注2:1次测试任务至少含有1个作业。
3.12
性能 performance
人工智能服务器系统运行计算任务时可被测量的特性。
注:性能通常基于1个或多个参数(如时间、功耗、实际吞吐率、资源利用率、弹性、承压力和视频分析最大路数等)
的测试或计算获得,以表示在某机器中运行的某技术过程的行为、特性和效率。
3.13
训练数据 trainingdata
训练集 trainingdataset
用于训练机器学习模型的输入样本子集。
[来源:ISO/IEC22989:2022,3.3.16]
3.14
验证数据 validationdata
验证集 validationdataset
用于验证机器学习模型训练效果的输入样本子集。
[来源:ISO/IEC22989:2022,3.2.15,有修改]
2
GB/T45087—2024
3.15
布瑞恩浮点数 brainfloating-point
包含1位符号、8位指数和7位尾数的浮点数表示方式。
注:与FP32(8个指数位和23个小数位)能表达的范围大小相同,比FP16(5个指数位、10个小数位)能表示的范围
更大,不易发生数值上溢或下溢,更适合大模型的训练和推理。
3.16
节点 node
人工智能服务器系统中,能独立完成训练或推理计算,且其性能参数能被独立计量的组件。
3.17
试验次数 numberofroundsforatest
按试验的要求,完成相同试验过程或重复处理相同数据的次数。
注:训练测试中,试验次数是从模型的初始化状态训练模型达至准确率门限或训练执行的训期数量(含使用验证集
获得准确率)。
3.18
训期 epoch
引入到神经网络中的训练模式序列。
注1:训练过程完整遍历1次训练集即1个训期。
注2:对分布式训练,所有训练节点的本地训练过程遍历处理1遍本地训练集,为1个训期。
[来源:GB/T5271.34—2006,34.03.19,有修改]
3.19
性能指标 performanceindicator
用于评估人工智能服务器系统实现效果的度量。
注:本文件中,在不引起误解的语境中,将人工智能服务器系统性能指标简称为“指标”。
[来源:GB/T22454—2008,3.1.62,有修改]
3.20
语素 token
用于表示文本数据的最小单位。
注:如单词、词组或字符。
[来源:ISO23952:2020,3.3.11,有修改]
4 缩略语
下列缩略语适用于本文件。
AUC:曲线下面积(AreaUnderCurve)
AUTOML:自动机器学习(AutomatedMachineLearning)
BF16:布瑞恩浮点数(BrainFloating-point)
BLEU:双语评估替换(BilingualEvaluationUnderstudy)
CPU:中央处理器(CentralProcessingUnit)
FP16:半精度浮点数(Half-precisionFloating-pointFormat)
FP32:单精度浮点数(Single-precisionFloating-pointFormat)
FP64:双精度浮点数(Double-precisionFloating-pointFormat)
GPU:图形处理器(GraphicsProcessingUnit)
ID:序号(IdentityDocument)
INT4:4位整型数(4-bitInteger)
3
GB/T45087—2024
INT8:8位整型数(8-bitInteger)
mAP:平均准确率均值(MeanAveragePrecision)
mIOU:平均交并比(MeanIntersectionOverUnion)
NFS:网络文件系统(NetworkFileSystem)
NPU:人工智能加速器(NeuralProcessingUnit)
OCR:光学字符识别(OpticalCharacterRecognition)
PCIe:外围组件互连快速总线(PeripheralComponentInterconnectExpress)
SUT:被测系统(System UnderTest)
TF32:张量单精度浮点数(TensorFloating-point)
UINT4:4位无符号整型数(4-bitUnsignedInteger)
UINT8:8位无符号整型数(8-bitUnsignedInteger)
WER:错词率(WordErrorRate)
5 测试模式
5.1 封闭模式
5.1.1 封闭模式训练测试
给定训练集、目标模型结构和精度,在被测人工智能服务器系统上,运行建模和优化算法得到目标
模型,结果应符合精度和给定测试集上的准确率要求。
5.1.2 封闭模式推理测试
给定模型(参考实现)、精度和测试集,在被测人工智能服务器系统上,运行模型定义的推理过程,输
出推理结果,结果应符合精度和给定测试集上的准确率要求。
5.2 开放模式
5.2.1 开放模式训练测试
给定训练集和精度,被测者选择模型、数据预处理方式及算法优化策略,在被测人工智能服务器系
统实施训练,结果应符合精度和给定测试集上的准确率要求。
5.2.2 开放模式推理测试
给定测试集,被测者提供已训练好的模型,在被测人工智能服务器系统运算并输出推理结果,结果
应符合精度和给定测试集上的准确率要求。
6 训练性能测试
6.1 测试过程
训练测试过程包含以下步骤。
a) 信息准备,被测者应向测试者提供测试信息,包含但不限于以下内容:
1) 组织名称或个人姓名;
2) 测试ID(用于标识测试);
3) 测试模式(0表示封闭模式、1表示开放模式);
4
GB/T45087—2024
4) 通用场景或专用场景(0表示通用、1表示专用);
5) 任务类型(0表示推理、1表示训练);
6) 数据集类型(0表示固定数据集、1表示随机数据集);
7) 随机数据集用于(重)训练的训期数(零次样本0-zeroshot,单样本1-oneshot,少样本Nfewshot);
8) 模型序号(对封闭模式有效,开放模式时提供模型名和版本号);
9) 提交时间(格式为[yyyy:MM:ddHH:mm:ss]);
10) 测试对象类型(0表示单机、1表示集群/计算中心);
11) 节点数(当“测试对象类型”不为“0”时有效);
12) 每台服务器信息[型号;标称计算能力;实施人工智能加速卡或加速芯片的数量;CPU 型
号、核数、主频;CPU 路数;加速卡信息(推理卡、训练卡或训推一体卡,是否需外接电源
和接口类型);存储信息(存储设备接口类型、协议、数量和总容量);内存信息(型号、条
数、单条容量和总容量);总线信息(PCIe协议版本和接口形态如x4、x8或x16)];
13) 节点间通信协议和带宽;
14) 节点间组织关系(0表示单节点、1表示主从、2表示环形、3表示树状、4表示其他);
15) 操作系统信息(名称、内核版本号);
16) 机器学习框架信息(名称、版本号);
17) 是否应用虚拟化技术(0表示不使用、1表示使用);
18) 虚拟化组件信息(名称、版本号);
19) 批大小可变标识(0表示不可变、1表示可变);
20) 批大小的值(正整数,当不为0时有效);
21) 优化器声明(算法名);
22) 是否混合精度训练(0表示不使用、1表示使用,附加精度列表);
23) 是否使用AUTOML完成测试(0表示不使用、1表示使用,附加AUTOML算法名称);
24) 是否使用并行训练完成测试(0表示不使用、1表示模型并行、2表示数据并行、3表示混
合并行、4表示其他并行算法并附加算法名称);
25) 并行训练时,是否采用异步参数更新[0表示不使用(即同步参数更新)、1表示使用]。
b) 数据准备,被测者于测试前,取得训练集和验证集;如需要,被测者可对数据进行必要的格式
转化或封装。
c) 测试运行,被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、
结果模型格式转化与持久化),得到结果模型;训练期间记录过程数据,计算指标值,记录日
志,生成结果信息。
d) 结果报送,被测者发送训练结果给测试者。
e) 结果审核,训练测试结果应符合6.3的要求。
6.2 训练测试要求
训练测试符合以下要求。
a) 训练测试不应实施以下操作:
1) 在测试过程中进行硬件或软件改配;
2) 使用本文件规定之外的训练集进行模型训练,实施模型预训练和迁移学习策略(大模型负
载除外,按表1和表12的规定执行预训练或迁移学习);
3) 训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载
(要求被测者实现的方法除外);
5
GB/T45087—2024
4) 在数据准备过程中:替换数据集;减少数据集中的样本(封闭模式有效,除不足1 批的残
余数据之外);除6.2d)规定的操作生成的样本外,增加数据集中的样本(封闭模式有效);
分析数据规律或预先提取、编码和保存样本特征(封闭模式有效);对数据做排序、索引或
拆分操作(封闭模式有效);
5) 在训练过程中改变指定的优化方法(封闭模式有效)。
b) 应编制并运行的训练测试代码:实现必要接口(如日志报送接口,准确率计算接口等),以采集
用于计算6.6中指标项的参数值。
c) 测试应使用工具进行日志记录、数据采集、指标项计算,人工智能服务器系统性能测试工具示
例见附录A。
d) 数据准备时:训练数据规格不同或不符合模型需要时,可实施规格调整操作;在不改变输入图
像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不限于线性插值、双线性插值和
区域插值等;训练集、验证集和测试集的划分比例,默认为75%、10%和15%。
e) 训练过程中:可使用可变学习率,学习率改变方法由训练算法确定;权重和偏置应以常量或随
机值初始化;试验次数应符合场景要求。
f) 实施分布式训练时:可使用并行训练,方式可包含但不限于模型并行、数据并行和混合并行;可
使用分布式文件系统(如NFS)或存储服务器存放或使用训练数据。
g) 使用AUTOML训练的还应符合附录B的B.1的要求。
6.3 训练测试结果
训练测试结果符合以下要求。
a) 训练结果模型与参考模型一致,训练结果模型精度应符合表1和表3的要求,loss(损失函数)
曲线应按预期保持收敛趋势。
b) 封闭模式下,训练模型脚本与参考模型脚本(见表1和表3)应符合一致的网络结构,训练模型
脚本不应导致以下情况的发生:
1) 多余或缺失的层;
2) 多余或缺失的神经元;
3) 改变的激励函数(对应层之间);
4) 多余或缺失的跨层连接;
5) 改变的池化方法(对应层之间)。
c) 结果应包含以下信息:
1) 6.1要求的配置信息;
2) 测试场景要求的指标(见表1和表3);
3) 训练测试代码公开规则应符合附录C的要求;
4) 训练日志(非AUTOML训练),日志应按每个训期输出,每个训期对应的格式为:[yyyy:
MM:dd HH:mm:ss]-[trial_number]-[epoch_number]-[accuracy],其中:
———[yyyy:MM:dd HH:mm:ss]:日志输出时的时间戳;
———[trial_number]:(训练)试验次数,取值为正整数,不满1次完整训练的记录为1;
———[epoch_number]:训期数,取值为正整数;
———[accuracy]:当前测试集上的准确率,当机器学习框架无法实现训期结束时输出准确
率时,则记录为“--”,但训练退出前应输出准确率。
注:机器学习框架软件无法实现时,对应项目记录为“--”。
5) 结果模型文件(含权重和结构信息;AUTOML训练为最终结果模型文件)。
d) AUTOML训练的日志应符合B.2的要求。
6
GB/T45087—2024
6.4 测试场景
6.4.1 通用测试场景
6.4.1.1 通用封闭模式测试应从表1所列测试场景中选择,测试场景类型说明见附录D。
表1 通用训练性能测试场景(封闭模式)
序号类型场景说明
1 图像识别
模型Resnet50_v1.5
数据集a Imagenet2012
门限b Top1-准确率>74%
优化方法SGD+Momentum
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数Softmax+Cross-EntropyLoss
2 图像识别
模型Inceptionv3
数据集a Imagenet2012
门限b Top1-准确率>78.06%
优化方法Adam
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数Cross-EntropyLoss
3 语义分割
模型Deeplab_v3c
数据集a Cityscapes
门限b mIOU>77.98%
优化方法Adagrad
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数Pixel-wisesoftmax+Cross-EntropyLoss
4 语音识别
模型Wav2vec2_0
数据集a Aishell-1
门限b WER<5.5%
优化方法Adam
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数CTCLoss
5 推荐
模型Wide&deep
数据集a Criteo(KaggleDisplayAdvertisingChallengeDataset)
门限b AUC>72%
7
GB/T45087—2024
表1 通用训练性能测试场景(封闭模式)(续)
序号类型场景说明
5 推荐
优化方法Wide:FTRL;Deep:Adagrad
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数Logisticloss
Labelsmoothedcrossentropyloss
6 推荐
模型DLRM
数据集a Criteo(1TBClickLogs)
门限b AUC>0.8025
优化方法SGD
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数BCELossc
7 物体检测
模型Yolo5s-6-0
数据集a Coco2017
门限b mAP@0.5:64.2%
优化方法SGD
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数CIoUc+BCEWithLogitsLoss
8 自然语言处理
模型Bert-largec,d
数据集a En-wiki
门限b Mask_lmaccuracy>0.7
优化方法Lamb
试验次数5次
结果模型精度FP16/FP32/BF16
损失函数Softmax+Negativemaximumlikehoodloss
9 自然语言处理
模型GLMv26B
数据集a
微调任务:ADGEN
预训练任务:En-wiki
测试终止条件2000个step
优化方法Adam
试验次数3次
结果模型精度FP16/FP32/BF16
损失函数Crossentropy
8
GB/T45087—2024
表1 通用训练性能测试场景(封闭模式)(续)
序号类型场景说明
10 自然语言处理
模型LLaMa2-13B
数据集a
微调任务:Moss
预训练任务:En-wiki
测试终止条件2000个step
优化方法Adam
试验次数3次
结果模型精度FP16/FP32/BF16
损失函数Crossentropy
11 自然语言处理
模型LLaMa2-70B
数据集a
微调任务:Moss
预训练任务:En-wiki
测试终止条件200个step
优化方法Adam
试验次数3次
结果模型精度FP16/FP32/BF16
损失函数Crossentropy
12 多模态
模型StableDiffusionv2.1
数据集a
微调任务:Pokemon
预训练任务:LAION-5B
测试终止条件2000个step
优化方法AdamW
试验次数3次
结果模型精度FP16/FP32/BF16
损失函数MSE
注:“/”表示“或”。
a 训练数据的格式,没有统一限定,被测者可根据本地系统组成实施必要的格式转换,格式转换过程不应改变数
据的值(如图像像素值),数据格式转换过程不计时。
b 门限为参考值,测试实施时可作调整,在多系统对比测试时应使用相同门限值。
c Bert-large测试项中,Sequence-length=512。
d 测试终止条件为参考值,测试实施时可作调整,在多系统对比测试时应使用相同测试终止条件。
6.4.1.2 通用开放模式测试应从表2所列测试场景中选择,测试场景类型说明见附录D。
9
GB/T45087—2024
表2 通用训练性能测试场景(开放模式)
序号类型场景说明
1 图像识别
数据集Imagenet2012
门限a Top1-准确率>75%
结果模型精度FP16/FP32
2 物体检测
数据集Coco2017
门限a mAP>35%
结果模型精度FP16/FP32/BF16
3 语义分割
数据集Coco2017
门限a mIOU>85%
结果模型精度FP16/FP32/BF16
4 推荐
数据集Criteo(KaggleDisplayAdvertisingChallengeDataset)
门限a AUC>72%
结果模型精度FP16/FP32/BF16
5 推荐
数据集Criteo(1TBClickLogs)
门限a AUC>0.8025
结果模型精度FP16/FP32/BF16
6 自然语言处理
数据集WMT18英->德、英->中
门限a BLEU>24%
结果模型精度FP16/FP32/BF16
7 自然语言处理
数据集Cn-wiki
门限a Mask_lmaccuracy>0.7
结果模型精度FP16/FP32/BF16
8 语音识别
数据集Aishell-1
门限a WER<5.5%
结果模型精度FP16/FP32/BF16
注:“/”表示“或”。
a 准确率门限,按封闭模式场景定义,在测试时可由测试者调整或确定指标和取值。
6.4.2 专用测试场景
6.4.2.1 专用封闭模式测试应从表3所列测试场景中选择,测试场景类型说明见附录D。
10
GB/T45087—2024
表3 专用训练性能测试场景(封闭模式)
序号类型场景说明
1 OCR(无预分割)
模型DBNET
数据集a Icdar2015
优化方法BalanceCrossEntropyLoss+MaskL1Loss+DiceLoss
门限Precision>0.896
试验次数5次
结果模型精度FP16/FP32/BF16
2 人脸识别
模型FaceNet
数据集a LFW
优化方法Lars/SGD+Momentum
试验次数5次
结果模型精度FP16/FP32/BF16
3 语音识别
模型Conformer(ESPnet2)
数据集a Aishell-1
优化方法SGD+Momentum
试验次数5次
门限Precisionoverall:95.02%
优化方法CTCloss+attentionloss(LabelSmoothingLoss)
结果模型精度FP16/FP32/BF16
注:“/”表示“或”。
a 训练数据的格式,没有严格的限定,被测者可根据本地机器学习框架进行格式转换,格式转换过程不应改变数
据的值(如图像像素值),数据格式转换过程不计时。
6.4.2.2 专用开放模式测试应从表4所列测试场景中选择,测试场景类型说明见附录D。
表4 专用训练性能测试场景(开放模式)
序号类型场景说明
1 无预分割(OCR)
数据集Icdar2015
结果模型精度FP16/FP32/BF16
2 人脸识别
数据集LFW
结果模型精度FP16/FP32/BF16
注:“/”表示“或”。
6.5 测试场景配置要求
针对测试目标的不同,训练性能测试分为通用测试和专用测试:
a) 通用测试是指针对共性问题,使用公共可获得的模型和数据集,完成训练测试;
11
GB/T45087—2024
b) 专用测试是针对行业领域问题,使用专用模型和数据集,完成训练测试。
训练测试场景可变要素配置要求见表5。
表5 训练测试场景可变要素配置要求
可变要素通用封闭通用开放专用封闭专用开放
训练集不可变不可变不可变可变
验证集不可变不可变不可变不可变
测试集不涉及不涉及不涉及不涉及
数据预处理不可变自选或可变不可变自选或可变
训练过程中数据预处理(训练算法自带) 不可变自选或可变不可变自选或可变
模型结构不可变自选或可变不可变自选或可变
优化方法不可变自选或可变不可变自选或可变
目标模型精度不可变不可变不可变自选或可变
机器学习框架自选或可变自选或可变自选或可变自选或可变
混合训练精度不可变自选或可变不可变自选或可变
6.6 指标项及测试方法
6.6.1 通则
人工智能服务器系统训练性能测试:
a) 时间(见6.6.2)和实际吞吐率(含有效计算能力,见6.6.4)为基础性能指标项;
b) 功耗(见6.6.3)和资源利用率(见6.6.5)表示训练代价;
c) 能效及效率指标项和测试方法见附录E的E.1。
6.6.2 时间
时间单位为毫秒(ms)。训练时间指标项和测试方法见表6,时间采集点见图1。
表6 训练时间指标项和测试方法
指标项测试方法说明
总体训练用时(TT)a
a) 在读入训练数据命令前,紧邻该命令计时,获得时间点tS;
b) 在输出模型持久化完成后,串行并紧邻调用计时命令,获
得时间点tE
c) 计算总体训练时间:TT=tE-tS
从训练开始读入数据,到模
型训练完毕且完成在非电
易失性存储器上的持久
化,所使用的总时长
数据读入用时(TL)b
a) 在读入训练数据命令前,紧邻该命令计时,获得时间点
tL1,tL1可等于tS;
b) 在训练数据读取完成时,串行并紧邻调用计时命令,获得
时间点tL2;
c) 计算数据读入时间:TL=tL2-tL1
为训练目的,训练数据被读
入加速器内存(使用通用计
算环境时,加速器缺少或不
配置存储时,可为主存),达
至可用状态,所使用的时间
12
GB/T45087—2024
表6 训练时间指标项和测试方法(续)
指标项测试方法说明
训练启动用时(T W )
a) 训练开始前,串行并紧邻调用计时命令,获得时间点tW1;
b) 在每个加速器进入训练状态时,取时间点,直到最后一个
加速器进训练状态,获得时间点tW2;
c) 计算训练启动用时:T W =tW2-tW1
多加速器训练时,从训练开
始指令到所有加速器都被
分配并开始执行训练任务
所经历的时长
训练用时(TTR)c,d
a) 训练开始前,串行并紧邻调用计时命令,获得时间tTR1,
tTR1可等于tW1;
b) 训练退出时,串行并紧邻调用计时命令,获得时间点tTR2;
c) 计算训练用时:TTR=tTR2-tTR1
从训练开始命令调用到训
练退出之间的时间间隔
第i 个(i 为正整数)
训期运行用时
[TEP(i)]
a) 第i 个训期开始前,串行并紧邻调用计时命令,获得时
间tEP(i)-1;
b) 第i 个训期结束后,串行并紧邻调用计时命令,获得时
间tEP(i)-2;
c) 第i 个训期用时:TEP(i)=tEP(i)-2-tEP(i)-1
训练过程第i 次遍历(使用)
训练集所用的时间
第j 次(j 为正整数)
验证用时[TV(j)]
a) 第j 次验证开始前,串行并紧邻调用计时命令,获得时
间tV(j)-1;
b) 第j 次验证结束后,串行并紧邻调用计时命令,获得时
间tV(j)-2;
c) 第j 次验证用时:TV(j)=tV(j)-2-tV(j)-1
第j 次使用验证数据集试
运行当前模型,得出当前模
型准确率等指标值的过程
模型格式转化用时
(TCV)
a) 模型格式转化前,串行并紧邻调用计时命令,获得时
间tCV1;
b) 模型转化完毕后,串行并紧邻调用计时命令,获得时
间tCV2;
c) 模型格式转化用时:TCV=tCV2-tCV1
训练完毕后,将结果模型转
化为要求格式所耗费的
时间
模型持久化用时
(TP)
a) 模型持久化前,串行并紧邻调用计时命令,获得时间tP1;
b) 模型持久化后,串行并紧邻调用计时命令,获得时间tP2;
c) 模型持久化用时:TP=tP2-tP1
将加速器内存中的模型读
出,并完整写入非电易失性
存储所用的时间
节点间通信时延
(TNC)
a) 在发送数据前,串行并紧邻调用计时命令,获得时间tNC1;
b) 在完整接收数据后,串行并紧邻调用计时命令,获得时
间tNC2;
c) 节点间通信时延TNC=tNC2-tNC1
源节点开始发送数据至目
标节点完全接收数据的
用时
注:假设训练数据已封装为机器学习框架能处理的格式。
a 数据并行时,数据读入用时为数据读入开始至所有工作节点都完整获得所需数据的总用时(含网络传输用时)。
b 数据读入过程可伴随训练同步发生,时间计入训练用时。
c 训练任务的用时包含数据预处理用时。
d 受测系统无法统计的时间,不作要求。
13
GB/T45087—2024
注1:训练时间按“训练用时”计。
注2:数据读入过程可伴随训练同步发生。
注3:训期表示讲训练数据集中的所有样本都处理一遍的训练过程。
图1 训练时间序
6.6.3 功耗
训练功耗单位为瓦(W)。训练功耗指标项和测试方法见表7。
表7 训练功耗指标项和测试方法
指标项测试方法说明
人工智能服务器单机训
练平均功率
a) 在SUT,配套使用功率计;
b) 在训练用时中(见图1),周期性测试整机的负载
功率(每秒采样1次),并求均值PTR
单台人工智能服务器在某次训
练用时内(TTR)的平均功率
人工智能服务器单机训
练瞬时峰值功率
a) 在SUT,配套使用功率计;
b) 在训练过程中,周期性测试整机的负载功率(每
秒采样1次),记录最大负载功率计量值PTRmax
单台人工智能服务器在某次训
练全程(TTR)中,服务器正常工
作状态下的最大瞬时功率
人工智能服务器集群训
练平均功率
a) 在SUT各服务器配套使用功率计;
b) 按单机训练平均功率测试方法实施,测得每服务
器i(i 为正整数)的平均功率PTR-i;
c) 求和得到集群平均功率:
PCTR=ΣiPTR-i
人工智能服务器集群,在某次训
练全程(TTR)中的平均功率
6.6.4 实际吞吐率
实际吞吐率代表人工智能服务器系统对特定训练作业的有效计算能力,提高有效计算能力可达到
硬件系统扩容的同样效果。对视觉类测试,单位为图片数每秒(图片数/s);对自然语言处理类测试,单
位为句数每秒(句数/s);对自然语言语句生成类测试,定长输入(句中单词或字的个数)或输出条件
下,单位为语素数每秒(语素数/s)。训练实际吞吐率指标项和测试方法见表8。
14
GB/T45087—2024
表8 训练实际吞吐率指标项和测试方法
指标项测试方法说明
人工智能服务器训练实
际吞吐率(Th)
a) 统计每个训期i(i 为正整数)所使用的时间TEP(i);
b) 基于a)的结果,统计每训期平均用时TEP;
c) 计算训练实际吞吐率a:
Th=numberof(训练集)
TEP
对文本生成类的训练负载,训练实际吞吐率为:
Th=numberoftokens(训练集)
TEP
人工智能服务器集群训
练实际吞吐率(Thn )
a) 在集群每个节点n(n 为正整数)上,计算该节点训练吞
吐率Thn ;
b) 计算集群训练实际吞吐率(ThCL)a:
ThCL=ΣnThn ;
人工智能服务器系统在
训练过程中,每个训期处
理的数据量与时间的
比值
人工智能服务器系统训
练有效计算能力(人工智
能服务器系统训练吞吐
率综合加速比)(Th)
a) 对于给定的训练场景集合S,对每个场景负载s∈S,使
用某特定参照计算系统,在s 上测得吞吐率Ths*,作为
基线;
b) 设SUT在s 上测得的训练实际吞吐率为Ths,则训练综
合相对吞吐率,由Ths
Ths*
在s 上的加权几何平均计算,其中
τs 表示每个场景负载s 所对应的加权值(0~1区间),用
来表示不同任务场景的价值权重的差异,全集S 对应的
所有τs 累加求和为1,α 为调整系数(α>0,α∈R+ ),默
认为100.0:
Th=α·Στs Πs
Ths
Ths* ( )τs
人工智能服务器系统在
给定任务集合S 上,实际
吞吐率与每任务基线吞
吐率之比的加权几何
平均b
a numberof(·)表示计量特定数据集合所含样本的数量,numberoftokens(·)表示计量特定数据集合所含的语素
数量。
b 基线吞吐率是参考计算系统在特定场景上的吞吐率,τ、α和参照计算系统由测试者按实测需求确定。
6.6.5 资源利用率
资源利用率包含加速器利用率(%)。训练资源利用率指标项和测试方法见表9。
15
GB/T45087—2024
表9 训练资源利用率指标项和测试方法
指标项测试方法说明
人工智能服务器加速器
资源利用率a
人工智能服务器集群加
速器资源利用率a
a) 在每个训期i 内(假设一次训练过程有I 个训期),对
每个加速芯片k(假设有K 个加速芯片),采样N 次
使用率pk-n (i,k,N ,n,K ,I 为正整数,N ≥3,0≤
pk-n <1,为正实数,精确到0.01);
b) 对每个加速芯片k,求出在i 的平均利用率:
pk-i=ΣN
npk-n
N
c) 对每个训期i,求出多芯片平均利用率(如K =1,本步
骤忽略):
pi=ΣK
kpk-i
K
d) 对所有训期求平均,得出训练阶段人工智能服务器加
速器资源利用率
训练期间(TTR),服务器上
所有指定参与训练任务的
加速芯片的平均利用率
训练期间(TTR),服务器集
群上所有指定参与训练任
务的加速芯片的平均利
用率
a 数据传输芯片利用率不含在加速器资源利用率计算范围内。
6.7 训练用测试系统要求
6.7.1 功能要求
测试系统功能符合以下要求。
a) 能自动检测或手动写入被测系统软件和硬件信息,符合6.1的要求。
b) 能使用机器学习框架、被测系统提供的使能软件函数库和其他必要信息,完成6.6要求指标项
的测试,提供指标项计算函数。
c) 至少能实施6.4.1要求的场景的测试;对6.4.2要求的场景,可实施改配或必要编码。
d) 至少实现以下计算精度中的一种:
1) FP64;
2) FP32;
3) TF32;
4) FP16;
5) BF16;
6) INT8;
7) UINT8;
8) INT4;
9) UINT4。
e) 实现配置了容器或使用虚拟化组件的人工智能服务器系统的性能测试。
f) 测试完成后能完全卸载,不残留任何测试组件(不含测试数据)。
g) 提供日志函数,日志所含内容及格式符合6.3c)4)的要求。
h) 实现测试者对测试过程的管理和监测,包含但不限于:
1) 训练过程子阶段开始或完成事件,包含训练测试开始,每次训练的开始和结束,训练测试
整体进度,训练测试整体进度,训练测试结束和训练结果上传完成;
2) 训练结果信息,符合6.3c)的要求;
16
GB/T45087—2024
3) 测试者对重测的允许和次数控制;
4) 能提供证据辅助测试者实施训练结果的有效性判定,或自动判定。
i) 在提前获得测试项目授权后,被测者可在测试期内的任意时间发起测试。
j) 可为不同测试项维护独立的训练结果目录。
k) 可实现本地测试(测试者不介入的测试,如预测试或系统调试等)和网络测试(测试者介入)。
6.7.2 公平性保障要求
测试系统应提供方案和实现保障公平性:
a) 防止对指标项计算函数的修改;
b) 防止测试时对指标计算函数的替代使用;
c) 防止在训练结果上传前对训练结果的修改;
d) 防止在测试开始后,结果上传完毕之前对测试代码的修改;
e) 防止除测试系统外的其他进程向被测者传输训练过程和训练结果;
f) 实施网络测试时,关于测试者授权的鉴别;
g) 测试过程中测试者与被测者通信的加密,信息完整性检查。
7 推理性能测试
7.1 测试过程
推理测试过程含以下步骤。
a) 信息准备,被测者应向测试者提供6.1a)1)~20)及以下内容:
1) 是否使用稀疏化(0表示不使用、1表示使用,附加方法名称);
2) 是否使用量化(0表示不使用、1表示使用,附加量化方法名称)。
b) 测试准备,被测者向测试者发送测试请求,取得测试集;测试者指定测试数据集,告知获取方
法;被测系统下载数据集,检验合规性。
c) 测试运行,被测者按测试内容,载入模型(可预先准备好)和数据集;被测者运行测试;记录过程
数据,计算指标值;结果合规性检查。
d) 结果报送,被测者发送推理结果给测试者。
e) 结果审核,推理结果应符合7.3的要求。
7.2 推理测试要求
推理测试过程,符合以下要求。
a) 合规性要求:
1) 推理测试源码:应实现必要接口(数据准备、输入和输出);应使用测试系统提供的指标计
算方法;应使用测试系统提供的日志记录方法;不应对已实现的指标测试函数或测试流程
控制函数实施改动、继承或重载(要求被测者实现的函数或接口除外);
2) 测试应使用工具进行日志记录、数据采集、指标项计算,人工智能服务器系统性能测试工
具示例见附录A;
3) 推理过程:模型编译或部署时,不应使用其他模型替换测试模型;测试前,除数据集封装格
式转化外,不应浏览或记录数据、修改数据(非预处理)、浏览数据或复制数据,不应分析、
提取或缓存数据特征;
4) 测试过程中,不应使用推理测试进程之外的任何进程,修改或记录日志;不应使用推理测
试进程之外的任何进程,存取测试输入或输出数据;不应缓存或复用输入、输出和过程(预
17
GB/T45087—2024
处理结果或后处理输入)数据;不应修改内存中模型参数;不应保存或缓存后处理过程输
入数据;不应记录、分析或使用作业到达模式来预测某时段内的作业量;不应根据测试过
程中的准确率、丢失率等指结果,故意忽略待处理数据。
b) 封闭模式推理时,模型压缩,不应实施以下操作:
1) 删除非零权重;
2) 使用剪枝或其他改变模型结构的方法;
3) 实施模型蒸馏。
c) 封闭模式推理时,模型量化符合以下要求:
1) 不同场景下量化的模型对象应与表11一致;
2) 量化结果不应出现7.2a)3)列出的情况。
d) 推理精度应符合表11~表14的要求。
e) 应声明推理所用批大小的信息,符合6.1a)20)的要求。
7.3 推理测试结果
推理测试结果应包含以下信息:
a) 7.1a)规定的配置信息;
b) 推理作业到达模式编号(见表10);
c) 推理使用的实际精度;
d) 场景要求的指标值(见表11和表13);
e) 推理测试代码公开规则符合附录C的要求;
f) 推理日志,日志周期性输出,每条日志的格式为[yyyy:MM:ddHH:mm:ss]-[accuracy]-[已
处理作业数]-[已处理样本数]-[样本丢失数],其中:
1) 第一项为本条日志输出时的时间戳;
2) 第二项为当前累计的准确率;
3) 第三项为当前已返回结果的作业数;
4) 第四项为当前已返回结果的样本数;
5) 第五项为当前未能在超时范围内处理的样本数,即丢失样本数。
7.4 测试场景
7.4.1 推理作业要求
推理作业应符合以下要求:
a) 作业从测试系统发往被测系统,结果从被测系统发送回测试系统;
b) 每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;
c) 推理作业采用特定的到达模式,符合7.4.2的要求;
d) 作业丢失指被测系统无法在超时控制门限内返回结果的情况;
e) 超时控制门限指测试者从发送作业到收到对应结果之间允许的最大时间间隔;
f) 按特定推理测试负载的要求,单个样本包含视觉、自然语言和声音等1个或多个模态的数据;
g) 使用多模态场景负载测试时,按推理负载的定义,将每个样本按模态占比分为输入和期望的
输出;
h) 零次样本(zero-shot)推理,使用随机数据集(生成方法见7.4.3);
i) N 次样本(N-shot,N 是自然数)推理(包含单样本或少样本的情况),使用随机数据集训练模
型N 个训期后,执行推理测试。
18
GB/T45087—2024
7.4.2 推理作业到达模式
推理作业到达模式应从表10中选择。
表10 推理作业到达模式
到达
模式
编号作业发送方法
作业
可缓存
(是/否)
运行次数
(次)
超时
控制门限1
(s)
超时
控制门限2a
(s)
连续(单一)
到达0
第i (i 为正整数)个作业在第(i-1)
个作业完成后紧邻到达。作业
(i-1)未完成或超时控制门限未达
到时,作业i 不发送
否1 2 10
固定周期到达1 作业以固定周期(T )到达,一次到
达n 个作业(n 为正整数) 是1 4 20
泊松分布到达2
作业以泊松分布到达:
P(X =k)=e-λλk
k!
式中:
k ———某单位时间内到达的作业
数,k 为正整数;
λ ———是单位时间(如每秒)作业平均
到达次数,λ 为正整数
是1 4 20
高峰
到达3
泊松分布到达模式中,有j 个短周
期,每周期内有突发性大量作业,周期
持续一定时长TG(如5s~10s),并维
持一定并发度水平σ(σ 为正整数,如
σ>210个作业/s),短周期内的作业到
达,符合固定周期到达模式(T 与n 可
在测试时结合需要选取)
是1 60 240
离线4 一次性全部到达是1 不涉及不涉及
混合作业到达5
在连续到达、固定周期到达、泊松分
布到达、高峰到达或离线到达模式
中,加入与当前测试场景不同的作业
是1 取对应超时
控制门限值
取对应超时
控制门限值
achatGLM V26B、Llama213B、GLM130B和StabdiffusionV2.1符合超时控制门限2,其余模型符合超时控制门
限1。
7.4.3 随机数据集生成方法
推理测试使用随机数据集时,应按以下方法生成:
a) 建立空数据集D ;
b) 建立空样本d;
c) 按7.4.4的规定生成特定模态的数据1个,加入d;
d) 如随机数据集含多模态样本,基于c)的结果生成所需模态的数据,加入d;
19
GB/T45087—2024
e) 如模态要求不符合,则选择模型并重复执行c);如已符合模态要求,则将样本d 加入数据
集D ;
f) 如数据集的样本数量不符合要求,执行b);如已符合要求,返回数据集D 。
7.4.4 模态数据生成方法
7.4.4.1 自然语言语句生成方法
按以下方法生成自然语言语句:
a) 生成最大M 个(M 为自然数)随机的名字或动词,作为关键词;
b) 利用关键词,使用特定模型(按测试需要选择)生成包含L 个词(L 为自然数,L>M )的句子。
7.4.4.2 图像生成方法
按以下方法生成图像数据。
a) 按7.4.4.1生成自然语言语句,以语句为输入,使用特定图像生成模型(按测试需要选择)生成
图像。
b) 使用自然语言语句的关键字(名词)作为图像类别。
c) 以图像生成相似图像时,使用特定图像数据集和特定图像生成模型(按测试需要选择)生成图
像,使用表11中resnet50_v1.5将原图与生成图像归类并筛选同类图像,作为相似图像。必要
时,可再由人工抽检并标注所生成图像与原图的相似性。
7.4.5 通用测试场景
7.4.5.1 通用封闭模式测试应从表11所列测试场景中选择,测试场景类型说明见附录D。
表11 通用推理性能测试场景(封闭模式)
序号类型场景说明
1 图像识别
模型inception_v3
测试集来源imagenet2012
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,
Top1-准确率>77.3%
2 图像识别
模型resnet50_v1.5
测试集来源imagenet2012
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,
Top1-准确率>74%
3 物体检测
模型yolo_v5s-6-0
测试集来源coco2017
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到
达,mAP@0.5>55.9%
4 语义分割
模型deeplab_v3
测试集来源coco2017
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,mIOU>
85%
20
GB/T45087—2024
表11 通用推理性能测试场景(封闭模式)(续)
序号类型场景说明
5 推荐
模型wide&deep
测试集来源Criteo(KaggleDisplayAdvertisingChallengeDataset)
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,
AUC>72%
6 推荐
模型DLRM
测试集来源Criteo(1TBClickLogs)
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,
AUC>80.25%
7 自然语
言处理
模型Bert-large
测试集来源SQuAD1.1
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达,
exact_match>83.57%,f1score>90.75
8 自然语
言处理
模型chatGLM V26B
精度测试
任务BoolQ
门限AvgScore>74
性能测试
数据集构造数据集c
作业到达模
式及参数a,b
连续单一、固定周期到达、泊松分布到达、高峰到达或离线到达
9 自然语
言处理
模型LLaMa2-13B
精度测试
任务BoolQ
门限AvgScore<77.4
性能测试
数据集构造数据集c
作业到达模
式及参数a,b
连续单一、固定周期到达、泊松分布到达、高峰到达或离线到达
10 自然语
言处理
模型GLM130B
精度测试
任务C-Eval
门限AvgScore<39
性能测试
数据集构造数据集c
作业到达模
式及参数a,b
连续单一、固定周期到达、泊松分布到达、高峰到达或离线到达
11 多模态
模型StableDiffusionV2.1
精度测试
任务Parti
门限CLIPscore>0.369
性能测试
数据集构造数据集c
作业到达模
式及参数a,b
连续单一、固定周期到达、泊松分布到达、高峰到达或离线到达
21
GB/T45087—2024
表11 通用推理性能测试场景(封闭模式)(续)
序号类型场景说明
12 语音识别
模型wav2vec2_0
测试集来源Aishell-1
作业到达模式及参数a,b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达(j=
2),WER<2.96%
a 未注明时,泊松分布或固定周期到达模式涉及的参数,参考值为λ=5,T =500ms,n=1。k 值由测试方给
出,但同批次测试的k 值应一致。
b 准确率门限的值为参考值。
c 未注明时,默认构造数据集分布采用[输入序列长度,输出序列长度]∈ {[256,256],[512,512],[1024,
1024],[2048,2048]}。
7.4.5.2 通用开放模式测试应从表12所列测试场景中选择,测试场景类型说明见附录D。
表12 通用推理性能测试场景(开放模式)
序号类型场景说明
1 图像识别
测试集来源Imagenet2012
门限Top1-准确率>75%
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
2 物体检测
测试集来源coco2017
门限mAP>57%
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
3 语义分割
测试集来源coco2017
门限mIOU>85%
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
4 推荐
测试集来源Criteo(KaggleDisplayAdvertisingChallengeDataset)
门限AUC>72%
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
5 推荐
测试集来源Criteo(1TBClickLogs)
门限AUC>80.25%
作业到达模式及参数a,b 连续单一、固定周期到达、泊松分布到达、离线到达或高峰到达
6 自然语
言处理
测试集来源cn-wiki
门限mask_lmaccuracy>0.7
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
22
GB/T45087—2024
表12 通用推理性能测试场景(开放模式)(续)
序号类型场景说明
7 自然语
言处理
测试集来源WMT18英→德、英→中
门限BLEU>24% (适用于二种翻译)
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
8 语音识别
测试集来源Aishell-1
门限WER<7%
作业到达模式及参数a,b
连续单一、固定周期到达(T =500ms)、泊松分布到达(λ=5)、离线
到达或高峰到达
a 未注明时,泊松分布或固定周期到达模式涉及的参数,参考值为λ=5,T =500ms,n=1。k 值由测试方给
出,但同批次测试的k 值应一致。
b 准确率的具体数值为参考值。
7.4.6 专用测试场景
7.4.6.1 专用封闭模式测试应从表13所列测试场景中选择,测试场景类型说明见附录D。
表13 专用推理性能场景(封闭模式)
序号类型场景说明
1 OCR(无预分割)
模型DBNET
测试集来源a icdar2015
作业到达模式及参数b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到
达,mAP>0.88
2 人脸识别
模型FaceNet
测试集来源a LFW
作业到达模式及参数b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰
到达
3 语音识别
模型Conformer(ESPnet2)
测试集来源a Aishell-1
作业到达模式及参数b
连续单一、固定周期到达、泊松分布到达、离线到达或高峰到
达,err<5.4%
a 推理数据的格式,没有严格的限定,被测者可根据本地机器学习框架进行格式转换,格式转换过程不应改变数
据的值(如图像像素值),数据格式转换过程不计时。
b 未注明时,泊松分布或固定周期到达模式涉及的参数,参考值为λ=5,T =500ms,n=1。k 值由测试方给
出,但同批次测试的k 值应一致。
7.4.6.2 专用开放模式测试应从表14所列测试场景中选择,测试场景说明见附录D。
23
GB/T45087—2024
表14 专用推理测试场景(开放模式)
序号类型场景说明
1 OCR(无预分割)
测试集来源a 金融行业测试集b
作业到达模式c及参数
连续单一,固定周期到达,泊松分布到达,离线到达,高峰
到达
2 人脸识别
测试集来源a LFW
作业到达模式c及参数
连续单一,固定周期到达,泊松分布到达,离线到达,高峰
到达
a 推理数据的格式,没有严格的限定,被测者可根据本地机器学习框架进行格式转换,格式转换过程不应改变数
据的值(如图像像素值),数据格式转换过程不计时。
b 未确定的模型及数据集,可在具体测试前,由测试者按专用系统的要求统一确定。
c 未注明时,泊松分布或固定周期到达模式涉及的参数,参考值为λ=5,T =500ms,n=1。k 值由测试方给
出,但同批次测试的k 值应一致。
7.5 场景配置要求
针对目标的不同,推理性能测试分为通用测试和专用测试:
a) 通用测试是指针对共性问题,使用公共可获得的模型和数据集,完成推理测试;
b) 专用测试是针对行业领域问题,使用专用模型和数据集,完成推理测试。
推理测试场景可变要素配置要求见表15。
表15 推理测试场景可变要素配置要求
可变要素通用封闭通用开放专用封闭专用开放
训练集不涉及自选或可变不涉及自选或可变
验证集不涉及自选或可变不涉及自选或可变
测试集不可变不可变不可变不可变
数据预处理算法不可变自选或可变不可变自选或可变
数据后处理算法不可变自选或可变不可变自选或可变
模型结构不可变自选或可变不可变自选或可变
模型格式不可变自选或可变不可变自选或可变
模型压缩方法不可变自选或可变不可变自选或可变
压缩后精度不可变自选或可变不可变自选或可变
7.6 指标项及测试方法
7.6.1 通则
人工智能服务器系统推理性能测试:
a) 时间(见7.6.2)和实际吞吐率(含有效计算能力,见7.6.4)为基础性能指标项;
b) 功耗(见7.6.3)表示推理代价;
24
GB/T45087—2024
c) 弹性(见7.6.5)、承压力(见7.6.6)和视频分析最大路数(见7.6.7)表示适用性;
d) 能效和效率指标项和测试方法见E.2。
7.6.2 时间
时间单位为毫秒(ms)。推理时间指标项和测试方法见表16,时间采集点见图2。
表16 推理时间指标项和测试方法
指标项测试方法说明a
推理总延时(TI)b
a) 测试者在发送第1个样本的第1字节前,紧邻计时,得到时间
点tIS;
b) 测试者在接收到所有样本的最后1字节后,紧邻或在最后一个
处理超时时间点计时,得到时间点tIE;
c) 计算得到推理总延时TI=tIE-tIS
多次连续推理端到端
总延时
端到端推理延时
(TTI)
a) 测试者在发送某样本第1字节前,紧邻计时,得到时间点tTIS;
b) 测试者在接收完该样本返回结果的最后1 字节后,紧邻计
时,得到时间点tTIE;
c) 计算端到端推理延时:TTI=tTIE-tTIS
测试者发送样本时间
与收到结果时间的差
样本发送延时(TIT)
a) 测试者在发送某样本第1字节前,紧邻计时,得到时间点tITS
(tITS=tTIS);
b) 被测者在收到样本最后1字节后,紧邻计时,得到时间点tITR;
c) 计算作业发送延时:TIT=tITR-tITS
测试者发送样本时间
与被测者收到样本时
间的差
结果传送延时(TIR)
a) 被测者在发送结果第1字节前,紧邻计时,得到时间点tIRS;
b) 测试者在收到结果最后1字节后,紧邻计时,得到时间点tIRR
(tTIE=tIRR);
c) 计算结果传送延时:TIR=tIRR-tIRS
被测者发送结果时间
与测试者收到结果时
间的差
任务分派延时(TDIS)
a) 被测者收到样本最后1字节后,紧邻计时,得到时间点tDISS;
b) 被测者开始处理前,紧邻计时,得到时间点tDISE;
c) 计算任务分派延时TDIS=tDISE-tDISS
被测者收到样本时间
到处理前时间的差
预处理延时(TIPR)
a) 被测者对某样本的预处理开始前,紧邻计时,得到时间点tIPRS;
b) 被测者对某样本的预处理结束后,紧邻计时,得到时间点tIPRE;
c) 计算预处理延时TIPR=tIPRE-tIPRS
被测者对某样本预处
理的开始时间与结束
时间的差
推理延时(TIN)
a) 被测者针对某样本推理开始前,紧邻计时,得到时间点tINS;
b) 被测者针对某样本推理结束后,紧邻计时,得到时间点tINE;
c) 计算推理延时TIN=tINE-tINS
被测者对某样本推理
的开始时间与结束时
间的差
后处理延时(TIPO)
a) 被测者对某样本的后处理开始前,紧邻计时,得到时间点tIPOS;
b) 被测者对某样本的后处理结束后,紧邻计时,得到时间点tIPOE;
c) 计算后处理延时TIPO=tIPOE-tIPOS
被测者对某样本后处
理的开始时间与结束
时间的差
样本处理延时(TIP)
a) 被测者对某样本的处理开始前,紧邻计时,得到时间点tIPS
(tIPS=tIPRS);
b) 被测者对某样本的处理结束后,紧邻计时,得到时间点tIPE
(tIPE=tIPOE);
c) 计算样本处理延时TIP=tIPE-tIPS
被测者处理样本的开
始时间与结束时间的
差。处理延时约是预
处理、推理和后处理时
间的总和
25
GB/T45087—2024
表16 推理时间指标项和测试方法(续)
指标项测试方法说明a
分派处理延时(TDIP)
a) 被测者收到样本最后1字节后,紧邻计时,得到时间点tDIPS
(tDIPS=tDISS);
b) 被测者对某样本的处理结束后,紧邻计时,得到时间点tDIPE
(tDIPE=tIPE);
c) 计算分派处理延时TDIP=tDIPE-tDIPS
被测者完整收到样本
的时间与处理结束时
间的差
处理超时(TOUT) 计算某样本处理超时:TOUT=tTIS+tOUT* ,tOUT* 为常量
测试者从发送样本到
收到对应结果的允许
的最大时间间隔
首语素延时(Tftoken)
a) 被测者在收到样本最后1字节后,紧邻计时,得到时间点tITR;
b) 被测者在发送结果第1字节前,紧邻计时,得到时间点tIRS;
c) 计算作业延时:Tftoken=tIRS-tITR
被测者收到样本时间
与被测者发送第一个
语素时间的差
下个语素平均延时
(Tntoken)
a) 测试者在发送某样本前,紧邻计时,得到时间点tn IRS;
b) 测试者在发送某样本下一个样本前,紧邻计时,得到时间
点tnIR+S1;
c) 计算平均作业延时:Tntoken=Average(tn+1 IRS -tn IRS)
被测者发送某一个语
素与发送下一个语素
时间差的平均值
注:时间的差为绝对值。
a 因作业到达模式不同,推理总延时TI可能包括被测者等待作业的间隔时间。
b 处理前时间的计法为:存在预处理时,以预处理开始时间计;如不存在,以推理开始时间计。
注1:以i,j 表示并发的样本及处理过程,但推理并发处理不是人工智能服务器系统的必要功能。
注2:推理的中间结果,可在人工智能服务器系统内部转移或复制,以便处理。
图2 推理时间序
26
GB/T45087—2024
7.6.3 功耗
推理功耗以功率计算,单位为瓦(W)。推理功耗指标项和测试方法见表17。
表17 推理功耗指标项和测试方法
指标项测试方法说明
人工智能服务器单
机推理平均功率
a) 在SUT,配套使用功率计;
b) 在推理延时(TIN)期间,周期性测试整机的负载功率;
c) 求均值
单台人工智能服务器在某次推
理全程中的平均功率
人工智能服务器数
据预处理平均功率
a) 在SUT,配套使用功率计;
b) 在数据预处理延时(TIPR)期间,周期性测试整机的负
载功率;
c) 求均值
单台人工智能服务器在某次推
理全程中,数据预处理阶段的平
均功率
人工智能服务器推
理峰值功率
a) 在SUT,配套使用功率计;
b) 在数据预处理延时(TIN)期间,周期性测试整机的负
载功率;
c) 取最大值
单台人工智能服务器在某次推
理全程中,服务器正常工作状态
下的最大瞬时功率
人工智能服务器集
群推理平均功率
a) 在SUT各服务器配套使用功率计;
b) 在相同时间点,周期性测试每个服务器的负载功率;
c) 相同时间点各服务器功率加和为集群瞬时负载功率;
d) 求均值
人工智能服务器集群,在某次推
理全程中(TIN)中的平均功率
7.6.4 实际吞吐率
实际吞吐率代表人工智能服务器系统对特定推理作业的有效计算能力,提高有效计算能力可达到
硬件系统扩容的同样效果。对视觉类测试,单位为图像数每秒(图像数/s);对自然语言处理类测试,单
位为句数每秒(句数/s);对自然语言语句生成类测试,定长输入(句中单词或字的个数)或输出条件
下,单位为语素数每秒(语素数/s)。推理实际吞吐率指标项和测试方法见表18。
表18 推理实际吞吐率指标项和测试方法
指标项测试方法说明
人工智能服务器系统推
理实际吞吐率
a) 在整个推理测试过程中(TIN 内),累计所有实际发送
的样本,及实际返回结果,计算样本数量;
b) 计算其与实际分派处理延时总覆盖时间的比值
人工智能服务器系统在单
位时间内,对于特定任务负
载,完整处理的样本数量
a) 在推理测试过程中(TIN 内),累计所有实际发送的样
本,及实际返回结果,计算样本数量;
b) 对每个样本,累计语素数量;
c) 计算语素数量与实际分派处理延时总覆盖时间的
比值;
d) 首语素可单独计算延时,并可不计入平均
人工智能服务器系统在单
位时间内,对语言生成类负
载,完成处理的语素数量
27
GB/T45087—2024
表18 推理实际吞吐率指标项和测试方法(续)
指标项测试方法说明
人工智能服务器系统推
评论