GB/T 45079-2024 人工智能 深度学习框架多硬件平台适配技术规范

文档天下 图书评论6阅读模式
GB/T 45079-2024 人工智能 深度学习框架多硬件平台适配技术规范 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
资源简介
ICS35.020
CCS L60
中华人民共和国国家标准
GB/T45079—2024
人工智能 深度学习框架多硬件平台适配技术规范
Artificialintelligence—Technicalspecificationfordeeplearningframework
adaptiontomulti-hardwareplatform
2024-11-28发布2024-11-28实施
国家市场监督管理总局
国家标准化管理委员会发布

目 次
前言………………………………………………………………………………………………………… Ⅲ
1 范围……………………………………………………………………………………………………… 1
2 规范性引用文件………………………………………………………………………………………… 1
3 术语和定义……………………………………………………………………………………………… 1
4 缩略语…………………………………………………………………………………………………… 2
5 环境要求………………………………………………………………………………………………… 2
5.1 概述………………………………………………………………………………………………… 2
5.2 训练框架与硬件平台适配环境要求……………………………………………………………… 2
5.3 推理框架与硬件平台适配环境要求……………………………………………………………… 3
6 适配接口要求…………………………………………………………………………………………… 3
6.1 概述………………………………………………………………………………………………… 3
6.2 训练场景适配接口要求…………………………………………………………………………… 4
6.3 推理场景适配接口要求…………………………………………………………………………… 8
7 功能要求………………………………………………………………………………………………… 10
7.1 训练场景适配功能要求…………………………………………………………………………… 10
7.2 推理场景适配功能要求…………………………………………………………………………… 10
8 测试方法………………………………………………………………………………………………… 11
8.1 环境测试方法……………………………………………………………………………………… 11
8.2 接口测试方法……………………………………………………………………………………… 11
8.3 功能测试方法……………………………………………………………………………………… 12
附录A (资料性) 训练基础模型及评价指标…………………………………………………………… 13
附录B(资料性) 推理模型及评价指标………………………………………………………………… 14
参考文献…………………………………………………………………………………………………… 15

GB/T45079—2024

前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请 注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、北京百度网讯科技有限公司、浪潮电子信息产业股
份有限公司、深圳云天励飞技术股份有限公司、上海壁仞科技股份有限公司、中国科学院软件研究所、
上海燧原科技股份有限公司、北京智芯微电子科技有限公司、浙江大华技术股份有限公司、上海商汤智
能科技有限公司、南京南瑞瑞腾科技有限责任公司、平头哥(上海)半导体技术有限公司、上海天数智芯
半导体有限公司、上海市人工智能行业协会、龙芯中科(合肥)技术有限公司、上海计算机软件技术开发
中心、青岛海信电子技术服务有限公司、杭州海康威视数字技术股份有限公司、中国铁建股份有限公司、
中铁第五勘察设计院集团有限公司、广电运通集团股份有限公司、北京航天自动控制研究所、中国移动
通信集团有限公司、南方电网人工智能科技有限公司、西南科技大学、美的集团(上海)有限公司、罗克佳
华科技集团股份有限公司、北京大学、天津(滨海)人工智能创新中心、中国南方电网有限责任公司、上海
文鳐信息科技有限公司、北京声智科技有限公司、北京大学长沙计算与数字经济研究院、北京电子数智
科技有限责任公司。
本文件主要起草人:徐洋、马艳军、马骋昊、吴韶华、董建、高铁柱、王志芳、丁瑞全、胡晓光、杨雨泽、
董乾、王思善、刘勇、孔维生、张行程、石超、高慧、余雪松、赵春昊、鲍薇、马珊珊、李斌斌、张强、陈文捷、
刘微、彭剑峰、李栋、郑中、郭振华、黄宇恒、王丽娜、秦日臻、梁寿愚、孟令中、俞文心、方贵明、蔡亚森、
李玮、何源宏、杨超、田涛、林志达、林克全、芮子文、陈孝良、吴岳。

GB/T45079—2024

人工智能 深度学习框架多硬件平台
适配技术规范
1 范围
本文件规定了在训练和推理场景下,深度学习框架适配多硬件平台的技术要求,描述了相应的测试
方法。
本 文件适用于支持训练和推理功能的深度学习框架与多硬件平台完成适配,以及深度学习框架与
硬件的适配效果评价,也适用于指导人工智能软硬件适配过程。
注:本文件不涉及硬件平台的技术要求。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文
件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于
本文件。
GB/T41867 信息技术 人工智能 术语
3 术语和定义
GB/T41867界定的以及下列术语和定义适用于本文件。
3.1
深度学习框架 deeplearningframework
实现对人工智能算法开发、封装、数据调用以及计算资源使用的软件库。
3.2
多硬件平台 multi-hardwareplatform
包含多种人工智能加速处理器的可提供人工智能计算能力的硬件系统。
3.3
适配多硬件平台 multi-hardwareplatformadaption
深度学习框架可将多硬件平台作为计算资源完成深度学习模型训练与推理任务的活动。
3.4
计算图 computationalgraph
用来表示数学函数,由节点和连接构成的有向图。
注1:节点表示数学运算,即算子。
注2:连接表示数学运算之间的依赖关系。
注3:一个连接联通起始节点和终止节点。
[来源:ISO/IEC/IEEE24765:2017,3.1762.1,有修改]
3.5
整图 graph
用于描述某个深度学习特定任务的计算过程,由一系列算子和张量组成的完整的计算图。
1
GB/T45079—2024
3.6
子图 subgraph
将整图依据某种规则抽取得到的特定部分。
3.7
张量 tensor
由同一类型元素所组成的多维数组。
注:包括标量(0维)、向量(1维)、矩阵(2维)以及更高维的数组。
3.8
算子 operator
函数的名字,或表示行动的数学或逻辑符号。
注:算子由硬件定义,由软件封装。
[来源:ISO/IECTR17903:2024,3.18,有修改]
3.9
算子注册接口 operatorregistrationinterface
向深度学习框架提交算子信息以实现新增算子的接口。
注:提交的内容包括算子名、输入、输出、属性等信息。
3.10
神经网络编译器 neuralnetworkcompiler
接收不同框架的计算图结构,通过计算图、多层中间表示等结构转化,自动生成硬件平台可执行指
令的工具。
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(ArtificialIntelligence)
API:应用编程接口(ApplicationProgramInterface)
CPU:中央处理器(CentralProcessingUnit)
DNN:深度神经网络(DeepNeuralNetwork)
5 环境要求
5.1 概述
深度学习框架适配多硬件平台是指以深度学习框架为基础,从训练和推理两个方面适配不同组合
的硬件平台。硬件平台环境由操作系统、服务器端的训练芯片、服务器端推理芯片、移动端推理芯片和
边缘端推理芯片组成。
5.2 训练框架与硬件平台适配环境要求
5.2.1 训练框架环境
训练框架环境符合以下要求:
a) 训练框架:应具备基础单机单卡、单机多卡与多机多卡的模型训练方式;
b) 版本:深度学习框架与硬件AI加速库版本应是尚在维护中的版本,宜支持最新稳定版。
2
GB/T45079—2024
5.2.2 训练框架适配的硬件平台环境
训练框架适配的硬件平台环境符合以下要求:
a) 操作系统:应支持基于Linux内核的操作系统;
b) 芯片类型:应支持通用人工智能训练芯片,以及至少一款支持训练的人工智能加速芯片;
c) 设备识别:硬件驱动应支持在选定操作系统上安装/卸载,设备可正确识别,宜支持容器映射;
d) 分析监控:硬件宜提供设备的状态监控工具与性能分析工具,用于检测设备健康状态。
5.3 推理框架与硬件平台适配环境要求
5.3.1 云侧推理框架与端侧推理框架环境
云侧推理框架与端侧推理框架环境符合以下要求:
a) 推理框架:应具备基础模型推理功能;
b) 版本:深度学习框架与硬件AI加速库版本应是尚在维护中的版本,宜支持最新稳定版。
5.3.2 云侧推理框架适配的硬件平台环境
云侧推理框架适配的硬件平台环境应符合5.2.2的规定。
5.3.3 端侧推理框架适配的硬件平台环境
端侧推理框架所适配的硬件平台环境符合以下要求:
a) 操作系统:应支持智能终端操作系统和嵌入式操作系统中的一种;
b) 芯片类型:应支持通用人工智能推理芯片,以及至少一款支持推理的人工智能加速芯片;
c) 设备识别:硬件驱动应支持在选定操作系统上安装/卸载,设备可正确识别,宜支持容器映射;
d) 分析监控:硬件宜提供设备的状态监控工具和性能分析工具,用于检测设备健康状态。
6 适配接口要求
6.1 概述
在训练和推理过程中,深度学习框架通过多个接口适配硬件平台的软件栈,完成软硬件平台的互
通,深度学习框架多硬件平台适配接口(见图1)包括设备管理模块接口、计算执行模块接口和分布式通
信模块接口三个部分,其中面向云测和端侧的推理过程,分布式通信模块接口不做必选要求。
图1 深度学习框架多硬件平台适配接口
3
GB/T45079—2024
适配接口与图1中接口对应,具体接口功能包括如下。
a) 设备管理模块接口:图1接口a(训练侧定义见6.2.1,推理侧定义见6.3.1),对硬件平台驱动与
运行时的接入接口进行抽象与封装,并向计算执行模块、训练与推理框架提供一致的设备管理
模块功能。设备管理模块接口主要包括设备管理接口、内存管理接口、执行流管理接口和事件
管理接口,允许各硬件自行实现相应设备管理接口接入框架。
b) 计算执行模块接口:实现深度学习框架算子与目标硬件算子内核函数的映射与匹配,针对不同
硬件类型规范不同的适配接口。计算执行模块接口提供算子开发或映射、子图或整图接入、编
译器后端接入3种适配接口,硬件平台根据环境类型选择接口:
1) 算子开发或映射:见图1接口b(训练侧定义见6.2.2.1,推理侧定义见6.3.2.1),若硬件支
持可编程算子内核开发语言,或硬件具备对应的AI算子库,则选择该方式接入;
2) 子图或整图接入:见图1接口c(训练侧定义见6.2.2.2,推理侧定义见6.3.2.2),若硬件支
持图引擎,则选择该方式进行子图或整图接入;
3) 神经网络编译器:见图1接口d(训练侧定义见6.2.2.3,推理侧定义见6.3.2.3),若硬件支
持编译器后端,或硬件支持代码生成器,则选择该方式进行神经网络编译器的算子接入。
c) 分布式通信模块接口:见图1接口e(训练侧定义见6.2.3,推理侧定义见6.3.3),对硬件平台集
合通信库接入框架的接口进行封装与抽象,为上层框架提供一致的分布式通信模块接口,硬件
自行实现相应接口接入框架。
6.2 训练场景适配接口要求
6.2.1 设备管理模块接口
6.2.1.1 设备管理接口
设备管理接口定义见表1。
表1 设备管理接口
接口名称英文名称必选/可选接口说明
获取设备名称get_device_name 可选获取设备名称
获取设备型号get_device_type 可选获取设备型号
获取驱动版本号get_driver_version 可选获取驱动版本号
获取运行时版本号get_runtime_version 可选获取运行时版本号
指定任务运行使用的设备set_device 必选后续任务执行在该指定设备上
获取当前使用的设备ID get_device 必选获取当前任务使用的硬件设备ID
设备同步等待synchronize_device 必选阻塞程序直到设备上所有任务完成
获取可用设备数量get_device_count 必选获取当前可用设备数量
获取可用设备列表get_device_list 可选获取当前可用设备号列表
获取设备算力get_compute_capability 可选获取设备算力
初始化硬件initialize 可选初始化硬件后端
去初始化硬件finalize 可选去初始化硬件后端
初始化设备init_device 可选初始化指定硬件设备
去初始化设备deinit_device 可选去初始化指定硬件设备
4
GB/T45079—2024
6.2.1.2 内存管理接口
内存管理的接口定义见表2。
表2 内存管理接口
接口名称英文名称必选/可选接口说明
申请设备内存device_memory_allocate 可选申请设备内存
释放设备内存device_memory_deallocate 可选释放设备内存
申请主机锁页内存host_memory_allocate 可选申请主机锁页内存
释放主机锁页内存host_memory_deallocate 可选释放主机锁页内存
申请统一地址内存unified_memory_allocate 可选申请统一地址内存
释放统一地址内存unified_memory_deallocate 可选释放统一地址内存
主机到设备同步内存拷贝memory_copy_h2d 可选主机到设备同步内存拷贝
设备到主机同步内存拷贝memory_copy_d2h 可选设备到主机同步内存拷贝
设备内同步内存拷贝memory_copy_d2d 可选设备内同步内存拷贝
设备间同步内存拷贝memory_copy_p2p 可选设备间同步内存拷贝
主机到设备异步内存拷贝async_memory_copy_h2d 可选主机到设备异步内存拷贝
设备到主机异步内存拷贝async_memory_copy_d2h 可选设备到主机异步内存拷贝
设备内异步内存拷贝async_memory_copy_d2d 可选设备内异步内存拷贝
设备间异步内存拷贝async_memory_copy_p2p 可选设备间异步内存拷贝
设备内存填充device_memory_set 可选使用值填充某块设备内存
查询设备内存状态device_memory_stats 可选设备内存使用情况查询
获取设备内存最小块大小device_min_chunk_size 可选获取设备内存最小块大小
获取设备内存最大块大小device_max_chunk_size 可选获取设备内存最大块大小
设备最多可分配内存大小device_max_alloc_size 可选设备最多可分配内存大小
分配设备内存的填充字节device_extra_padding_size 可选分配设备内存的填充字节
设备初始分配的内存大小device_init_alloc_size 可选设备初始分配的内存大小
设备重分配的内存大小device_realloc_size 可选设备重分配的内存大小
6.2.1.3 执行流管理接口
执行流管理的接口定义见表3。
表3 执行流管理接口
接口名称英文名称必选/可选接口说明
创建设备执行流create_stream 可选创建设备执行流
销毁设备执行流destroy_stream 可选销毁设备执行流
查询设备执行流信息query_stream 可选查询设备执行流信息
5
GB/T45079—2024
表3 执行流管理接口(续)
接口名称英文名称必选/可选接口说明
同步设备执行流synchronize_stream 可选等待执行流所有任务完成
添加主机回调函数stream_add_callback 可选添加主机回调函数
等待执行流某个事件完成stream_wait_event 可选等待执行流某个事件完成
6.2.1.4 事件管理接口
事件管理的接口见表4。
表4 事件管理接口
接口名称英文名称必选/可选接口说明
创建设备事件对象create_event 必选创建设备事件对象
销毁设备事件对象destroy_event 必选销毁设备事件对象
设备执行流上记录事件record_event 必选设备执行流上记录某事件
查询事件是否完成query_event 可选查询该设备事件是否完成
同步设备事件synchronize_event 必选阻塞直到该设备事件完成
6.2.2 计算执行模块
6.2.2.1 算子注册接口
深度学习框架应提供硬件算子的内核函数注册接口,供目标硬件进行内核函数或DNN 算子库的
接入,见表5。
表5 硬件算子注册接口
项目内容
接口名称算子内核函数注册
建议英文名称REGISTER_KERNEL
接口功能说明注册框架算子的内核函数
接口输入参数见表6
接口输出参数无(void)
硬件算子注册接口所需的输入参数见表6。
表6 硬件算子注册接口输入参数
参数名称输入/输出类型数据类型必选/可选参数说明
算子名称输入参数字符串必选框架算子名称
硬件名称输入参数字符串必选硬件后端名称
6
GB/T45079—2024
表6 硬件算子注册接口输入参数(续)
参数名称输入/输出类型数据类型必选/可选参数说明
布局类型输入参数枚举可选输入张量的数据布局类型
内核函数输入参数函数必选硬件算子内核函数
数据类型输入参数枚举必选算子支持的输入张量的数据类型
6.2.2.2 子图或整图接入接口
深度学习框架应提供整图或子图接入接口,由硬件平台的图引擎自行接管计算图的组网与执行并
返回计算结果,见表7。
表7 图生成与执行接口
接口名称英文名称必选/可选接口说明
初始化图引擎graph_engine_initialize 可选初始化图引擎对象
去初始化图引擎graph_engine_finalize 可选去初始化图引擎对象
图生成graph_engine_generate 必选模型计算图生成
图执行graph_engine_execute 必选模型计算图执行
申请设备内存device_allocate 可选申请设备内存
释放设备内存device_deallocate 可选释放设备内存
6.2.2.3 神经网络编译器接口
在硬件支持编译器后端或硬件支持代码生成器的情况下,可采用神经网络编译器来实现适配。硬
件设备生产方为其硬件提供编译器后端,通过编译器将框架侧的计算图模型根据特定硬件目标产生编
译器端的低层中间表示,然后根据硬件后端再转化为某个具体硬件上的可执行代码。编译器可由深度
学习框架实现,也可采用第三方编译器接入。采用神经网络编译器进行适配,神经网络编译器后端接入
接口规范应满足如下的要求。
a) 若深度学习框架支持神经网络编译器后端接入,则训练框架应提供框架计算图转化为编译器
高层中间表示接口,见表8。
表8 框架计算图转化编译器高层中间表示的接口
接口名称英文名称必选/可选接口说明
编译器高层中间表示构建high_level_ir_compile 可选
根据框架计算图,构建编译器
高层中间表示
b) 在硬件厂商对接的后端,编译器应提供从高层中间表示的接口转化为低层中间表示的接口,见
表9。
7
GB/T45079—2024
表9 框编译器高层中间表示转为低层中间表示的接口
接口名称英文名称必选/可选接口说明
编译器高层中间转为低层
中间表示接口lower_ir 可选
根据编译器高层中间表示,转化和
构建低层中间表示
c) 在编译器后端底层,硬件厂商应根据各自不同的接入方式,对接编译器低层中间表示,生成相
应硬件指令。接入方式包含代码生成(Codegen),算子库接入、子图计算库接入、硬件方自己
设计的IR接入等,硬件厂商根据自己硬件的支持的方式选择其中一种接入。
6.2.3 分布式通信模块接口
深度学习训练框架应提供分布式通信模块接口供硬件平台的集合通信库接入,支持框架大规模分
布式训练功能,分布式通信模块接口定义见表10。
表10 分布式通信模块接口
接口名称英文名称必选/可选接口说明
生成通信ID编号xccl_get_unique_id 可选生成通信ID编号
获取通信ID的数据量大小xccl_get_unique_id_size 可选获取通信ID的数据量大小
生成集合通信对象xccl_comm_init_rank 可选生成集合通信对象
销毁集合通信对象xccl_destroy_comm 可选销毁集合通信对象
全量聚合累加通信xccl_all_reduce 可选全量聚合累加通信
广播通信xccl_broadcast 可选广播通信
累加通信xccl_reduce 可选累加通信
聚合通信xccl_all_gather 可选聚合通信
累加分发通信xccl_reduce_scatter 可选累加分发通信
通信组合起始xccl_group_start 可选通信组合起始
通信组合结束xccl_group_end 可选通信组合结束
点对点发送xccl_send 可选点对点发送
点对点接收xccl_recv 可选点对点接收
获取集合通信版本xccl_get_version 可选获取集合通信版本
获取当前通信域序号xccl_get_comm_rank 可选获取当前通信域序号
获取当前通信域大小xccl_get_comm_size 可选获取当前通信域大小
同步进程组内的所有进程xccl_barrier 可选同步进程组内的所有进程
切分重聚合通信xccl_alltoall 可选切分后重聚合分发
6.3 推理场景适配接口要求
6.3.1 设备管理模块接口
推理侧设备管理模块接口应符合6.2.1的规定。
8
GB/T45079—2024
6.3.2 计算执行模块接口
6.3.2.1 算子开发或映射接口
推理侧算子开发或映射接口应符合6.2.2.1的规定。
6.3.2.2 子图或整图接入接口
深度学习推理框架宜提供子图检测、融合和执行的能力,通过硬件抽象层接口,将框架层的图的中
间表示转化为硬件厂商软件层的图的中间表示,并调用厂商接口生成硬件可执行模型后在目标硬件上
执行。
a) 子图检测、融合和执行接口包括:子图检测接口、子图编译、执行接口。
1) 子图检测接口:根据硬件支持的算子,通过检测符合条件的所有子图,并将符合条件的子
图进行融合,实现将全图切分、融合生成若干子图。
2) 子图编译、执行接口:将各个子图按照顺序下发至指定硬件的硬件适配层,调用该硬件的
硬件抽象层接口,将子图编译生成硬件代码并执行。
b) 硬件抽象层接口包括:设备接口和模型接口。
1) 设备接口:进行设备基本信息的注册、参数配置和上下文管理,包括打开设备、关闭设备、
创建设备上下文、销毁设备上下文接口,定义见表11。
表11 设备管理接口
接口名称英文名称必选/可选接口说明
创建并初始化设备open_device 必选获取并初始化设备,返回设备句柄
释放设备close_device 必选释放设备,清理依赖该设备句柄申请的所有资源
创建设备上下文create_context 必选
为单个或多个设备创建统一的设备上下文,
返回设备上下文句柄
销毁设备上下文destroy_context 必选销毁设备上下文,清理依赖该上下文申请的所有资源
2) 模型接口:包括框架层的图的中间表示向硬件厂商软件层的中间表示的转换,验证、创建、
销毁和运行硬件可执行模型,定义见表12。
表12 模型接口
接口名称英文名称必选/可选接口说明
验证模型validate_program/validate_model 可选
统计计算图中被硬件支持的算子列表,完成框架层
的子图检测和融合,由于该列表可通过框架层硬编
码实现,因此,该接口为可选实现的接口
创建模型create_program/create_model 必选
基于框架层的图的中间表示生成硬件可执行模型并
返回,可选支持缓存机制,即直接从缓存中加载硬
件可执行模型
销毁模型destroy_program/destroy_model 必选销毁生成的硬件可执行模型及其所申请的所有资源
执行模型execute_program/execute_model 必选
基于输入、输出信息(包含内存地址和维度)调用厂
商接口运行硬件可执行模型
9
GB/T45079—2024
6.3.2.3 编译器后端接入接口
深度学习框架推理侧宜提供编译器后端接入接口。若深度学习框架支持神经网络编译器后端接
入,则推理侧编译器后端接口要求应符合6.2.2.3的规定。
6.3.3 分布式通信模块接口
深度学习推理框架宜提供分布式通信模块接口供硬件平台的集合通信库接入,支持框架大规模分
布式推理功能,接口要求应符合6.2.3的规定。
7 功能要求
7.1 训练场景适配功能要求
7.1.1 基本功能
深度学习训练框架与异构硬件设备适配后的软硬件平台应具备多种安装部署能力:
a) 应提供对应软/硬件环境下的深度学习开发框架的安装包,支持安装/卸载功能;
b) 应提供对应软/硬件环境下的深度学习开发框架的容器运行镜像,支持容器内运行环境;
c) 应提供对应软/硬件环境下的深度学习开发框架的容器编译镜像,支持容器内源码编译;
d) 宜支持异构CPU 编译并支持纯CPU 训练场景,支持CPU 算子内核优化与加速。
7.1.2 可靠性
深度学习训练框架与异构硬件设备适配后的软硬件平台应在可靠性方面达到以下要求:
a) 应保证多次训练精度误差在一定范围内,训练精度结果可稳定复现;
b) 应支持7d以上长时间训练作业运行,且性能稳定、无资源泄露、精度无偏差;
c) 应支持在训练过程中的断点保存及训练遇到故障后的恢复,宜支持自动恢复。
7.1.3 训练效率
深度学习训练框架与异构硬件设备适配后的软硬件平台应在性能效率方面达到以下要求:
a) 训练效率:应提供可供性能分析的数据来衡量模型训练速度,例如固定配置下模型训练时间;
b) 大规模分布式训练:应支持多机多卡分布式并行训练,并提供多卡与多机加速比数据。
7.1.4 易用性
深度学习训练框架与异构硬件设备适配后的软硬件平台应在易用性方面达到以下要求:
a) 深度学习框架应提供说明文档,对新硬件接入深度学习框架的工作进行指导,硬件厂商可根据
说明文档进行独立的深度学习框架的新硬件接入与适配开发工作;
b) 深度学习框架应提供使用文档,指导用户针对不同目标硬件进行模型开发工作与训练任务提
交工作等。
7.2 推理场景适配功能要求
7.2.1 基本功能
深度学习推理框架与异构硬件设备适配后的软硬件平台应具备多种安装部署能力,以便开发/测
试/运维人员进行使用/管理/维护/升级等工作:
a) 应提供对应软/硬件环境下的深度学习推理框架的安装包,支持安装/卸载功能;
10
GB/T45079—2024
b) 应提供对应软/硬件环境下的深度学习推理框架的C/C++推理库,支持模型部署上线;
c) 应提供对应软/硬件环境下的深度学习推理框架的容器运行镜像,宜支持容器内运行环境;
d) 应提供对应软/硬件环境下的深度学习推理框架的容器编译镜像,宜支持容器内源码编译。
7.2.2 可靠性
深度学习推理框架与异构硬件设备适配后的软硬件平台应在可靠性方面达到以下要求:
a) 推理框架下多次推理精度误差在一定范围内,且推理框架的推理精度与训练框架的前向预测
精度误差在一定范围内,推理精度结果可稳定复现;
b) 应支持7d以上长时间推理作业运行,且性能稳定、无资源泄露、精度无偏差。
7.2.3 推理效率
深度学习推理框架与异构硬件设备适配后的软硬件平台应在性能效率方面达到以下要求:
a) 性能效率:通过固定配置下的平均推理延时等可供性能分析的数据来衡量模型推理速度;
b) 分布式并行推理:宜支持大模型多机多卡分布式并行推理,并提供多机多卡下的推理性能
数据。
7.2.4 易用性
深度学习推理框架与异构硬件设备适配后的软硬件平台应在易用性方面达到以下要求:
a) 应提供说明文档,对新硬件接入深度学习推理框架的工作进行指导,硬件厂商可根据说明文档
进行独立的新硬件接入与适配开发工作;
b) 应提供使用文档,指导用户针对不同目标硬件进行推理模型部署和推理任务提交工作等。
8 测试方法
8.1 环境测试方法
深度学习框架与硬件平台适配环境测试分为信息采集和信息检查,包括如下。
a) 信息采集:测试前,待测试的深度学习框架和硬件平台应向测试者提供环境信息,环境信息包
括但不限于:
1) 深度学习框架名称、版本号和主要功能介绍;
2) 硬件平台已安装的操作系统名称和版本号;
3) 硬件平台搭载的芯片名称和型号;
4) 已安装的硬件驱动程序名称和安装路径。
b) 信息检查:通过检查环境信息,判定待测深度学习框架和硬件平台的环境信息是否符合对应要
求,包括:
1) 深度学习训练框架环境信息应符合5.2.1的要求,对应的硬件平台环境信息应符合5.2.2
的要求;
2) 深度学习推理框架环境信息应符合5.3.1的要求,与云侧推理框架对应的硬件平台环境
信息应符合5.3.2的要求,与端侧推理框架对应的硬件平台环境信息应符合5.3.3的
要求。
8.2 接口测试方法
8.2.1 训练场景适配接口测试方法
待测试的深度学习训练框架应提供与异构硬件平台的适配接口文档与代码,通过检查接口文档或
11
GB/T45079—2024
运行接口代码,测试接口功能是否符合对应要求,包括:
a) 设备管理模块接口应符合6.2.1的要求;
b) 计算执行模块接口符合6.2.2.1、6.2.2.2或6.2.2.3任意一条的要求即可;
c) 分布式通信模块接口应符合6.2.3的要求。
8.2.2 推理场景适配接口测试方法
待测试的深度学习推理框架应提供与异构硬件平台的适配接口文档与代码,通过检查接口文档或
运行接口代码,测试接口功能是否符合对应要求,包括:
a) 设备管理模块接口应符合6.3.1的要求;
b) 计算执行模块接口符合6.3.2.1、6.3.2.2或6.3.2.3任意一条的要求即可;
c) 分布式通信模块接口宜符合6.3.3的规定。
8.3 功能测试方法
8.3.1 训练场景适配功能测试方法
深度学习训练框架与异构硬件设备按5.2、6.2、7.1分别完成环境适配、接口适配和功能适配后,构
成训练场景软硬件平台。在该平台上完成基础模型训练,对训练结果进行评价(见附录A),测试深度学
习训练框架与异构硬件设备的训练场景适配情况,包括:
a) 训练过程中硬件性能符合对应预期,压力测试无异常结果;
b) 训练结束生成正确的基础模型;
c) 在图像分类、目标检测、图像分割、语义表示、机器翻译、视频分类、智能推荐等应用领域的模型
及其精度评估指标见表A.1。
8.3.2 推理场景适配功能测试方法
深度学习推理框架与异构硬件设备按5.3、6.3、7.2分别完成环境适配、接口适配和功能适配后,构
成推理场景软硬件平台。在该平台上完成模型推理,对推理结果进行评价(见附录B),测试深度学习训
练框架与异构硬件设备的推理场景适配情况。测试结果应满足以下要求:
a) 云侧推理:在图像分类、目标检测、图像分割、语义表示、机器翻译等应用领域的主流模型的评
估指标见表B.1;
b) 端侧推理:在图像分类、目标检测、图像分割等应用领域的主流模型的评估指标见表B.2。
12
GB/T45079—2024
附 录 A
(资料性)
训练基础模型及评价指标
深度学习训练框架与异构硬件设备适配后的软硬件平台支持的模型列表及其评价指标见表A.1。
表A.1 训练基础模型列表及其评价指标
应用领域模型名称数据集精度约束(>=99% ofFP32)
图像分类ResNet50 ImageNet 75.9%classification
目标检测MaskR-CNN+FPN COCO2017 box:37.7mask:33.9
YOLOv3 COCO2017 34.8
图像分割DeepLabv3+ CityScapes mIoU:78.5%
语义表示BERT Wikipedia2020/01/01 0.712Mask-LMaccuracy
Word2Vec Onebillion ACC:0.600
机器翻译Transformer WMT 25.00BLEU
视频分类TSM Kinetics400 top1:0.711
智能推荐
DeepFM Criteo AUC:0.788
Wide&Deep Criteo AUC:0.795
DLRM Criteo AUC:0.790
13
GB/T45079—2024
附 录 B
(资料性)
推理模型及评价指标
深度学习云侧推理框架与异构硬件设备适配后的软硬件平台支持的模型列表及其评价指标见表B.1。
表B.1 云侧推理模型列表及其评价指标
应用领域模型名称数据集精度约束(>=99% ofFP32)
图像分类Resnet50 ImageNet(224x224) Top-1:76.1%
目标检测MaskR-CNN/ResNet50-FPN COCO(1200x1200) BoxAP:37.7MaskAP:33.9
YOLOv3-DarkNet53(608x608) COCO BoxAP:37.0
图像分割HRNet_w48 CityScapes 0.7950mIoUonval
multi-scale_test=false
语义表示BERT SQUAD1.1 F1_score:90.874%
机器翻译Transformer(basemodel) newstest2014EN-DE BLEU:25.0
深度学习端侧推理框架与异构硬件设备适配后的软硬件平台支持的模型列表及其评价指标见表B.2。
表B.2 端侧推理模型列表及其评价指标
应用领域模型名称数据集精度约束(>=99% ofFP32)
图像分类
MobileNetV1 ImageNet(224x224) Top-1:70.90%
MobileNetV2 ImageNet(224x224) Top-1:71.90%
MobileNetV3_large_x1_0 ImageNet(224x224) Top-1:75.20%
MobileNetV3_small_x1_0 ImageNet(224x224) Top-1:68.10%
Resnet50 ImageNet(224x224) Top-1:76.10%
目标检测SSD-MobileNetV3_large(320x320) COCO COCO mAP:22.6
Yolov3-MobileNetV1(608x608) COCO BoxAP:29.3
图像分割HRNet_w18 CityScapes 0.780mIoUonval
multi-scale_test=false
14
GB/T45079—2024
参 考 文 献
[1] ISO/IECTR17903:2024 Informationtechnology—Artificialintelligence—Overviewofmachine
learningcomputingdevices
[2] ISO/IEC/IEEE24765:2017 Systemsandsoftwareengineering—Vocabulary
15
GB/T45079—2024

资源下载此资源下载价格为5金币立即购买,VIP免费

1.本站大部份文档均属免费,部份收费文档,经过本站分类整理,花了精力和时间,收费文档是为了网站运营成本等费用开支;
2.所有收费文档都真实可靠,为了节约成本,文档在网站前台不做预览,如果付费后,与实际文档不符合,都可以加微信号:pdftj88申请退款;
3.购买会员(或单次下载)即视为对网站的的赞助、打赏,非商业交易行为(不认同此观点请勿支付)请慎重考虑;
4.付费下载过程中,如果遇到下载问题,都可以加微信号pdftj88解决;
5.手机支付,尽量选择支付宝支付;
6.如图集或者标准不清楚,在本站找不到您需要的规范和图集,希望增加资料等任何问题,可联系微信号:pdftj88解决;

文档天下
  • 本文由 发表于 2025年3月17日 10:45:11
  • 转载请务必保留本文链接:https://www.998pdf.com/54928.html
图书

JJF(蒙) 100-2025 马歇尔击实仪校准规范

JJF(蒙) 100-2025 马歇尔击实仪校准规范 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话...
图书

JJF(蒙) 102-2025 钢筋弯曲试验机校准规范

JJF(蒙) 102-2025 钢筋弯曲试验机校准规范 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的...
图书

JJF(蒙) 103-2025 料罐称校准规范

JJF(蒙) 103-2025 料罐称校准规范 ,该文件为pdf格式 ,请用户放心下载! 尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: