T/CCUA 036-2024 流程工业企业 工业互联网平台运维通用要求 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L77
中国计算机用户协会团体标准
T/CCUA 036-2024
流程工业企业 工业互联网平台 运维通用要求
Process industry enterprise-Industry internet platform-General requirements for operation and maintenance
2024-12-06发布2025-01-06实施
中国计算机用户协会发布
目 次
前 言 ............................................................................ III
1 范围 ................................................................................ 1
2 规范性引用文件 ...................................................................... 1
3 术语和定义 .......................................................................... 1
4 缩略语 .............................................................................. 2
5 运维通用要求模型 .................................................................... 3
6 运维通用要求-技术要求 ................................................................ 4
6.1 运维对象 ......................................................................... 4
6.2 一级平台技术要求 ................................................................. 4
6.2.1 基本技术要求 ................................................................. 4
6.2.2 基础设施层技术要求 ........................................................... 5
6.2.3 数据服务层技术要求 ........................................................... 5
6.2.4 平台服务层技术要求 ........................................................... 5
6.2.5 应用服务层技术要求 ........................................................... 6
6.3 二级平台技术要求 ................................................................. 6
6.3.1 基本技术要求 ................................................................. 6
6.3.2 基础设施层技术要求 ........................................................... 6
6.3.3 数据服务层技术要求 ........................................................... 7
6.3.4 平台服务层技术要求 ........................................................... 7
6.3.5 应用服务层技术要求 ........................................................... 7
6.4 三级平台技术要求 ................................................................. 7
6.4.1 基本技术要求 ................................................................. 7
6.4.2 数据服务层技术要求 ........................................................... 8
6.4.3 平台服务层技术要求 ........................................................... 8
6.4.4 应用服务层技术要求 ........................................................... 8
7 运维通用要求-组织与制度要求 .......................................................... 8
7.1 运维组织 ......................................................................... 8
7.2 运维管理制度 ..................................................................... 8
8 运维通用要求-管理流程要求 ............................................................ 9
8.1 概述 ............................................................................. 9
T/CCUA 036-2024
II
8.2 涉及范围 ......................................................................... 9
9 运维通用要求-人员要求 ................................................................ 9
9.1 概述 ............................................................................. 9
9.2 人员配备 ......................................................................... 9
9.3 人员培训 ........................................................................ 10
9.4 人员考核 ........................................................................ 10
9.5 人员分工和职责 .................................................................. 10
附 录 A ............................................................................ 11
附 录 B............................................................................. 28
参考文献 .............................................................................. 29
T/CCUA 036-2024
III
前 言
本文件按照GB/T 1.1-2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国计算机用户协会提出并归口。
参编单位: 中国计算机用户协会工业互联网与大数据应用分会、北京广通优云科技股份有限公司、中铁(北京)信息技术服务有限责任公司、中国华能集团有限公司数智中心、中国南方电网有限责任公司、中煤信息技术(北京)有限公司、华能信息技术有限公司、国电电力发展股份有限公司、广东粤电信息科技有限公司、中国兵器装备集团信息中心有限责任公司、中国大唐集团有限公司、华能澜沧江水电股份有限公司、一汽-大众汽车有限公司管理服务部、国家开发投资集团有限公司、国投云网数字科技有限公司、中电智能科技有限公司、华能海南发电股份有限公司、昆仑数智科技有限责任公司、中国移动通信集团北京有限公司、北京京能信息技术有限公司、北京京西燃气热电有限公司、四川大学电气工程学院、重庆市科源能源技术发展有限公司、上海优也科技有限公司、重庆观度科技股份有限公司。
参编人员: 刘爱民、谢亚涛、杨赟、王朝晖、王鹏、郭朝晖、陈彬、丁文波、王会来、李萌、杨秋勇、徐欢、肖伟、刘卓识、李亚滨、孟子涵、陈树文、张嵩、祝家鑫、南浩、张金营、王岩、刘广涛、张万里、崔鹏、段磊、周活祥、林禧桐、王钧召、吴涛、禹跃美、戴志明、谢东、荆常鑫、孙正雨、喻瑜、盛凌志、梁锦华、张斌、梁玥卓、刘玉环、周平阳、李克斌、慕理毅、陈纪惠。
T/CCUA 036-2024
1
流程工业企业 工业互联网平台 运维通用要求
1 范围
本文件确立了流程工业企业工业互联网平台运维通用要求模型,规定了企业一级平台(总部)、二级平台(区域公司/分公司/子公司)、三级平台(生产厂站)的运维通用要求。
本文件适用于流程工业企业工业互联网平台运维服务。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 28827.1 信息技术服务 运行维护 第 1 部分:通用要求
3 术语和定义
下列术语和定义适用于本文件。
3.1
流程工业 process industry
利用化学反应、分离或混合等技术手段制造新产品,改进已有产品或处理废弃物的工业。它包含以下行业:化工,石油化工,废弃物处理,造纸及水泥行业等。它不包括下述行业:装备,机械制造及其类似行业。也不包括有特殊要求或需要特殊批准的行业。
[来源:IEC 62337:2012,3.13]
3.2
互联网 internet
由多个计算机网络相互连接而成的网络,它是在功能和逻辑上组成的一个大型网络。
[来源:GB/T 32402-2015,3.1.145]
3.3
工业互联网平台 industrial internet platform
面向制造业数字化、网络化、智能化需求,构建基于云平台的海量数据采集、汇聚和分析服务,支撑制造资源广泛连接、弹性供给、高效配置的系统。
[来源:GB/T 42569-2023,3.1]
3.4
数据集 dataset
数据记录汇聚的数据形式。
注:它可以具有大数据的体量、速度、多样性和易变性特征。数据集的特征表征的是数据本身或静态数据,而数据的特征,当其在网络上传输时或暂时驻留于计算机存储器中以备读出或更新时,表征的是动态数据。
[来源:GB/T 35295-2017,2.1.46]
T/CCUA 036-2024
2
3.5
数据库 database
A)数据集,或一数据集的部分或全体,它至少包括足够为一给定目的或给定数据处理系统使用的一个文件;
B)对一系统来说是基本的数据集合。
[来源:GB/T 11457-2006,2.390]
3.6
中间件 middleware
制造企业宜依据[来源:GB/T 37695-2019],注册全球唯一的标识节点,建立并维护OID(对象标识符)解析系统,通过接收具体应用发送的标识解析请求,实现对所查询标识对象的信息返回,完成标识解析过程。
3.7
配置 configuration
A)计算机系统、部件或网络按照其功能部件的特点、数量、主要特性和交互连接而定义的安排。具体地讲,配置一词可以指硬件配置或软件配置;
B)在配置管理中,在技术文档中制定的并在产品中体现的硬件、软件的功能和(或)物理特性。
[来源:GB/T 11457—2006,2.305]
3.8
知识 knowledge
来源于理论和实践,经过积累、梳理、总结并被验证的,供互联网应用的信息或数据。
3.9
作业 operation
按照常规工作规程,由设备设施、应用程序或操作人员定期或定时执行的日常操作。
3.10
评审 review
为确定是否能够达到预期目标,对特定事项进行评估和审议的活动。
3.11
审计 audit
获取客观证据进行评估所进行的、系统的、独立的、形成文件的活动,以确定其符合审计准则(包括但不限于标准、合规要求、规范、制度)的程度。
3.12
职能 function
一组人员以及相关技能、资源、行为的组合。
3.13
关系 relationship
工业互联网平台与相关方之间相互作用、相互影响的状态。
3.14
合规 compliance
工业互联网平台运维活动与相关法律法规、标准、监管要求、规章制度等相一致。
4 缩略语
下列缩略语适用于本文件。
T/CCUA 036-2024
3
HSE:职业健康、职业安全和环境(Health Safety and Environment)
RTO:恢复时间目标(Recovery Time Object)
RPO:恢复点目标(Recovery Point Object)
MQ:消息队列(Message Queue)
5 运维通用要求模型
运维通用要求模型围绕技术、组织与制度、管理流程、人员四要素构成,描述了要达到流程工业企业工业互联网平台运维通用要求的一系列措施、技术、行为和能力。运维通用要求模型见图1。
图
1 运维通用要求模型
企业可根据所选取的工业互联网平台架构方式匹配相应的运维要求,运维要求适用于私有云的部署环境。三级平台之间的运维要求关系如图2所示。
T/CCUA 036-2024
4
图
2 流程工业企业工业互联网三级平台运维要求关系
6 运维通用要求-技术要求
6.1 运维对象
流程工业企业工业互联网平台运维对象分为基础设施层、数据服务层、平台服务层和应用服务层,各层级的运维对象范围如下图所示。
图
3 流程工业企业工业互联网平台运维对象
6.2 一级平台技术要求
6.2.1 基本技术要求
基本技术要求是指应为一级平台的基础设施层、数据服务层、平台服务层和应用服务层提供平台能力。基本技术要求包括:
T/CCUA 036-2024
5
a)
可满足统一的数据采控能力,包含采集性能数据、配置数据、日志数据以及执行任务脚本信息的交互;
b)
可满足支持代理和非代理的数据采集方式,在统一的界面展示一级平台纳管的所有代理信息,具备对代理批量执行更新、卸载的操作的功能;
c)
可满足对运维数据进行规范化、标准化的能力,包含对数据进行清洗、过滤、转换等;
d)
可满足多租户管理能力,具备租户信息管理、租户数据隔离、租户自管理的功能;
e)
可满足为运维应用场景的开发提供组件服务支撑的能力,具备接口管理、流量控制、访问授权的功能;
f)
可满足对各类工业应用的事件、问题、变更、发布、服务请求的流程化管理,包括流程自定义、工单自定义、服务目录管理、服务级别管理的能力;
g)
可满足对二级平台、三级平台告警数据的收集,具备通过流程来协同处置二级平台、三级平台的各类运维活动的能力;
h)
可满足对运维分析的可视化能力,支持通过大屏、报表的自定义方式展示运维数据。
6.2.2 基础设施层技术要求
基础设施层技术要求是指对支撑一级平台的基础设施层,包括为机房、主机、存储、网络提供软件运维能力。基础设施层技术要求包括以下内容。
a)
机房运维应满足对机房动力、安防、门禁、视频等状态的实时监控能力;
b)
主机运维应满足对虚拟化基础架构/虚拟机的日常运维能力,包括性能监控、状态监控、配置监控、自动化作业的能力:
1)
可满足对虚拟化基础架构及虚拟机进行性能基线的监控;
2)
可满足对虚拟化平台基础组件进行运行状态的监控;
3)
可满足对虚拟化平台内的配置单元及配置单元之间的关系进行监控,能够对配置模型管理、自动发现配置信息、维护配置关系;
4)
可满足对虚拟机进行批量的自动化操作,包括脚本库管理、命令审核、操作日志管理、自动化作业调度等功能。
c)
存储运维应满足对存储设备的物理磁盘、存储池、控制器、存储卷的性能和容量等的实时监控能力;
d)
网络运维应满足对网络设备的性能监控,以及对接入一级平台的网络可用性进行监控,包括网络拓扑结构、网络性能、网络配置的实时监控能力。
6.2.3 数据服务层技术要求
数据服务层技术要求是指对一级平台的数据服务提供软件运维能力。应满足对各类数据库/数据服务的日常运维能力,包括性能监控、状态监控、配置监控、自动化作业的能力。数据服务层技术要求包括:
a)
可满足对数据库进行性能基线的监控;
b)
可满足对大数据组件进行运行状态的监控;
c)
可满足对数据库/数据服务的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
d)
可满足对数据库进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.2.4 平台服务层技术要求
平台服务层技术要求是指对一级平台的平台服务组件提供软件运维能力。应满足对各类Web服务中间件、缓存中间件、MQ中间件的日常运维能力,包括性能监控、配置监控、自动化作业的能力。平台
T/CCUA 036-2024
6
服务层技术要求包括:
a)
可满足对中间件进行性能基线的监控;
b)
可满足对中间件的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
c)
可满足对中间件进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.2.5 应用服务层技术要求
应用服务层技术要求是指对一级平台的各类工业应用服务提供软件运维能力。应用服务层技术要求包括:
a)
可满足通过模拟手段对各类工业应用服务进行访问,能够对服务状态、时延进行监控;
b)
可满足对应用的全链路追踪监控,能够提供应用系统内部的访问拓扑,支持获取响应时间、请求量、系统成功率等运行指标;
c)
可满足对各类应用系统的重要日志进行统一收集和管理,包括日志收集、数据分析、日志告警以及日志数据视图化的能力。
6.3 二级平台技术要求
6.3.1 基本技术要求
基本技术要求是指应为二级平台的基础设施层、数据服务层、平台服务层和应用服务层提供平台能力。基本技术要求包括:
a)
可满足统一的数据采控能力,包含采集性能数据、配置数据、日志数据以及执行任务脚本信息的交互;
b)
可满足支持代理和非代理的数据采集方式,在统一的界面展示二级平台纳管的所有代理信息,具备对代理批量执行更新、卸载的操作的功能;
c)
可满足对运维数据进行规范化、标准化的能力,包含对数据进行清洗、过滤、转换等;
d)
可满足多租户管理能力,具备租户信息管理、租户数据隔离、租户自管理的功能;
e)
可满足为运维应用场景的开发提供组件服务支撑的能力,具备接口管理、流量控制、访问授权的功能;
f)
可满足对各类工业应用的事件、问题、变更、发布、服务请求的流程化管理,包括流程自定义、工单自定义、服务目录管理、服务级别管理的能力;
g)
可满足对三级平台告警数据的收集,将告警数据上报到一级平台,具备通过流程来协同处置一级平台、三级平台各类运维活动的能力;
h)
可满足对运维分析的可视化能力,支持通过大屏、报表的自定义方式展示运维数据。
6.3.2 基础设施层技术要求
基础设施层技术要求是指对支撑二级平台的基础设施层,包括为机房、主机、存储、网络提供软件运维能力的要求。基础设施层技术要求包括以下内容。
a)
机房运维应满足对机房动力、安防、门禁、视频等状态的实时监控能力;
b)
主机运维应满足对虚拟化基础架构/虚拟机的日常运维能力,包括性能监控、状态监控、配置监控、自动化作业的能力:
1)
可满足对虚拟化基础架构及虚拟机进行性能基线的监控;
2)
可满足对虚拟化平台基础组件进行运行状态的监控;
3)
可满足对虚拟化平台内的配置单元及配置单元之间的关系进行监控,能够对配置模型管理、自动发现配置信息、维护配置关系;
T/CCUA 036-2024
7
4)
可满足对虚拟机进行批量的自动化操作,包括脚本库管理、命令审核、操作日志管理、自动化作业调度等功能。
c)
存储运维应满足对存储设备的物理磁盘、存储池、控制器、存储卷的性能和容量等的实时监控能力;
d)
网络运维应满足对网络设备的性能监控,包括网络拓扑结构、网络性能、网络配置的实时监控能力。
6.3.3 数据服务层技术要求
数据服务层技术要求是指对二级平台的数据服务提供软件运维能力。应满足对各类数据库/数据服务的日常运维能力,包括性能监控、状态监控、配置监控、自动化作业的能力。数据服务层技术要求包括:
a)
可满足对数据库进行性能基线的监控;
b)
可满足对大数据组件进行运行状态的监控;
c)
可满足对数据库/数据服务的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
d)
可满足对数据库进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.3.4 平台服务层技术要求
平台服务层技术要求是指对二级平台的平台服务组件提供软件运维能力。应满足对各类Web服务中间件、缓存中间件、MQ中间件的日常运维能力,包括性能监控、配置监控、自动化作业的能力。平台服务层技术要求包括:
a)
可满足对中间件进行性能基线的监控;
b)
可满足对中间件的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
c)
可满足对中间件进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.3.5 应用服务层技术要求
应用服务层技术要求是指对二级平台的各类工业应用服务提供软件运维能力。应用服务层技术要求包括:
a)
可满足通过模拟手段对各类工业应用服务进行访问,能够对服务状态、时延进行监控;
b)
可满足对应用的全链路追踪监控,能够提供应用系统内部的访问拓扑,支持获取响应时间、请求量、系统成功率等运行指标;
c)
可满足对各类应用系统的重要日志进行统一收集和管理,包括日志收集、数据分析、日志告警以及日志数据视图化的能力。
6.4 三级平台技术要求
6.4.1 基本技术要求
基本技术要求是指应为三级平台的数据服务层、平台服务层、应用服务层提供平台能力。
a)
可满足统一的数据采控能力,包含采集性能数据、日志数据以及执行任务脚本信息的交互;
b)
可满足支持代理和非代理的数据采集方式,在统一的界面展示三级平台纳管的所有代理信息,具备对代理批量执行更新、卸载的操作的功能;
c)
可满足对运维数据进行规范化、标准化的能力,包含对数据进行清洗、过滤、转换等;
d)
可满足对各类工业应用的事件、问题、变更、发布、服务请求的流程化管理,包括流程自定义、工单自定义、服务目录管理、服务级别管理的能力;
T/CCUA 036-2024
8
e)
可满足将告警数据上报到二级平台,具备通过流程来协同处置一级平台、二级平台各类运维活动的能力;
f)
可满足对运维分析的可视化能力,支持通过大屏、报表的自定义方式展示运维数据。
6.4.2 数据服务层技术要求
数据服务层技术要求是指对三级平台的数据服务提供软件运维能力。应满足对各类数据库/数据服务的日常运维能力,包括性能监控、状态监控、配置监控、自动化作业的能力。数据服务层技术要求包括:
a)
可满足对数据库进行性能基线的监控;
b)
可满足对大数据组件进行运行状态的监控;
c)
可满足对数据库/数据服务的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
d)
可满足对数据库进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.4.3 平台服务层技术要求
平台服务层技术要求是指对三级平台的平台服务组件提供软件运维能力。应满足对各类Web服务中间件、缓存中间件、MQ中间件的日常运维能力,包括性能监控、配置监控、自动化作业的能力。平台服务层技术要求包括:
a)
可满足对中间件进行性能基线的监控;
b)
可满足对中间件的配置模型管理、自动发现配置信息,能够扩展配置采集脚本;
c)
可满足对中间件进行定期的自动化操作,包括人工触发执行、定时执行以及按周期执行。
6.4.4 应用服务层技术要求
应用服务层技术要求是指对三级平台的各类工业应用服务提供软件运维能力。应用服务层技术要求包括:
a)
可满足通过模拟手段对各类工业应用服务进行访问,能够对服务状态、时延进行监控。
b)
可满足对应用的全链路追踪监控,能够提供应用系统内部的访问拓扑,支持获取响应时间、请求量、系统成功率等运行指标。
c)
可满足对各类应用系统的重要日志进行统一收集和管理,包括日志收集、数据分析、日志告警以及日志数据视图化的能力。
7 运维通用要求-组织与制度要求
7.1 运维组织
运维组织是指从满足工业互联网平台运行维护工作的管理目标出发,设计运维需要的IT组织架构,明确信息系统运行维护工作职责。
在一级平台应建立运维管理团队,负责制定信息系统运行管理的政策和要求,并指导、监督、评价企业层面的信息系统的运行维护工作。
在一级平台、二级平台和三级平台均应建立服务团队,分别负责各级平台的系统和组件的运行维护,开展运行监控、巡检、故障处置等服务交付等工作。
7.2 运维管理制度
运维管理制度是指根据流程工业企业工业互联网平台运维的定期的或临时性的管理要求,对自身进行的内部规范管理,具体内容应根据GB/T 28827.1中第7章节相关要求进行建设。
T/CCUA 036-2024
9
一级平台运维制度应包括应用运维管理制度、系统管理制度、网络管理制度、机房管理制度、监控管理制度、操作管理制度、事件管理制度、问题管理制度、变更管理制度、可用性管理制度、容量管理制度等。
二级平台运维制度应包括系统管理制度、网络管理制度、机房管理制度、监控管理制度、操作管理制度、事件管理制度、问题管理制度、变更管理制度等。
三级平台运维制度应包括事件管理制度、问题管理制度、变更管理制度等。
8 运维通用要求-管理流程要求
8.1 概述
管理流程要求对流程工业企业工业互联网平台运维活动的流程进行了管理要求说明。当系统出现故障或问题时,各级平台运维团队会首先接收到警报,同时一级平台会接收告警信息,并立即启动应急预案。运维团队会对问题进行分析和诊断,并协调各个二级平台和三级平台进行协同处理。
二级平台运维团队会接收到一级平台运维团队的指令,并根据实际情况进行响应。二级平台的运维团队会对本二级平台的系统进行监控和维护,并在需要时向一级平台运维团队报告问题和请求支持。
当三级平台出现问题时,三级平台的运维人员会首先进行故障排除和修复。如果问题无法解决,他们会向二级平台运维团队报告,并根据指示进行进一步的处理。
8.2 涉及范围
管理流程要求主要面向运维活动,涉及范围包括例行管理、服务支持、服务交付。管理流程要求应符合附录A的要求:
a)
例行管理各过程的管理要求应符合表A.1-表A.3;
b)
服务支持各过程的管理要求应符合表A.4-表A.9;
c)
服务交付各过程的管理要求应符合表A.10-表A.13。
9 运维通用要求-人员要求
9.1 概述
为保障故障响应、解决问题和交付结果可控,应在人员管理、岗位结果和人员的知识、技能、经验、安全意识等方面达到应有的水平。
9.2 人员配备
应建立与运行维护服务相关的人员配备计划和机制,确保有足够的人员,以满足当前和未来的运行维护服务需求。各级平台人员配备要求如下:
a)
一级平台运维人员应深入了解整个系统的架构和工作原理,了解网络安全和数据保护措施,具备高级的故障排除和问题解决能力,并能够协调和管理各级架构的运维工作,建议配备一定数量的高级运维工程师、数据库管理员和网络专家。
b)
二级平台运维人员应熟悉本地区的系统部署和配置,了解常见的网络故障和安全威胁,具备一定的故障排除和问题解决能力,能够与一级、三级平台运维人员进行有效的沟通,建议配备一定数量的中级运维工程师和技术支持人员。
c)
三级平台运维人员应掌握平台的操作和维护方法,具备基本的故障排除和修复技能,了解本地网络环境,建议配备一定数量的初级运维工程师或现场技术人员。
T/CCUA 036-2024
10
9.3 人员培训
应建立于运行维护服务相关的培训体系或机制,在制订培训计划时应识别培训要求,并提供及时和有效的培训。
9.4 人员考核
应建立与运行维护服务相关的考核体系或机制,并能够有效组织实施。
9.5 人员分工和职责
应有专职团队负责运行维护服务的工作,不同角色有明确分工和职责定义。一个完整的运行维护服务团队应包括管理、技术支持、操作等主要岗位,各岗位的职责如下。
a)
管理岗职责:
1)
在运行维护服务中负责管理运行维护服务;
2)
与需方建立顺畅的沟通渠道,准确地将需方的需求传递到运行维护服务团队;
3)
规划、检查运行维护服务的各个过程,对运行维护服务能力的策划、实施、检查、改进的范围、人员、运维周沟通、过程、信息安全和成果负责。
b)
技术支持岗职责:
1)
在运行维护服务中负责技术支持,包括基础设施、云、网络、应用等;
2)
对运行维护服务过程中的请求,事件和问题做出响应,保障信息安全并对处理结果负责。
c)
操作岗职责:
1)
在运行维护服务中负责日常操作的实施;
2)
根据规范和手册,执行运行维护服务各过程,并对其执行结果负责。
T/CCUA 036-2024
11
附 录 A
(资料性)
流程管理要求
表
A.1 监控管理能力项管理要求
目标
关键活动
要求描述
度量
通过对业务、应用系统及IT基础设施运行信息的收集、分类和处理,实现运行状态的实时掌握,以及运行异常的及时发现和响应。
监控方案制定
分析确定监控需求,制定监控方案:
a)接收、分析并确认监控需求;
b)根据监控需求,制定监控方案,包括但不限于明确监控范围、定义监控对象及属性、监控方式和方法、监控指标、阈值、频率、时效性、控制活动的触发条件和操作步骤、通知机制以及监控数据的归档机制;
c)对监控系统输出的信息进行分级、分类管理,对分级、分类的描述及处置进行明确定义,并制定相应的响应支持机制和流程。
设计并实施度量,宜体现:
a)通过监控方式发现的事件(数量、比例等);
b)监控漏报和误报情况;
c)监控覆盖率(对象、指标、时段等)。
监控方案实施
制定监控实施计划并执行监控:
a)根据监控方案,制定监控实施计划,部署适当的监控工具;
b)执行监控,并对监控告警进行分类处理;
c)所有监控中发现的异常均记录,不允许非授权的删除或修改记录;
d)宜在工具层面实现与事件管理的入口联动以及与配置项的映射;
e)宜加强对监控工具的整合,采用统一的模式实施信息采集、展示、通知;
f)宜对监控系统输出的信息实施自动化的识别,收敛聚合,降低告警风暴的风险;
g)宜开展日常监控工作总结,组织各干系人及时回顾监控结果,提升监控效果;
h)变更后对于受影响监控对象,进行监控方案的回顾,并根据需要进行调整。
T/CCUA 036-2024
12
表
A.1 监控管理能力项管理要求(第2页/共2页)
目标
关键活动
要求描述
度量
监控回顾与调整
回顾监控效果并优化调整:
a) 对监控方案实施情况进行回顾,并进行必要的改进;
b) 回顾对象宜包括:监控数据、监控日志、系统日志等;
c)宜进行监控数据再加工,生成有效的改进和预测意见;
d)改进内容宜包含监控告警策略优化、提升监控准确率、覆盖率、标准化、监控指标可读性等。
T/CCUA 036-2024
13
表
A.2 值班管理能力项管理要求
目标
关键活动
要求描述
度量
通过规范值班岗位的职责、工作纪律和行为,保证值班工作有序进行,保障数据中心安全稳定运行。
值班管理要求建立
明确值班管理要求:
a)明确值班工作范围、值班要求;
b)明确与值班关联的事件、变更、发布等的汇报与决策机制。
设计并实施度量,宜体现值班执行与要求的匹配情况。
值班计划制定
根据数据中心管理要求制定值班计划:
a) 包括日常值班计划及特殊日期值班计划;
b) 根据不同岗位制定值班计划;
c)宜考虑不同值班形态,如现场值班、远程值班、备勤。
值班任务执行
按照值班要求和值班计划执行值班任务,并对值班任务执行情况进行监督:
a)所有值班班次均明确责任人;
b)做好值班记录,对于突发事件及时处理和上报;
c)当值人员编制值班总结,汇总和确认值班情况;
d)严格执行交接班,明确交接事项。
值班计划及任务回顾
定期对值班计划及值班任务的履行情况进行回顾,定期优化调整值班管理要求。
T/CCUA 036-2024
14
表
A.3 作业管理能力项管理要求
目标
关键活动
要求描述
度量
通过保证一系列预定作业单的正确执行,达到数据中心日常运营正常运转的基本需要。
作业方案制定
分析确定作业需求,制定作业方案:
a)识别、接收、分析并确认作业需求,范围结合本标准各能力项的需要,涵盖数据中心所拥有(直接或者间接)的各类资源;
b)根据作业需求,制定作业方案,包括但不限于确定作业人员和工具要求、制定作业计划、编写作业规范和操作手册;
c)作业方案考虑信息安全、HSE、职责分离的管理要求,以及作业异常的处理方式。
设计并实施度量,宜体现:
a)作业按时按质的完成情况;
b)作业出现异常的处置情况;
c)作业管理回顾情况。
作业方案实施
制定作业计划并执行作业:
a)对作业方案进行统筹、调度和排期;
b)确保执行特种作业的人员持证上岗;
c)根据日、周、月、季、年形成不同的作业计划,并通过当日作业单列表的形式展现;
d)执行作业任务时,监控和记录作业的开始时间、完成时间、实施主体、实施结果等信息;
e)关键作业设立复核机制,共同对作业结果负责;
f)作业实施的所有信息都被记录,且可追溯、可审计;
g)对作业实施的过程和结果进行确认。
作业回顾与调整
定期回顾作业执行情况,并进行必要的调整:
a)对作业需求进行回顾,对作业管理的范围进行持续改进;
b)对作业管理活动进行回顾,并进行必要的改进。
T/CCUA 036-2024
15
表
A.4 服务请求管理能力项管理要求
目标
关键活动
要求描述
度量
为接收用户请求和标准服务提供渠道,向用户和客户提供信息,处理事项。
服务请求管理策略制定
制定服务请求管理策略,并发布:
a)明确服务请求的管理目标、制度、处理原则,并制定服务请求列表;
b)明确服务请求分类分级定义、审批路径、处理时限、升级和关闭规则。
设计并实施度量,宜体现:
a)服务请求处理的及时性;
b)用户满意度。
服务请求记录
响应并记录服务请求:
a)接受来自用户的服务请求,并记录相关信息;
b)对服务请求进行确认,判断是否履行此服务请求。
服务请求履行
根据要求履行服务请求:
a)执行相应的响应、处理、升级和关闭等活动;
b)确保在用户需要时可提供服务处理情况的相关信息;
c)监督、监控服务请求处理进展,并根据需要协调解决;
d)考虑对服务请求进行用户满意度调查。
服务请求管理回顾与改进
定期回顾服务请求流程及管理过程,进行优化改进:
a)及时更新服务请求列表;
b)定期对服务请求活动满足服务请求管理目标的程度进行评估;
c)根据评估结果识别改进机会,开展持续改进活动。
T/CCUA 036-2024
16
表
A.5 事件管理能力项管理要求
目标
关键活动
要求描述
度量
在最短时间内恢复正常服务运营,将对业务运营的负面影响降至最低,进而确保能够保持服务质量与可用性级别。
事件管理策略制定
明确事件管理的策略,包括但不限于:
a)明确事件管理目标、制度、处理原则,并制定服务请求列表;
b)明确事件管理范围;事件分类分级标准、事件处置原则、事件关闭规则。
设计并实施度量,宜体现:
a)事件响应的及时性;
b)事件处理的时效性;
c)重大事件响应及处理的时效性。
事件记录
对事件进行记录:
a)明确事件记录的关键要素;
b)所有事件均被记录,包括但不限于接收的事件和主动发现的事件。
事件分类分级
对事件进行分类分级:
a)按照事件的属性、影响程度划分事件分类和优先级;
b)结合IT服务连续性管理建立事件应急启动标准。
事件升级
必要时,执行事件升级:
a)定义事件升级规则;
b)根据事件升级规则,转派后线支持人员进行职能升级处理,或加强事件处理力度进行结构升级处理。
事件解决与恢复
快速解决影响数据中心服务的事件:
a)对事件进行分析,尽快解决;
b) 重大事件按照应急管理要求协调资源及时处置;
c)事件涉及人员能访问、匹配并关联相关信息,包括:相关服务请求、已知错误、问题解决方案和资产配置管理数据库等;
d)监督、监控事件处理进展,并根据需要协调解决。
事件回顾与关闭
回顾和关闭事件:
a)在关闭事件时对事件记录进行更新,确认事件的最终分类和分级,受影响的服务,以及导致事件发生的配置项等;
b)回顾事件的处置过程与结果,将问题纳入知识管理。
事件管理的回顾与改进
定期回顾事件流程的运行情况,对事件流程进行优化。
T/CCUA 036-2024
17
表
A.6 问题管理能力项管理要求
目标
关键活动
要求描述
度量
通过采取措施消除事件的深层次原因,预防事件或问题再次发生,降低重复事件的影响,提高数据中心服务质量和稳定性。
问题管理策略制定
明确问题管理的策略,包括但不限于:
a)明确问题管理目标、制度、处理原则,并制定服务请求列表;
b)明确问题管理范围;问题分类分级标准、问题解决原则、问题关闭规则。
设计并实施度量,宜体现:
a)潜在问题主动识别;
b)问题解决质量与重复出现情况;
c)问题解决时效;
d)问题解决率;
e)问题转换为知识的情况。
问题识别与记录
明确问题触发条件并识别问题:
a)明确问题的来源和触发条件;
b)识别问题并按规范要素记录,鼓励主动发掘问题。
问题分类分级
对问题进行分类分级:
a)有明确的问题分类分级定义;
b)按问题的属性划分问题分类和优先级。
问题分析与升级
查找问题的根本原因:
a)分析问题现象和关联事件,定位根本原因;
b)根据需要,升级至后线支持人员处理,调整问题的优先级。
问题解决
制定问题解决方案并实施:
a)针对问题的根本原因,提出并实施根本解决方案,并记录解决过程;
b)暂时无法根本解决的问题,采取规避措施作为临时解决方案;
c)监督、监控问题处理进展,并根据需要协调解决;
d)及时组织问题回访和验证。
问题回顾与关闭
回顾和关闭问题:
a)有明确的问题关闭原则,定义问题关闭干系人角色及评审机制;
b)回顾问题的解决过程与结果,将问题纳入知识管理。
问题管理回顾与改进
定期回顾问题流程的运行情况,对问题流程进行优化。
T/CCUA 036-2024
18
表
A.7 变更与发布管理能力项管理要求
目标
关键活动
要求描述
度量
管理各类变更与发布活动,降低或避免变更与发布风险,控制变更与发布对生产运行的影响,增加变更与发布的效率,保障数据中心安全、稳定、高效运行
变更与发布策略制定
针对变更与发布管理要求分别制定策略:
a)制定变更策略,包括但不限于变更范围、变更分类分级标准、变更前的测试要求、以及与相关方的沟通要求;
b)服务新增或变更需求的落实参照变更管理执行;
c)制定发布策略,包括但不限于发布分类、发布计划、发布频率和时间、时间窗口、发布方式;
d)建立变更与发布的关联和接口;
e)对紧急、重大、特殊保障时期及敏态运维(标准化、自动化、低分险、高效率)关联的变更与发布,建立独立的策略和管理要求。
设计并实施度量,宜体现:
a)变更与发布实施成功的情况;
b)紧急变更的情况;
c)变更与发布引发可用性事件的情况。
变更与发布受理评估
接收、记录并评估变更与发布:
a)所有变更与发布都被记录;
b)接收变更与发布申请,评估其影响、风险和需要的资源。
变更与发布方案制定
制定变更与发布方案:
a)制定变更与发布实施方案、测试计划和实施计划;
b)制定变更与发布回退方案或补救措施。
变更与发布测试
根据方案对发布与变更进行测试,并形成测试报告:
a)建立受控的测试环境,以在部署之前测试所有的变更与发布;
b)对所有变更与发布进行安全检查,按照统一调度执行安全策略检查。
变更与发布方案评审
所有变更与发布均应在方案评审通过后方可被授权,并对变更与发布进行统一调度和排程,明确相关的工作任务。
T/CCUA 036-2024
19
表
A.7 变更与发布管理能力项管理要求(第2页/共2页)
目标
关键活动
要求描述
度量
变更与发布执行
协调变更与发布实施,并监督其执行进展:
a)全程推进、协调变更与发布的实施;
b)对变更与发布的实施结果进行验证;
c)更新配置项信息,并根据需要更新操作手册、应急预案;
d)宜在变更后对关联系统,包括但不限于监控、备份系统的配置按需进行评估并调整。
变更与发布回顾关闭
回顾和关闭变更与发布:
a)回顾变更与发布实施的过程和结果;
b)有明确的变更与发布关闭规则。
T/CCUA 036-2024
20
表
A.8 资产管理能力项管理要求
目标
关键活动
要求描述
度量
通过规范资产各生命周期的活动,掌握资产状态,确保资产安全,提高资产使用效率。
资产管理策略制定
制定资产管理策略:
a)分析资产管理需求,确定资产管理范围和要求;
b)对管理的资产进行分类分级,确定管理原则。
设计并实施度量,宜体现: a)资产管理覆盖率; b)资产状态准确性。
资产生命周期管理
建立资产清单,对实物资产进行生命周期管理:应建立计划采购、使用维护、退役处置等管理活动,明确各生命周期环节的管理要求。
资产监控与报告
持续监控资产状态并生成报告,定期制定资产盘点计划,持续监控资产状态,定期生成资产状态报告,展示所有受控资产的整体状态。
资产管理回顾与改进
监督并报告资产管理执行情况,回顾资产管理效果:
a)按计划时间间隔,每年至少一次对资产管理落实情况进行回顾;
b)报告资产管理策略执行情况,并针对资产管理策略执行效果进行必要的改进。
T/CCUA 036-2024
21
表
A.9 配置管理能力项管理要求
目标
关键活动
要求描述
度量
定义和控制服务与基础设施的组件,维护服务和基础设施的历史、规划和当前状态,保证数据中心运营环境信息的完整性和准确性。
配置管理策略制定
明确配置管理范围,制定配置管理策略:
a)分析配置管理需求,确定配置管理范围,并兼顾管理成本;
b)定义配置项的分类分级,各类配置项的标识方法、命名规范以及属性,确定配置项的基线管理策略;
c)每年制定配置管理计划,明确当年主要的配置管理活动。
设计并实施度量,宜体现:
a)配置信息对于服务与基础设施的覆盖程度;
b)配置信息的准确性。
配置项识别
识别配置项以及关联关系:
a)识别服务生命周期内的配置项及其关系,唯一标识并记录到配置管理数据库中;
b)制定配置管理数据库的访问控制权限。
配置项维护
对配置项进行生命周期管理,并维护其属性和关系:
a)明确配置项的全生命周期环节的管理要求;
b)记录新的或变更的配置项信息,检查配置项对应的实体并更新配置管理数据库;
c)建立与其他能力项的关联和接口。
配置项验证与审核
定期执行配置项的验证与审核:
a)核对和验证配置项信息,确保配置项信息正确记录到配置管理数据库中;
b)宜明确配置数据应用场景,推动配置数据消费;
c)按计划时间间隔,每年至少一次对配置管理数据库进行审核。
配置管理回顾
回顾和确认配置管理效果:
a)生成状态报告,展示所有受控配置项的当前状态和变更历史记录;
b)按照计划的时间间隔,每年至少一次对配置管理效果进行回顾,并持续改进。
T/CCUA 036-2024
22
表
A.10 服务级别管理能力项管理要求
目标
关键活动
要求描述
度量
明确服务目录,以及与相关方达成一致的服务级别协议,保证服务能力符合相关方需要,且可衡量。
服务目录管理
识别和分析相关方服务需求,形成并维护服务目录:
a)梳理数据中心各项服务,确定服务内容以及相关方,形成业务服务目录;
b)识别内部技术服务和供应商服务,梳理服务关系,形成技术服务目录。
设计并实施度量,宜体现:
a)服务级别指标达成情况;
b)相关方满意度。
服务级别协议管理
与相关方签订服务级别协议并组织落实:
a)定期识别服务项的服务级别需求和质量要求, 依据业务服务目录与相关方签订服务级别协议;
b)按照服务级别协议要求监控、度量服务交付质量,保证服务需求响应、处理和反馈的及时性;
c)宜依据技术服务目录,以运营级别协议的形式管理数据中心内部交付质量;
d)对服务级别协议的变更进行管控,当内、外部环境发生重大变化时,回顾服务级别协议。
服务报告
按计划时间间隔,每年至少一次编制服务报告,向相关方报告服务交付情况。
服务级别回顾与确认
回顾与确认服务级别达成情况:
a)与相关方确认服务交付质量,收集服务对象的评价及改进建议,制定服务改进计划,必要时修订服务目录及服务级别协议;
b)按计划时间间隔,每年至少一次对服务级别达成情况进行回顾与确认。
T/CCUA 036-2024
23
表
A.11 可用性管理能力项管理要求
目标
关键活动
要求描述
度量
确保IT服务的可用性满足业务运行的需求,并持续优化
可用性需求分析
与目标确定
确定可用性需求并定义可用性目标:
a)确定业务功能,进行业务影响分析;
b)确定可用性需求,定义可用性、可靠性和可维护性目标;
c)基于可用性目标确定服务可用性,对基础环境、云环境、网络、系统、应用等组件进行影响分析,识别可用性改进项。
设计并实施度量,宜体现:
a)服务可用性达成情况;
b)可用性事件情况及造成的损失。
可用性设计
制定可用性计划:
a)按计划时间间隔,每年至少一次评估服务可用性,制定可用性计划;
b)在重要的系统或应用上线部署前,制定可用性计划。
可用性实施
按照可用性计划实施并进行结果验证:
a)实施可用性计划;
b)基于可用性计划实施结果,对组件、系统和服务的可用性进行验证。
可用性监控与回顾
监控并报告可用性状态,回顾可用性管理效果:
a)回顾可用性事件,制定改进措施;
b)监控可用性,进行可用性趋势分析,编制可用性报告,必要时调整可用性计划;
c)回顾可用性管理效果,调整可用性计划,对可用性管理进行优化。
T/CCUA 036-2024
24
表
A.12 性能与容量管理能力项管理要求
目标
关键活动
要求描述
度量
确保数据中心利用成本合理的资源满足当前及未来业务和服务对性能与容量的需要。
容量管理策略制定
确定容量管理策略,明确管理对象、范围和原则。
a
)应明确容量管理范围,包括但不限于应用、系统、网络、环境等已使用的生产设施资源,同时建立性能和容量指标体系;
b
)应制定容量管理要求,包括但不限于组织架构、专业人员、管理制度和规范,满足日常管理需要。
设计并实施度量,宜体现:
a)资源容量利用情况;
b)由于性能和容量原因造成的可用性事件;
c)容量计划准确性以及计划外需求满足情况。
容量规划与计划制定
依据容量管理范围,分类设计制定容量规划与计划:
a)收集容量需求,范围可考虑业务当前需求、业务发展趋势、系统架构变化、稳态与敏态要求、上一年度性能容量监控情况及容量与性能回顾结果等;
b)分析容量需求,考虑引入科学的性能和容量预测手段,构建性能与容量评估分析模型,对性能与容量进行分析和预测;
c)结合容量需求和管理策略,由指定部门统筹,分专业领域制定资源配置计划和架构优化方案,形成中长期容量规划;
d)制定容量中长期规划,并按计划时间间隔及专项容量计划,每年至少一次制定容量计划 。
容量计划执行
按照容量计划执行资源分配:
a)为计划内的容量需求组织和分配资源;
b)根据资源使用情况为计划外的容量需求分配资源,调整容量计划。
性能容量监控
持续进行性能和容量监控:
a)设定性能和容量监控指标,并设置合理的阈值;
b)对性能和容量进行监控和阈值监测,收集整理监控数据,报告、计量资源当前的性能与使用状况。
T/CCUA 036-2024
25
表
A.12 性能与容量管理能力项管理要求(第2页/共2页)
目标
关键活动
要求描述
度量
容量分析与优化
进行容量分析,采取优化措施:
a)定期(每年至少一次)对性能和容量分析,结合当前资源状况,形成容量优化方案和计划,并组织评估审批;
b)按计划实施配置调优、设备升级、资源扩容或裁减等有关的变更。
容量与性能回顾
回顾容量与性能管理效果,按计划时间间隔,每年至少一次对容量计划的执行情况进行回顾。
T/CCUA 036-2024
26
表
A.13 IT服务连续性管理能力项管理要求
目标
关键活动
要求描述
度量
确保在灾难发生之后IT基础设施和IT服务能够在规定的时间内得到恢复,从而支持总体的业务连续性要求。
IT服务连续性管理需求分析
确定IT服务连续性管理范围和管理需求:
a)根据业务连续性需求和监管要求,识别IT服务连续性需求,确定IT服务连续性管理范围;
b)根据业务需求和监管要求确定IT服务或系统的重要性。
设计并实施度量,宜体现:
a)IT 服 务 连 续 性 目 标(RTO、RPO)达成情况;
b)测试演练完成情况;
c)事件处理与应急预案的匹配度。
IT服务连续性管理策略制定
基于IT服务影响分析和风险评估结果,制定连续性管理策略:
a)针对支撑业务的IT服务或系统进行业务影响分析和风险评估(如信息系统风险、场地风险、供应链风险等),确定其所处环境中的威胁和薄弱环节,明确需要应对的日常应急场景和灾难场景;
b)根据IT服务连续性管理需求、影响分析以及风险评估结果,确定管理目标,制定管理策略,宜包括服务恢复范围、应急组织架构、灾难恢复资源、服务恢复优先顺序;
c)连续性管理目标符合业务要求与监管要求。
IT服务连续性计划制定
根据IT服务连续性管理策略,针对需要应对的日常应急场景和灾难场景,制定IT服务连续性计划,包括但不限于容灾系统设计、应急恢复预案设计、演练计划设计。
T/CCUA 036-2024
27
表
A.13 IT服务连续性管理能力项管理要求(第2页/共2页)
目标
关键活动
要求描述
度量
IT服务连续性计划实施
根据IT服务连续性计划实施容灾系统和应急恢复预案的建立、对预案进行演练和维护:
a)组织实施IT服务连续性计划,包括但不限于成立应急管理组织、建设容灾系统、编制应急预案、编制IT服务恢复预案、预案培训;
b)对容灾系统进行测试,对预案进行演练,测试和演练的方式与频率符合监管要求;
c)实施IT服务连续性维护,包括但不限于容灾系统维护、预案维护、应急管理组织维护;
d)急恢复预案覆盖日常应急及灾难发生的各阶段,包括但不限于应急响应、应急处置或灾难恢复及恢复运营阶段。
IT服务连续性回顾与确认
回顾和确认IT服务连续性管理效果:
a)按计划时间间隔,每年至少一次对 IT 服务连续性效果进行回顾,并进行必要的调整;
b)在组织环境、业务需求、系统架构出现重大变更时,对IT服务连续性方案进行回顾与确认;
c)对应急预案的实施情况进行回顾与确认。
T/CCUA 036-2024
28
附 录 B
(资料性)
人员配备建议
各级平台运维人员配备建议配比如表B.1所示:
表B.1 各级平台人员配备建议
所属平台
人员角色
人员配比
一级平台
高级运维工程师
每 100 个系统用户配备不宜低于1名
数据库管理员
每 200 个系统用户配备不宜低于1名
网络专家
每 500 个系统用户配备不宜低于1名
二级平台
中级运维工程师
每个二级平台配备不宜低于1名
技术支持人员
每个二级平台配备不宜低于1名
三级平台
初级运维工程师或现场技术人员
每个三级平台配备不宜低于1名
T/CCUA 036-2024
29
参考文献
[1]
GB/T 11457-2006 信息技术 软件工程术语
[2]
GB/T 22080-2016 信息技术 安全技术 信息安全管理体系要求
[3]
GB/T 24405.1-2009 信息技术 服务管理 第1部分:规范
[4]
GB/T 31168-2023 信息安全技术 云计算服务安全能力要求
[5]
GB/T 32402-2015 通信名词术语 数据通信 因特网
[6]
GB/T 35295-2017 信息技术 大数据 术语
[7]
GB/T 42562-2023 工业互联网平台选型要求
[8]
GB/T 42569-2023 工业互联网平台 开放应用编程接口功能要求
[9]
COBIT 5 - 企业IT治理和管理之业务框架, 国际信息系统审计协会, 2012
[10]
Gartner: IT Infrastructure and Operations: Still Immature After All These Years, 2011.4
[11]
IEC 62337:2012,3.13
评论