CCS L 70
团体标准
T/CPRA 2102.2—2024
中华文化素材库技术要求 第2部分:图片类书籍数据质量要求
Technical requirements for material database of Chinese culturePart 2: Data quality requirements for image-based books
2024-12-13 发布2024-12-13 实施
中国公共关系协会文化大数据产业委员会发布
目次
前言............................................................................... II
1 范围............................................................................... 1
2 规范性引用文件..................................................................... 1
3 术语和定义......................................................................... 1
3.1 中华文化素材库................................................................ 1
3.2 文化数字内容.................................................................. 1
3.3 文化资源数据.................................................................. 2
4 总体要求........................................................................... 2
4.1 数据范围...................................................................... 2
4.2 数据入库格式.................................................................. 2
4.3 数据命名原则.................................................................. 3
5 图片类书籍数据入库流程............................................................. 3
5.1 入库流程...................................................................... 3
6 数据要求........................................................................... 5
6.1 平面数据...................................................................... 5
6.2 文本数据...................................................................... 6
6.3 表格数据...................................................................... 6
6.4 书籍数据...................................................................... 6
7 数据属性要求....................................................................... 6
7.1 属性基本要求.................................................................. 6
7.2 属性数据结构要求.............................................................. 6
T/CPRA 2102.2-2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的
规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国公共关系协会文化大数据产业委员会提出并归口。
本文件起草单位:北京邮电大学、北京玖扬科技有限公司、伏羲云(北京)文化科技有限公
司。
本文件主要起草人:徐坤、高凯、赵海英、薛晓鹏、尹晖、侯小刚、徐鹏举、曹明炜、周月、
张炼、崔义娜、陈磊、刘志军、李媛媛。
T/CPRA 2102.2-2024
1
中华文化素材库技术要求
第2 部分:图片类书籍数据质量要求
1 范围
本文件规定了中华文化素材库中图片类书籍数据的质量要求,包括图片类书籍数据的入库数据
类型、质量标准、以及相关的入库流程等内容。
本文件适用于中华文化素材库构建过程中对于图片类书籍数据的采集、处理、存储、管理和应
用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用
文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)
适用于本文件。
GB/T 1.1-2020 标准化工作导则第1 部分:标准化文件的结构和起草规则
T/CPRA 1-2021 国家文化大数据标准体系
T/CPRA 300-2023 文化数字内容分类与代码
T/CPRA 301-2023 文化资源数据分类与代码
3 术语和定义
下列术语和定义适用于本文件。
3.1 中华文化素材库material database of chinese culture
以文化资源数字化成果为原料,集成运用各种新技术,萃取中华文化之要素,并分门别类标签
化,进而形成的可组合使用的素材库。按照文化呈现要素中华文化素材库可划分为中华字库、中华
音库、中华像库、中华乐库、中华舞库、中华剧库等。中华文化素材库的来源是多元的,中国文化
遗产标本库和中华民族文化基因库的数据是重要来源,文化企事业单位已建成的文化艺术、新闻出
版、广播电视、网络视听、电影等数据库,也是重要来源。相关数据通过国家文化专网实现共享。
[来源:T/CPRA 301-2023 定义3.1.4]
3.2 文化数字内容cultural digital content
以数字形式存在的文化产品,一般以文字、图片、音频、视频、多媒体和其他形式表现。通常
包括传统文化产品的数字化以及以数字形式存在的文化产品。国家文化大数据体系下文化数字内容
主要涵盖中华优秀传统文化、革命文化和社会主义先进文化等。
文化数字内容作为数字化文化生产线的产出,由文化大数据服务平台管理与分发,并通过文化
体验设施和设备消费。通常情况下,文化数字内容又称为文化数字产品、文化数字内容产品等。
[来源:T/CPRA 300-2023 定义3.1.1]
T/CPRA 2102.2-2024
2
3.3 文化资源数据cultural resources data
对人类文化中传承下来并可以传播利用的文化(包括物质的和非物质的)进行数字化采集后,
所得到的用于识别和展现文化的图像、文字、声音、动画、影片、三维全景、三维模型等数据。国
家文化大数据体系下文化资源数据主要包括中国文化遗产标本库、中华民族文化基因库、中华文化
素材库中的数据。
[来源:T/CPRA 301-2023 定义3.1.1]
4 总体要求
4.1 数据范围
中华文化素材库中,图片类书籍数据的入库范围包括:
a) 图片类书籍相关素材,涵盖但不限于与中华字库、中华像库等具有图像特性关联的子库内
容;
b) 中国文化遗产标本库、中华民族文化基因库中与图片类书籍直接相关的数据;
c) 文化企事业单位已建成的与图片类书籍相关的数据资源,包括图书馆馆藏的数字化书籍与
期刊、文化研究机构或高校出版的图片类书籍与论文、电子书平台的数字出版内容,以及
出版机构或文化博物馆等单位的图书插图、画册资源等。
4.2 数据入库格式
4.2.1 平面数据
表1 平面数据格式
数据类型数据格式
图像.jpg、.png、.tiff、.bmp、.svg
矢量图.eps、.pdf
4.2.2 文本数据
表2 文本数据格式
数据类型数据格式
纯文本.txt
富文本.docx、.rtf
排版数据.tex、.pdf
4.2.3 表格数据
表3 表格数据格式
数据类型数据格式
表格内容.xls、.xlsx、.csv
T/CPRA 2102.2-2024
3
4.2.4 书籍数据
表4 书籍数据格式
数据类型数据格式
书籍文档.docx、.pdf、.epub
4.3 数据命名原则
数据文件命名宜按照“数据类型+数据编号”两部分进行编码,共16 位,使用char 字符进行存
储。数据类型字段与命名所属数据类型相关,编码对照表见表5。数据编号按照YYYY-MD-Number
(2020-1201-00000001)的格式进行编码。该编码规则不同的数据类型每天可添加一千万个不同的数
据。编码规则见图1。
XXXX XXXX-XXXX-XXXXXXXX 数据文件命名代码
数据编号
数据类型
图1 命名编码规则
表5 数据类型编码对照表
数据类型数据编码
平面数据PMSJ
文本数据WBSJ
表格数据BGSJ
书籍数据SJSJ
5 图片类书籍数据入库流程
5.1 入库流程
图片类书籍数据的入库流程包括文化素材数据准备、数据类型与质量校验、数据修改与优化,
以及最终的数据录入。入库流程旨在确保图片类书籍数据符合文化素材库的数据管理规范,具体流
程如图2 所示。
T/CPRA 2102.2-2024
4
入库前类型校验
文化素材数据准备修改
合格
N
Y
数据录入
合格
入库前质量校验
Y
N
图2 图片类书籍数据入库流程
5.1.1 文化素材数据准备
文化素材数据准备包括以下步骤:
a) 素材数据采集:从图片类书籍中提取与内容相关的图片、文字、表格等数据,确保素材完
整性;
b) 数据整理与清洗:按照中华文化素材库的设计要求,对采集的素材数据进行清理,包括删
除重复数据条目,避免冗余存储;填补缺失值,确保数据的完整性;纠正异常值,确保数
据的准确性与一致性等步骤;
c) 数据分类:根据图片类书籍数据的属性特征,将数据初步划分为平面数据、文本数据、表
格数据等类别,以便后续处理。
5.1.2 入库前类型校验
在素材数据入库前,需进行严格的数据类型校验,具体包括:
a) 数据类型验证:依据素材的预期用途,对数据的格式和类型进行校验,确保其符合数据库
设计的接受范围。具体数据类型要求参考4.2 的相关内容;
b) 不匹配数据处理:对于不符合类型规范的素材数据,进行必要的转换与调整,确保数据类
T/CPRA 2102.2-2024
5
型与标准一致;
c) 数据类型确认:校验无误后,确认素材数据的最终类型,以确保数据分类与数据库需求一
致。
5.1.3 入库前质量校验
入库前的质量校验旨在确保素材数据符合质量要求,具体步骤包括:
a) 数据类型确认:基于5.1.2 的校验结果,明确数据的类型属性;
b) 质量校验内容确定:按照素材数据的类型,制定具体的质量校验标准,如平面数据的分辨
率、文本数据的完整性、表格数据的结构化程度等,具体要求详见6;
c) 执行质量校验:依据校验标准对数据进行检查,不符合质量要求的数据标记为“需修改”,
通过质量校验的数据进入后续流程。
5.1.4 数据修改
数据修改是对未通过质量校验的素材数据进行优化和调整的关键步骤,具体包括以下内容:
a) 问题定位与修正:识别数据中存在的具体问题(如图像分辨率不足、文本内容不完整或表
格字段缺失),并依据质量标准进行修正或补充;
b) 一致性检查:确保修改后的数据在格式、内容和结构上与数据库要求保持一致,例如统一
命名规则、字符编码和字段顺序等;
c) 记录与复核:对修改过程及结果进行记录,并进行二次校验,确保所有调整后的数据符合
入库质量要求。
5.1.5 数据录入
经过类型校验、质量校验和数据修改的图片类书籍素材数据,可进行正式录入,具体要求包括:
a) 录入数据标准化:按照平面数据、文本数据、表格数据的分类,分别存储,并关联其原始
书籍;
b) 录入元数据生成:生成包括数据标识符、格式、存储地址等在内的标准元数据,元数据规
范参考7;
c) 数据存储与备案:将录入数据上传至指定的存储地址,并备案其入库时间、修改记录和版
本信息,以便后续管理和追溯。
6 数据要求
6.1 平面数据
表6 平面数据质量要求
级别峰值信噪比(PSNR) 信号失真率结构相似度(SSIM)
高质量图像≥30dB ≥0.8 ≥0.85
中等质量图像≥20dB 且<30dB ≥0.5 且<0.8 ≥0.6 且<0.85
低质量图像<20dB <0.5 <0.6
T/CPRA 2102.2-2024
6
6.2 文本数据
表7 文本数据质量要求
级别缺失数据比率一致性检验通过率平均误差率
高<5% ≥99% <5%
一般≥5%且<10% ≥95%且<99% ≥5%且<10%
差≥10% <95% ≥10%
6.3 表格数据
表8 表格数据质量要求
级别缺失数据比率单元格完整率表格格式一致性数据准确率
高<5% ≥98% ≥95% ≥99%
一般≥5%且<10% ≥95%且<98% ≥90%且<95% ≥95%且<99%
差≥10% <95% <90% <95%
6.4 书籍数据
表9 表格数据质量要求
级别缺失数据比率元数据完整率格式一致性OCR 识别准确率
高<3% ≥98% ≥95% ≥99%
一般≥3%且<7% ≥95%且<98% ≥90%且<95% ≥95%且<99%
差≥7% <95% <90% <95%
7 数据属性要求
7.1 属性基本要求
数据属性的基本要求是:
a) 每个数据体应包含完整的属性信息,确保可追溯性与准确性。详细属性信息要求见7.2。
b) 数据体样本编号符合本标准定义,详细定义见4.3。
c) 数据类型需匹配相应的入库格式(如图像、文本等),并符合4.2 提出的具体数据格式
7.2 属性数据结构要求
属性结构应满足表10、表11、表12、表13 要求,如下表所示。
表10 平面数据属性结构表设计
序号字段名称数据类型字段长度必填
1 名称字符串300 是
2 文化数据标识符字符串100 是
3 来源书籍标识符字符串100 是
4 来源书籍名称字符串300 是
5 描述字符串400 是
6 服务类型字符串100 自动获取
7 贡献者字符串300 是
T/CPRA 2102.2-2024
7
8 著作权人字符串100 是
9 载体受控词100 是
10 登记者字符串100 自动获取
11 登记日期日期100 自动获取
12 标签字符串100 否
13 文件大小字符串100 自动获取
14 格式字符串100 自动获取
15 存储地址字符串100 自动获取
16 分辨率字符串100 自动获取
17 文件MD5 字符串100 自动获取
18 版权登记号字符串100 否
19 版权归属字符串100 否
20 版权开始时间日期100 否
21 版权结束时间日期100 否
文本数据属性结构要求如下表所示。
表11 文本数据属性结构表设计
序号字段名称数据类型字段长度必填
1 名称字符串300 是
2 文化数据标识符字符串100 是
3 来源书籍标识符字符串100 是
4 来源书籍名称字符串300 是
5 描述字符串2000 是
6 服务类型字符串100 自动获取
7 贡献者字符串300 是
8 著作权人字符串100 是
9 载体受控词100 是
10 登记者字符串100 自动获取
11 登记日期日期100 自动获取
12 标签字符串100 否
13 文件大小字符串100 自动获取
14 格式字符串100 自动获取
15 语种受控词100 是
16 存储地址字符串100 自动获取
17 文件MD5 字符串100 自动获取
18 版权登记号字符串100 否
19 版权归属字符串100 否
20 版权开始时间日期100 否
21 版权结束时间日期100 否
表格数据属性结构要求如下表所示。
表12 表格数据属性结构表设计
序号字段名称数据类型字段长度必填
T/CPRA 2102.2-2024
8
1 名称字符串300 是
2 文化数据标识符字符串100 是
3 来源书籍标识符字符串100 是
4 来源书籍名称字符串300 是
5 描述字符串400 是
6 服务类型字符串100 自动获取
7 贡献者字符串300 是
8 著作权人字符串100 是
9 载体受控词100 是
10 登记者字符串100 自动获取
11 登记日期日期100 自动获取
12 版本受控词100 是
13 文件大小字符串100 自动获取
14 格式字符串100 自动获取
15 存储地址字符串100 自动获取
16 文件MD5 字符串100 自动获取
17 版权登记号字符串100 否
18 版权归属字符串100 否
19 版权开始时间日期100 否
20 版权结束时间日期100 否
书籍数据属性结构要求如下表所示。
表13 书籍数据属性结构表设计
序号字段名称数据类型字段长度必填
1 名称字符串300 是
2 文化数据标识符字符串100 是
3 作者字符串300 是
4 引用文献字符串1000 否
5 涉及领域受控词100 是
6 服务类型字符串100 自动获取
7 登记者字符串100 自动获取
8 登记日期日期100 自动获取
9 描述字符串400 是
10 标签字符串100 否
11 文件大小字符串100 自动获取
12 格式字符串100 自动获取
13 存储地址字符串100 自动获取
14 文件MD5 字符串100 自动获取
15 版权登记号字符串100 否
16 版权归属字符串100 否
17 版权开始时间日期100 否
18 版权结束时间日期100 否
评论