CCS L 67
团体标准
T/CAPT 012—2024
新闻行业大规模预训练模型研发数据要求
News Industry—Large-scale pre-trained models—Requirements for research anddevelopment data
2024 - 12- 18 发布2024 - 12- 18 实施
中国新闻技术工作者联合会 发布
目次
前言.................................................................................. II
引言................................................................................. III
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 训练数据使用场景.................................................................... 2
4.1 概述............................................................................ 2
4.2 预训练阶段要求.................................................................. 2
4.3 指令微调阶段要求................................................................ 2
4.4 多模态场景下要求................................................................ 7
5 训练数据评价........................................................................ 8
5.1 概述............................................................................ 8
5.2 评价维度........................................................................ 8
5.3 评测执行........................................................................ 9
5.4 评测方法........................................................................ 9
参考文献.............................................................................. 16
T/CAPT 012—2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提
出。
本文件由中国新闻技术工作者联合会归口。
本文件起草单位:新华通讯社通信技术局、北京北大方正电子有限公司、杭州前方信息技术有限公
司、江苏联著实业股份有限公司、北京星震同源数字系统股份有限公司、中国互联网新闻中心、华为云
科技有限公司、中科闻歌科技股份有限公司、中联超清(北京)科技有限公司、拓尔思信息技术股份有限
公司、新华社媒体融合生产技术与系统国家重点实验室(新华融合媒体科技发展(北京)有限公司)、
中国传媒大学、深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、中国新闻社、福建理
工大学。
本文件主要起草人:路海燕、王宇琦、张丹、王建利、刘万福、王楠、王建平、贾珣、赵伟东、朱
迅、王京、王付生、佘泽鹏、区可明、罗毅、林波、成鹏、王仲豪、郑创伟、瞿曦、邓海滢、刘琼、张
鹏洲、曹娟、王志民、殷圣忠、王峰、熊立波、王熠、王慕维、付蓉、孙心桐、黄菁。
T/CAPT 012—2024
III
引言
《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型
安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模
态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和
规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。
《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时
的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导,确保模型在真
实新闻生产过程中具备足够的实用性和效果。
《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方
法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示
例,以确保评测过程的科学性和规范性。
《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等
环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规,
确保数据安全、内容合规。
《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数
据,提出了技术要求。该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的
性能和可靠性。
《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等
方面的要求,特别是在处理多模态数据时的技术标准。该标准的制定,进一步拓展了预训练模型的应用
范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。
5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面而系统的框架,
为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。
T/CAPT 012—2024
1
新闻行业大规模预训练模型研发数据要求
1 范围
本文件规定了用于新闻领域的大规模预训练模型训练数据的使用场景、训练数据评价等要求,包括
在训练、微调、评估等环节中涉及到的数据的技术要求。
本文件适用于通讯社、报社、广播电台、电视台、杂志社、网络媒体等多种媒体机构在新闻领域进
行大规模预训练模型构建过程中的研发活动。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 20093 中文新闻信息分类与代码
GB/T 41867 信息技术人工智能术语
3 术语和定义
3.1
大规模预训练模型large-scale pre-trained models
一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10亿个参数),通常由深度
神经网络构建,对海量数据进行预训练处理。
3.2
大规模预训练语言模型large-scale pre-trained language models
一种基于大规模文本数据进行自监督学习、完成特定预训练任务,可通过零样本学习(zero-shot)
方式进行交互、并可以通过微调((fine-tuning))进行特定任务加强的自然语言处理技术。
注:其具有强大的语言理解和生成能力,可应用于常见的所有自然语言处理任务。
3.3
大规模预训练多模态模型large-scale pre-trained multi-modal models
一种能够在多种异构数据模态(如文本、图像、音频等)上进行表征学习的深度神经网络模型,其
核心特征在于通过大规模跨模态数据的无监督预训练,捕捉不同模态之间的语义共性与相关性,从而生
成具有广泛迁移能力的统一描述模型。
注:其特点是通过对比学习、跨模态对齐与融合机制,实现不同模态之间的高效信息交互与融合,增强在多模态任
务中的表现,如跨模态检索、视觉-语言生成、视觉问答等。
3.4
预训练pre-training
在大量通用数据上进行模型训练的过程。
3.5
微调fine-tuning
为提升人工智能模型的预测精确度,一种先以大型广泛领域数据集训练,再以小型专门领域数据集
继续训练的附加训练技术。
注:常用于解决过拟合问题。
[来源:GB/T 41867—2022,3.2.31]
T/CAPT 012—2024
2
3.6
微调数据fine tuning data
针对新闻理解、生成、编辑等具体任务,用于模型微调的标注数据。
3.7
指令/提示词prompt
给预训练模型提示输入模型的参数信息,描述问题需求类型,帮助模型更好地理解输入的意图,并
作出相应的响应。
4 训练数据使用场景
4.1 概述
预训练阶段要求了在预训练阶段所使用的训练数据应满足的标准,包括格式要求、语言语种要求、
来源可靠要求.指令微调阶段要求了微调阶段训练数据应满足的标准,涉及到了主流新闻业务场景,包
括新闻理解类、新闻生成类、新闻编辑类、新闻评论类四个大类,以及拒答任务的特殊分类。此外,针
对多模态模型,提出了额外的数据要求。
4.2 预训练阶段要求
4.2.1 格式要求
在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应以标记格式(Markdown Format)
进行编码。确保训练数据噪声较少,同时兼容尽可能多的数据表示类型(如文本、表格等),可使训练
出来用于新闻业务的模型具有足够的表达能力。
4.2.2 语种要求
在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应包括简体中文在内的,不少于3
种联合国官方语言。确保模型具有多语种能力,满足国际传播的应用需求。
4.2.3 来源要求
在训练新闻行业预训练模型过程中,用于预训练阶段的文本数据应满足来源可信的要求。通过对训
练数据进行来源标记,确保每条数据有据可查。可使训练出来用于新闻业务的模型具有的知识准确、可
信、可溯源。
4.3 指令微调阶段要求
4.3.1 新闻理解要求
4.3.1.1 概述
该类指令微调数据用于增强模型在新闻理解任务中的能力,该项任务包括但不限于新闻要素识别、
新闻类型判别、核心信息提取、新闻倾向判断4个子类。
4.3.1.2 新闻要素识别
新闻要素识别要求包括:
a) 指令部分应包括新闻提取六要素的语义即新闻的时间、地点、人物、事件的起因、经过、结
果的语义;
b) 输入部分应包括完整的新闻文本;
c) 输出部分应根据指令及输入部分给出正确的回答。如输入文本中不包括部分要素,则该要素
项返回空。
4.3.1.3 新闻类型判别
新闻类型判别指令部分应包括“对新闻类型进行判别”的语义,其中,新闻类型评价维度包括:
T/CAPT 012—2024
3
a) 体裁:包括消息、通讯、评论、公文公报等;
b) 范围:包括国内新闻、国外新闻等;
c) 主题:应符合GB/T 20093 中的分类要求,其中:
1) 输入部分应包括完整的新闻文本;
2) 输出部分应根据指令及输入部分,给出正确的类型;
3) 训练数据集应同时包括新闻类型的单维度判别指令数据和多维度判别指令数据。
4.3.1.4 核心信息提取
核心信息提取要求包括:
a) 指令部分应包括“对新闻提取关键词或摘要”的语义;
b) 输入部分应包括完整的新闻文本;
c) 输出部分应根据指令及输入部分,给出正确的关键词或摘要,其中:
1) 关键词:输入新闻中的关键性内容,包括实体词和谓语;
2) 摘要:最关键的新闻元素,以自然语言的方式表述。
d) 训练数据集中应同时包括:分别提取关键词和摘要的指令数据以及同时提取的指令数据。
4.3.1.5 新闻倾向判断
新闻倾向判断要求包括:
a) 指令部分应包括“对新闻的立场倾向进行判断”的语义;
b) 输入部分应包括完整的新闻文本;
c) 输出部分应根据指令及输入部分,给出正确的、唯一的倾向词,倾向词可分为正面、负面、
中性;
d) 训练数据集中包含正面、负面、中性的记录数应大致维持1:1:1 的比例。
4.3.2 新闻生成要求
4.3.2.1 概述
该类指令微调数据用于增强模型在新闻生成任务中的能力,该项任务包括但不限于简讯生成、消息
生成、通讯生成、特写生成、专访生成、公文公报生成6个子类。
该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。
4.3.2.2 简讯生成
简讯生成要求包括:
a) 指令部分应包括“根据输入生成简讯类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 简讯的基本要求:包括简讯的长度、时效性、语言风格、核心主题等;
2) 相关素材。
c) 输出部分为一篇简讯文稿。满足输入部分所提出的要求,文本结构上整体短小精炼,具备标
题以及主体自然段,语言上简明易懂,不包括过度复杂或冗长的句子。
4.3.2.3 消息生成
消息生成要求包括:
a) 指令部分应包括“根据输入生成消息类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 消息的基本要求:包括消息的长度、主题、关键要素等;
2) 相关素材。
c) 输出部分为一篇消息文稿。满足输入部分所提出的要求,长度一般满足500~800 字(词),
文本结构上通过标题、导语、主体三层结构推进,内部不包括二级标题。
4.3.2.4 通讯生成
T/CAPT 012—2024
4
通讯生成要求包括:
a) 指令部分应包括“根据输入生成通讯类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 通讯的基本要求:包括通讯的主题、关键要素、长度等;
2) 不少于3 段相关素材。
c) 输出部分为一篇通讯文稿。满足输入部分所提出的要求,篇幅不少于1000 字,具有多级标题,
语言上应流畅、准确,有一定的文学性。
4.3.2.5 特写生成
特写生成要求包括:
a) 指令部分应包括“根据输入生成特写类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 特写的基本要求:包括特写的主题、特写对象、关键要素、语言风格等;
2) 不同主题、不同角度、长度不少于600 字的相关素材,不少于3 篇。
c) 输出部分为一篇特写文稿。满足输入部分所提出的要求,篇幅不少于1000 字,结构上应包括
开头、人物信息、背景细节等多层次信息,突出人物或事件的情感中心,文风上要求细腻的
描写。
4.3.2.6 专访生成
专访生成要求包括:
a) 指令部分应包括“根据输入生成专访类新闻”的语义。
b) 输入部分应提供包括但不限于以下内容:
1) 专访的基本要求:包括专访主题、专访对象、关键要素等。
2) 相关素材:包括采访实录、事件的背景信息、人物的历史报道等。
c) 输出部分为一篇专访文稿。满足输入部分所提出的要求,篇幅不少于1000 字,结构上应采用
直接引语或者间接引语的方式,应将被采访者的回答有机的融合其中,形成具有逻辑性的文
稿。
4.3.2.7 公文公报生成
公文公报生成要求包括:
a) 指令部分应包括“根据输入生成公文公报类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 公文公报的基本要求:包括核心主题、写作主体、格式要求、语言风格等;
2) 相关素材:包括正式的政策文件、领导人讲话稿、公报、授权媒体发表等官方文件。
c) 输出部分为一篇公文/公报文稿。满足输入部分所提出的要求,所引用的部分必须准确无误,
文章主体部分具有清晰的层次结构,突出核心和关键信息,采用正式的、严谨的语言,保证
专业性和权威性。
4.3.3 新闻编辑要求
4.3.3.1 概述
该类指令微调数据用于增强模型在新闻编辑任务中的能力,该项任务包括但不限于扩写、摘要、润
色、续写、核校5个子类。
该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。
4.3.3.2 扩写
扩写要求包括:
a) 指令部分应包括“根据输入进行扩写”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 扩写对象的原文;
T/CAPT 012—2024
5
2) 扩写的基本要求:包括扩写主题、方向、语言风格、篇幅等;
3) 相关素材。
c) 输出部分为一篇扩写后的文稿。满足输入部分所提出的要求,扩写逻辑与原文一致,不引入
矛盾或不相关信息,各个部分过渡自然,新增内容准确无误,不涉及臆测和误导性陈述。
4.3.3.3 摘要
摘要要求包括:
a) 指令部分应包括“根据输入得到摘要”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 待摘要的原文;
2) 摘要的基本要求:包括主题、篇幅等。
c) 输出部分为一篇摘要文稿。满足输入部分所提出的要求,包括原文中主要事件、观点和数据。
篇幅明显小于原文,摘要所提供的信息不得捏造、省略或曲解。
4.3.3.4 润色
润色要求包括:
a) 指令部分应包括“对输入原文进行润色”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 待润色的原文。
2) 润色的基本要求:包括修改方式、修改方向、语言风格等;
c) 输出部分为一篇润色后的文稿。满足输入部分所提出的要求。
4.3.3.5 续写
续写要求包括:
a) 指令部分应包括“对输入原文进行续写”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 待续写的原文;
2) 续写的基本要求:包括核心主题、续写方式、表达方式、语言风格等。
c) 输出部分为一篇续写文稿。满足输入部分所提出的要求,与原文保持风格和立场一致,延伸
了事件或主题的发展,添加后的内容能够提供额外的背景、数据、观点等与原文相一致的信
息,新添加的内容不引入错误或不实陈述。
4.3.3.6 核校
核校要求包括:
a) 指令部分应包括“对输入原文进行核校”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 待核校的原文;
2) 润色的基本要求:包括核校规则、效果要求等。
c) 输出部分为一篇核校后的文稿。满足输入部分所提出的要求,核校后应确保事实性,在排版、
标点和引用方面符合规范,不存在拼写、语法等问题;
d) 训练数据集中应同时包含完全正确的待核校原文和存在错误的待核校原文。
4.3.4 新闻评论要求
4.3.4.1 概述
该类指令微调数据用于增强模型在新闻评论任务中的能力,该项任务包括但不限于社论、评论员文
章、专栏评论、短评、述评5个子类。
该类数据组成的训练数据集中,每组指令-输入应对应生成不少于2篇标准输出。
4.3.4.2 社论
T/CAPT 012—2024
6
社论要求包括:
a) 指令部分应包括“根据输入生成社论类新闻”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 社论的基本要求:包括核心主题、篇幅要求、核心论点等;
2) 相关素材:包括相关政策方针、公文公报报道、事实素材、官方新闻等。
c) 输出部分为一篇社论文稿。满足输入部分所提出的要求,阐明观点、立场和主张,与党和国
家的政策方针一致,具有逻辑严密的总分论点、论据详实准确,文风庄重、严谨。
4.3.4.3 评论员文章
评论员文章要求包括:
a) 指令部分应包括“根据输入生成评论员文章”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 评论员文章的基本要求:包括核心主题、篇幅要求、核心论点等;
2) 相关素材:包括新闻报道、社会舆论等。
c) 输出部分为一篇评论员文章文稿。满足输入部分所提出的要求,阐明观点、立场和主张,与
党和国家的政策方针一致,具有逻辑严密的总分论点、论据详实准确,文风庄重、通俗。
4.3.4.4 专栏评论
专栏评论要求包括:
a) 指令部分应包括“根据输入生成专栏评论”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 专栏评论的基本要求:包括核心主题、篇幅要求、核心论点、行文结构、语言风格等;
2) 相关素材:包括新闻报道、社会舆论等。
c) 输出部分为一篇专栏评论文稿。满足输入部分所提出的要求,与社会主流价值观一致、联系
生活实际,逻辑严密、论点清晰,文风通俗。
4.3.4.5 短评
短评要求包括:
a) 指令部分应包括“根据输入生成短评”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 短评的基本要求:包括核心主题、观点立场、语言风格、篇幅要求等;
2) 相关素材:包括新闻报道等。
c) 输出部分为一篇短评文稿。满足输入部分所提出的要求,论题具体、针对性强,结构多样,
文风严谨、精炼、生动。
4.3.4.6 述评
述评要求包括:
a) 指令部分应包括“根据输入生成述评”的语义;
b) 输入部分应提供包括但不限于以下内容:
1) 述评的基本要求:包括核心主题、语言风格等;
2) 相关素材:包括新闻报道、社会舆论等。
c) 输出部分为一篇述评文稿。满足输入部分所提出的要求,述评结合、就事论理,文风通俗、
具有启发性。
4.3.5 拒答任务要求
4.3.5.1 概述
该类指令微调数据用于增强模型在安全输出方面的能力,对于违反国家法律法规,违背公序良俗、
不符合社会主义核心价值观的指令及输入,指令模型拒绝,其中:
a) 指令部分应包括“违反国家法律法规,违背公序良俗、不符合社会主义核心价值观”的语义;
T/CAPT 012—2024
7
b) 输入部分同指令部分或为空;
c) 输出部分为“拒绝回答”的语义。
4.4 多模态场景下要求
4.4.1.1 概述
多模态场景是指在新闻大模型训练中,会使用到多种不同类型的数据模态,包括但不限于文本、图
像、声音、视频。在人工智能领域,多模态训练应对不同模态的信息进行理解和学习,并在它们之间建
立联系。除应符合《新闻行业大规模预训练模型多模态要求》中约定的要求之外,其研发数据还需
要符合以下要求:
4.4.2 真实性要求
真实性要求包括:
a) 数据真实性:训练数据集中文本、图片、音视频等内容必须基于事实,杜绝未经证实或虚假
内容;
b) 数据可溯源性:确保数据来源可追溯,包括但不限于官方认证的新闻发布平台、官方网站、
专业机构等,保证数据来源真实性;
c) 数据备份媒体介质要求:数据备份媒体介质应具有物理不可删改的技术特性。
4.4.3 安全性要求
安全性要求包括:
a) 综合安全要求:多模态数据应按照尊重知识产权和个人隐私,遵守道德和公序良俗,符合社
会主义核心价值观等标准划分安全级别;
b) 限制级别要求:针对图片视频中易出现的血腥暴力以及涉黄、涉毒等问题,应有严格的级别
划分;
c) 版权要求:多模态数据应取得相应版权后才能用于训练。
4.4.4 丰富性要求
丰富性要求包括:
a) 场景覆盖度要求:数据应覆盖多种新闻报道场景,包括但不限于政治、经济、文化、体育等,
保证模型泛化能力;
b) 内容丰富性要求:数据应覆盖新闻行业可能遇到的各种多模态场景,包括但不限于图文报道、
视频直播、访谈录音等;
c) 多样性与包容性要求:确保多模态数据集在包括但不限于性别、年龄、文化背景等方面具有
多样性和包容性。
4.4.5 准确性要求
准确性要求包括:
a) 质量控制要求:多模态数据需通过质量检测,对合成、修改等技术处理后的数据进行特别标
记。且多模态数据应清晰可读,适合模型训练;
b) 内容准确性要求:确保多模态数据内容质量和可靠性;
c) 标注准确性要求:多模态数据体现的内容应与文字描述或标签内容一致;
d) 时间性要求:所有多模态数据应标注数据生成时间,与文字描述或标签内容相符合,随着新
闻对象或事件的发展,应及时更新数据集。
4.4.6 标注要求
标注要求包括:
a) 标注规范性要求:多模态数据的所有标注信息应遵循统一标准、体系和流程,以确保所有模
态的数据标注信息清晰统一;
T/CAPT 012—2024
8
b) 标注关联性要求:在多模态数据集中,应有明确的关联信息来表明同一场景下跨模态数据之
间的关联关系。包括但不限于使用元数据来描述跨模态数据之间的关联,或赋予跨模态数据
间相互关联的唯一标识符;
c) 跨模态数据关联性准确性要求:不同模态的数据之间存在一定相关性,以便模型能够学习到
有效的跨模态表示;
d) 标注项丰富性要求:标注项除描述数据内容外,还应包含数据的分类属性,包括但不限于图
片风格、音频中的方言、行文方式等,防止训练后的模型提供错误生成内容。
4.4.7 数据量和规模要求
数据量和规模要求包括:
a) 预训练数据的规模越大越有利于模型学习和表征能力提升,能更好适应新闻行业复杂多变的
多模态场景需求;
b) 数据集规模应尽可能扩大,以确保模型能够接触到更广泛的信息和知识,增强其学习深度和
广度,提升模型学习和表征能力。
5 训练数据评价
5.1 概述
对预训练数据评价应分别从安全性、丰富性、准确性、多语种、结构化五个方面进行评价;对微调
数据,从匹配性、安全性、专业性、丰富性四个方面进行评价。
5.2 评价维度
5.2.1 预训练数据评价维度
5.2.1.1 基本要求
对预训练数据进行评价,应包括对训练数据集的安全性、丰富性、准确性、多语种、结构化等5个
方面进行评估。
5.2.1.2 安全性
预训练数据应满足安全性要求,数据集的各条记录中应符合国家法律法规和行业规范,尊重知识产
权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观。具体要求可参考《新闻行业大规模
预训练模型语言模型安全性要求》。
5.2.1.3 丰富性
预训练数据应满足丰富性要求,确保所训练的大规模模型具有足够的通识能力和通用知识。
5.2.1.4 准确性
预训练数据应满足准确性要求,数据集当中所涉数据记录应确保真实可信,并具有时间标签和来源
标签。
5.2.1.5 多语种
预训练数据应满足多语种要求,以确保所训练的大规模模型具有多语种能力,可服务于国际传播业
务需求。
5.2.1.6 结构化
预训练数据应满足结构化等级要求,以确保所训练的大规模模型具有获取多层次语义信息的能力。
5.2.2 微调数据评价维度
5.2.2.1 匹配性
T/CAPT 012—2024
9
微调数据应满足匹配性要求,数据集当中所涉数据记录指令-输入-输出应保持语义和逻辑一致,输
入输出能较好的体现指令中的业务要求。
5.2.2.2 安全性
除用于拒答类任务的数据记录外,微调数据应满足安全性要求,数据集的各条记录中应符合国家法
律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良俗,符合社会主义核心价值观。具体
要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。
拒答类数据应特殊标明,确保输出部分的语义为“拒绝回答”。
5.2.2.3 专业性
涉及新闻业务的微调数据应满足专业性要求。数据集当中各条记录根据其指令部分的语义,遵循4.3
部分的具体约定。
涉及非拒答任务、非新闻业务任务的微调数据应满足专业性要求,专业性要求参考《信息安全技术
生成式人工智能预训练和优化训练数据安全规范》中关于优化训练数据部分的具体约定。
5.2.2.4 丰富性
微调数据应满足丰富性要求,以确保模型在微调阶段不会损失通用能力。
5.3 评测执行
5.3.1 抽样原则
对新闻行业预训练模型所涉及的训练数据评测应采用抽样方法。
对预训练数据集,应采用多次分层随机抽样的方法,针对各语种、各领域的抽样次数不少于5次,
单次抽样条数不少于1000条,总抽样条数不少于预训练数据集总token数的0.1‰。
对微调数据集,应采用多次分层随机抽样的方法,针对4.3中所涉的各类业务任务,每类任务数据
抽样次数不少于3次,单次抽样条数不少于10条。总抽样条数不少于微调数据集总条数的1%。
5.3.2 判别执行
对于抽样获取的数据子集,其中,5.2.1.3、5.2.1.5、5.2.2.4等具有标准答案的可直接判断对错。
多项的分值以算术平均计算总得分。对于无标准答案的问题,采用多专家双盲人工评分(Double-Blind
Expert Rating,DBER)方案, 让专家在双盲情况下判断是否满足相关要求。
根据5.4中对应的评价和打分方法对数据记录进行评分,以不同维度的加权得分作为该数据记录的
得分,该采样集的总得分可以计算算术平均或根据具体需求计算加权平均。该训练集的总得分对各次采
样集的得分加权平均得到。若不同专家对同一样本的评分方差较大,可先进行均值对齐(Mean
Calibration,MC)以消除主观偏差。
计算所有项目的DBER_MC分数,以总分数*60%作为及格分,判断该数据集是否符合新闻行业预训练
模型的训练标准要求。
5.4 评测方法
5.4.1 预训练数据评测方法
对预训练数据进行评价,应包括对训练数据集的安全性、丰富性、准确性、多语种、结构化五个方
面进行评估。
5.4.1.1 安全性
依据5.2.1.2所述,按照5.3的方法执行评测,该子类别评测框架见表1。
表1 预训练数据安全性评估框架
维度占比满分要求
合规60% 无违纪违法、无违背主流意识形态、歧视、违反社会主义核心价值观、政治敏感的内容
可控20% 数据记录符合常识
可解释20% 应给出明确的数据来源和引入时间
T/CAPT 012—2024
10
5.4.1.2 丰富性
依据5.2.1.3所述,按照5.3的方法执行评测,该子类别评测框架见表2
表2 预训练数据丰富性评估框架
维度占比满分要求
领域数目50% 除新闻业务相关数据外,还包括不少于5个专业领域
总量占比50% 非新闻业务相关数据token占数据集所有token数量不少于40%
其中,专业领域以一级学科为准,领域数每少一个,则该维度分数降低总分的20%。token占比每少
5%,则该维度分数降低总分的12.5%。
5.4.1.3 准确性
依据5.2.1.4所述,按照5.3的方法执行评测,该子类别评测框架见表3。
表3 预训练数据准确性评估框架
领域分
类
维度新闻业务数据
评分参考占比
非新闻业务数据评分
参考占比
满分要求
非新闻
业务数
据
真实性25% 50% 该条记录不存在事实性错误
信源12.5% 25% 该条记录标注来源,且经过验证(信源标注正确)
时间标签12.5% 25% 该条记录标注了其发布时间
新闻业
务数据
内容30% 0% 抓住核心事实,信息准确真实,一事一报
结构10% 0% 符合新闻结构要求
语言表达10% 0% 符合该体裁文风要求
预训练数据应满足准确性要求,数据集中数据记录应确保真实可信,并具有时间标签和来源标签。
5.4.1.4 多语种
依据5.2.1.5所述,按照5.3的方法执行评测,该子类别评测框架见表4。
表4 预训练数据多语言评估框架
维度占比满分要求
语种数量50% 包含3种语种及以上的互译文本
总量占比50% 互译文本token数超过预训练数据集总token数量的4%
预训练数据应满足多语种要求,数据集当中所涉数据记录应包含不少于3种语言的互译数据,其中,
每缺失一个语种,则评分扣除33%。互译文本应涵盖所有语种,如中-英-法3种语言,则应包含语义相同
的中英互译、中法互译、英法互译的文本段。其中,每少一个语种,则评分减少33%。
注:语种设计为加分项、不是减分项。
5.4.1.5 结构化等级
依据5.2.1.6所述,按照5.3的方法执行评测,该子类别评测框架见表5。
表5 预训练数据结构化等级评估框架
维度占比满分要求
原始文本30% 预训练数据只经过简单的数据清洗工作,无人为加工信息
分词词性标注20% 预训练数据是经过分词词性标注的数据,且分词词性标注准确率在95%以上
句法结构10% 预训练数据是经过句法结构分析的数据,且分析准确率在90%以上
实体语义10% 预训练数据是经过实体语义分析的数据,且分析准确率在90%以上
事件语义10% 预训练数据是经过事件语义分析的数据,且分析准确率在90%以上
情感语义10% 预训练数据是经过情感分析的数据,且分析准确率在90%以上
修辞隐喻语义5% 预训练数据是经过修辞隐喻分析的数据,且分析准确率在80%以上
事物状态变化5% 预训练数据是经过事物状态分析的数据,且分析准确率在80%以上
注:由上到下,每个维度的评价内容包含所有维度,评分占比为对应维度占比之和。例如:对句法结构维度
进行评估时,也会包含对原始文本、分词词性标注信息的评估,前面全部满分情况下,其满分占比为60%。
T/CAPT 012—2024
11
5.4.2 微调数据评测方法
5.4.2.1 匹配性
依据5.2.2.1所述,按照5.3的方法执行评测,该子类别评测框架见表6。
表6 微调数据匹配性评估框架
维度占比满分要求
指令匹配50% 输入部分符合指令部分的逻辑,提供了足够的信息。输出部分满足指令部分的要求
输入输出匹配50% 输入部分与输出部分的逻辑一致
微调数据应满足匹配性要求,数据集当中所涉数据记录指令-输入-输出应保持语义和逻辑一致,输
入输出能较好的体现指令中的业务要求。
5.4.2.2 安全性
依据5.2.2.2所述,按照5.3的方法执行评测,该子类别评测框架见表7、表8。
表7 微调数据(一般数据)安全性评估框架
维度占比满分要求
合规性50%
该条记录中的指令、输入、输出部分不包含违纪违法、涉及个人隐私、知识产权等相关
内容
安全性50%
该条记录中的指令、输入、输出部分不包含违反道德和公序良俗、不符合社会主义核心
价值观的内容
表8 微调数据(拒答数据)安全性评估框架
维度占比满分要求
拒答标记10% 该数据集是否包括了拒答数据(输出部分包含“拒绝回答”的语义)
拒答覆盖50%
该数据集中的拒答数据,是否完整的包含涉及以下违纪违法、涉及个人隐私、知识产权
等,违反道德和公序良俗、不符合社会主义核心价值观等方面
拒答占比40% 该数据集中,拒答数据的记录条数是否超过总条数的5%
其中,对非拒答任务数据对每一条数据记录执行表7,对抽样后拒答数据记录总体执行表8。
5.4.2.3 专业性
依据5.2.2.3所述,按照5.3的方法执行评测,该子类别评测框架见表8~表28。
表9 新闻要素识别微调数据评估框架
维度占比满分要求
内容60% 包括任务要求所需的要素识别数据,全面、准确
结构0% 本任务不考虑该维度
语言0% 本任务不考虑该维度
灵活性20% 包括不同范围内提取不同要素的数据记录
兼容性20% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
表10 新闻类型判别微调数据评估框架
维度占比满分要求
内容60% 包括完整的新闻类型判别数据,全面、准确
结构0% 本任务不考虑该维度
语言0% 本任务不考虑该维度
灵活性20% 包括不同类型的判别任务输入数据记录
兼容性20% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
T/CAPT 012—2024
12
表11 核心信息提取微调数据评估框架
维度占比满分要求
内容40% 包括完整的核心信息提取数据记录,全面、准确
结构10% 数据记录的输出部分要求符合指令规范的格式要求
语言10% 数据记录的输出部分应简明扼要、流畅通顺
灵活性20% 包括不同表述方式的数据记录
兼容性20% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
表12 新闻倾向判断微调数据评估框架
维度占比满分要求
内容50% 包括正向、负向、中立三种倾向判断数据记录,全面、准确
结构0% 本任务不考虑该维度
语言0% 本任务不考虑该维度
灵活性25% 包括不同表述方式的数据记录
兼容性25% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
表13 简讯生成微调数据评估框架
维度占比满分要求
内容40% 输入部分要求明确,素材正确清晰。输出部分抓住核心事实,信息真实准确,一事一报
结构20% 输出部分具备标题以及主体自然段,200字以内,不分段
语言20% 简洁明了、客观中立,不包括过度复杂或冗长的句子
灵活性10% 输出部分包括不同题材的专业简讯
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
表14 消息生成微调数据评估框架
维度占比满分要求
内容40%
输入部分要求明确,素材正确清晰。输出部分较为简短,内部无二级标题,内容真实,
能全面、准确、客观地交待重要事实,新闻要素齐全
结构20%
输出部分宜500~800 字以内。通过标题、导语、主体三层推进。内容真实,能全面、
准确、客观地交待重要事实,新闻要素齐全
语言20% 流畅、准确、专业
灵活性10% 输出部分包括不同题材的专业消息
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本任务不考虑该维度
表15 通讯生成微调数据评估框架
维度占比满分要求
内容30%
输入部分要求明确,素材正确清晰,包括不少于3段相关素材。输出部分内容真实,全面
准确客观的交代重要事实
结构30% 输出部分篇幅较长,具有多级标题
语言20% 流畅、准确、细腻,有一定的文学性
灵活性10% 输出部分包括不同题材的专业通讯
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性5% 输出部分新颖灵动,不落俗套
表16 特写生成微调数据评估框架
维度占比满分要求
内容30%
输入部分要求明确,素材满足以下条件:包括不同主题、不同角度、长度不少于600字的
相关素材,不少于3篇,包括不少于3段相关素材。输出部分应基于真实情况展开描述,
深入挖掘主题或任务
T/CAPT 012—2024
13
结构5% 结构灵活,篇幅恰当
语言20% 流畅、准确、细腻,有一定的文学性,突出情感中心
灵活性10% 输出部分包括不同题材的特写
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性30% 输出部分新颖灵动,不落俗套
表17 专访生成微调数据评估框架
维度占比满分要求
内容30%
输入部分要求明确,素材满足以下条件:包括采访实录、事件的背景信息、人物的历史
报道等。输出部分应基于真实情况展开描述,符合被采访者意愿、尊重其立场
结构10% 输出部分采用直接或间接引语的形式,形成逻辑性强的篇章
语言20% 在尊重被采访者原意的基础上语言生动
灵活性10% 输出部分包括不同题材的专访
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性20% 输出部分新颖灵动,不落俗套
表18 公文公报生成微调数据评估框架
维度占比满分要求
内容50%
输入部分要求明确,素材满足以下条件:包括正式的政策文件、领导人讲话稿、公报、
授权媒体发表等官方文件。输出部分应内容权威、信息准确无误
结构20% 输出部分具有清晰的层次结构,突出核心和关键信息
语言20% 采用正式的、严谨的语言
灵活性5% 输出部分包括不同题材的专业公文公报
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本类任务不考虑该维度
表19 扩写微调数据评估框架
维度占比满分要求
内容50%
输入部分要求明确,素材满足条件。输出部分内容与素材逻辑一致、内容大意一致、信
息真实
结构0% 本类任务不考虑该维度
语言20% 输出部分与输入部分风格一致,用词规范
灵活性10% 输出部分包括不同题材的扩写
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性10% 输出部分新颖灵动,不呆板
表20 摘要微调数据评估框架
维度占比满分要求
内容50% 输入部分要求明确,素材满足条件。输出部分包含了素材中的主要事件、观点和数据。
结构0% 本类任务不考虑该维度
语言30% 输出部分简明扼要,长度明显小于输入素材
灵活性10% 输出部分包括不同题材的摘要
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本类任务不考虑该维度
表21 润色微调数据评估框架
维度占比满分要求
内容10% 输入部分要求明确,输出部分与输入部分保持一致,不改变核心信息点
结构0% 本类任务不考虑该维度
语言60% 输出部分符合输入要求,用词精准、不出现病句或者错字
灵活性10% 输出部分包括不同题材的润色
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性10% 输出部分灵动不呆板
T/CAPT 012—2024
14
表22 续写微调数据评估框架
维度占比满分要求
内容40%
输入部分要求明确,输出部分具有延展性,与输入部分保持逻辑一致性、连贯性、真实
性,不引入错误或不实陈述
结构0% 本类任务不考虑该维度
语言30% 输出部分与输入部分素材风格一致
灵活性10% 输出部分包括不同题材的续写
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性10% 输出部分灵动不呆板
表23 核校微调数据评估框架
维度占比满分要求
内容50% 输入部分要求明确,输出部分真实准确
结构0% 本类任务不考虑该维度
语言30% 输出部分无错别字、病句,通顺流畅,符合体裁和题材的风格
灵活性10% 输出部分包括不同题材的核校
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本类任务不考虑该维度
表24 社论微调数据评估框架
维度占比满分要求
内容45%
输入部分要求明确,输出部分满足输入部分所提出的要求,阐明观点、立场和主张,与
党和国家的政策方针一致,逻辑严密,论据充分
结构25% 输出结构清晰,逻辑严密,具有清晰的总分论点
语言10% 输出部分庄重、严谨,保持专业性和权威性
灵活性10% 输出部分包括不同主题的社论
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性0% 本类任务不考虑该维度
表25 评论员文章微调数据评估框架
维度占比满分要求
内容35%
输入部分要求明确,输出部分满足输入部分所提出的要求,阐明观点、立场和主张,与
党和国家的政策方针一致,逻辑严密,论据充分
结构25% 输出结构清晰,逻辑严密,具有清晰的总分论点
语言10% 输出部分庄重、通俗、平易
灵活性10% 输出部分包括不同主题的评论员文章
兼容性10% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性10% 在恰当的范围内创新评论角度和表达方式
表26 专栏评论微调数据评估框架
维度占比满分要求
内容40% 输入部分要求明确,输出部分紧贴时事,观点深刻,论据丰富,论证充分
结构30% 输出结构清晰,逻辑严密,具有清晰的总分论点
语言10% 输出部分庄重、通俗、有个人风格
灵活性5% 输出部分包括不同主题的专栏评论
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性10% 提出令人耳目一新的评论角度和观点,灵活表达,具有独特的行文风格
表27 短评微调数据评估框架
维度占比满分要求
内容40% 输入部分要求明确,输出部分论题具体,针对性强,观点独到
结构10% 输出部分根据评论对象有所变化
语言35% 输出部分严谨,简练,生动而符合情景
T/CAPT 012—2024
15
表27 短评微调数据评估框架(续)
维度占比满分要求
灵活性5% 输出部分包括不同主题的短评
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性5% 灵活表达
表28 述评微调数据评估框架
维度占比满分要求
内容40%
输入部分要求明确,输出部分以阐述观点为主,同时能够准确反应事实,观点清晰深刻,
事实扎实准确
结构10% 输出部分述评结合、就事论理
语言35% 输出部分严谨,通俗,具有启发性
灵活性5% 输出部分包括不同主题的述评
兼容性5% 包括多种类型、多种文件格式的数据记录。对本质一致风格不同的输入有相似的输出
创新性5% 灵活表达
涉及新闻业务的微调数据应满足专业性要求。数据集当中各条记录根据其指令部分的语义,遵循4.3
部分的具体约定。
涉及非拒答任务、非新闻业务任务的微调数据应满足专业性要求,专业性要求参考《信息安全技术
生成式人工智能预训练和优化训练数据安全规范》中关于优化训练数据部分的具体约定。
5.4.2.4 丰富性
依据5.2.2.4所述,按照5.3的方法执行评测,该子类别评测框架见表29。
表29 述评微调数据评估框架
维度占比满分要求
丰富性100% 涉及新闻业务的数据记录条数不应超过数据集总条数的50%
微调数据应满足丰富性要求,以确保模型在微调阶段不会损失通用能力。
T/CAPT 012—2024
16
参考文献
[1] GB/T 42131—2022 人工智能知识图谱技术框架
[2] GB/T 38377—2019 新闻出版知识服务知识资源建设与服务基础术语
[3] 生成式人工智能服务管理暂行办法,国家互联网信息办公室、中华人民共和国国家发展和改
革委员会、中华人民共和国教育部、中华人民共和国科学技术部、中华人民共和国工业和信
息化部、中华人民共和国公安部、国家广播电视总局令第15号,2023
[4] 互联网信息服务深度合成管理规定,国家互联网信息办公室、中华人民共和国工业和信息化
部、中华人民共和国公安部令第12号,2022
[5] 信息安全技术生成式人工智能预训练和优化训练数据安全规范
[6] 信息安全技术生成式人工智能数据标注安全规范
评论