T/CAPT 010-2024 新闻行业 大规模预训练模型 语言模型实用性要求 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L 67
团体标准
T/CAPT 010—2024
新闻行业大规模预训练模型语言模型实用性要求
Requirements for practical of large-scale pre-trained language models in newsindustry
2024 - 12-18 发布2024 - 12-18 实施
中国新闻技术工作者联合会 发布
目次
前言............................................................................ II
引言........................................................................... III
1 范围................................................................................. 1
2 规范性引用文件....................................................................... 1
3 术语和定义........................................................................... 1
4 使用场景要求......................................................................... 1
4.1 概述............................................................................. 1
4.2 媒体文本创作..................................................................... 1
4.3 媒体文本编辑..................................................................... 3
4.4 媒体文本理解..................................................................... 6
4.5 媒体数据增强..................................................................... 7
5 效果要求............................................................................ 10
5.1 专业性要求...................................................................... 10
5.2 可靠性要求...................................................................... 11
5.3 适用性要求...................................................................... 12
6 产品化要求.......................................................................... 12
6.1 模型部署的要求.................................................................. 12
6.2 模型数据库的要求................................................................ 13
6.3 模型界面的要求.................................................................. 13
6.4 模型产品的数据保护和隐私保护要求................................................ 13
6.5 模型的性能和效率要求............................................................ 13
6.6 模型的可扩展性和可维护性要求.................................................... 14
参考文献........................................................................ 15
T/CAPT 010—2024
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国新闻技术工作者联合会新闻信息标准化分会秘书处和新华通讯社通信技术局联合提
出。
本文件由中国新闻技术工作者联合会归口。
本文件起草单位:新华通讯社通信技术局、新华社媒体融合生产技术与系统国家重点实验室(新华
融合媒体科技发展(北京)有限公司)、上海算法创新研究院、传播大脑科技(浙江)股份有限公司、
上海交通大学媒传学院、北京北大方正电子有限公司、大众报业集团(大众日报社)、海南广播电视总
台、北京中科闻歌科技股份有限公司、中国互联网新闻中心、北京智途云天科技有限公司、中联超清(北
京)科技有限公司、中国传媒大学、深圳市创意智慧港科技有限责任公司(深圳报业集团技术公司)、
福建理工大学。
本文件主要起草人:路海燕、王仲豪、邓海滢、余钰、唐波、刘丽芳、张健、陈梦、刘可、郑伟、
贾艾婧、汤代禄、张震、李梦瑶、彭佳柱、王一刚、王建平、丁峰、罗毅、林波、成鹏、王峰、王付生、
王熠、熊立波、王慕维、孙心桐、王宇琦、刘琼、张鹏洲、曹娟、郑创伟、瞿曦、黄菁、孙天一、付蓉、
王志民。
T/CAPT 010—2024
III
引言
《新闻行业大规模预训练模型》系列标准由语言模型实用性要求、语言模型评测要求、语言模型
安全性要求和研发数据要求、多模态要求5部分组成。分别从实用性、评测、安全性、研发数据和多模
态等多个角度出发,构建了一个完整的标准体系,确保大规模预训练模型在新闻行业中的有效、安全和
规范使用。旨在为新闻领域大规模预训练模型的研发、应用和评估提供全面而系统的指导。
《新闻行业大规模预训练模型语言模型实用性要求》明确了预训练语言模型在完成新闻任务时
的使用场景要求、效果要求以及产品化要求。该标准为模型的实际应用提供了具体指导,确保模型在真
实新闻生产过程中具备足够的实用性和效果。
《新闻行业大规模预训练模型语言模型评测要求》为评估这些预训练语言模型提供了详尽的方
法和指标。该标准规定了新闻行业预训练语言模型的评测指标和评测方法要求,并给出了具体的评测示
例,以确保评测过程的科学性和规范性。
《新闻行业大规模预训练模型语言模型安全性要求》详细规定了在内容、数据、合规和技术等
环节中所涉及的安全性要求。该标准旨在保障预训练模型在新闻领域的应用中,能够遵守相关法律法规,
确保数据安全、内容合规。
《新闻行业大规模预训练模型研发数据要求》针对用于训练、微调和评估预训练模型的所有数
据,提出了技术要求。该标准确保了在预训练模型研发过程中,数据的质量和规范性,从而提升模型的
性能和可靠性。
《新闻行业大规模预训练模型多模态要求》规定了预训练模型在研发、应用、评测和安全性等
方面的要求,特别是在处理多模态数据时的技术标准。该标准的制定,进一步拓展了预训练模型的应用
范围,使其在多模态新闻内容生成和处理方面也能高效、可靠地发挥作用。
5个标准的紧密衔接和相互配合,为新闻行业的大规模预训练模型构建了一个全面而系统的框架,
为新闻领域大规模预训练模型的开发和应用提供了坚实的基础和有力的保障。
T/CAPT 010—2024
1
新闻行业大规模预训练模型语言模型实用性要求
1 范围
本文件规定了新闻行业中大规模预训练模型的语言模型实用性要求。
本文件适用于开发人员、使用人员、监管人员进行大规模预训练模型语言模型在新闻媒体行业中的
实用性分析。
本文件的使用对象包括报刊、广播、电视、通讯社、新闻网站、自媒体等新闻媒体内容提供商及媒
体应用与研究机构。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 7714 信息与文献参考文献著录规则
GB/T 20093 中文新闻信息分类与代码
3 术语和定义
下列术语和定义适用于本文件。
3.1
大规模预训练语言模型large-scale pre-trained language models
一种通过在海量文本数据上进行预训练而构建的自然语言处理模型,通常基于深度学习框架,通过
自监督学习从无标注的数据中学习语法、语言和知识等,可通过零样本(zero-shot)方式进行交互、
并可以通过微调(finetune)进行特定任务加强。
注:其特点是模型规模庞大,能够在广泛的领域中表现出卓越的语言理解和生成能力。
3.2
大规模预训练模型large-scale pre-trained model
一种具有大规模参数和复杂计算结构的超大型机器学习模型(一般超过10 亿个参数),通常由深
度神经网络构建,对海量数据进行预训练处理。
3.3
指令/提示词prompt
给预训练模型提示输入模型的参数信息,描述问题需求类型,帮助模型更好地理解输入的意图,并
作出相应的响应。
4 使用场景要求
4.1 概述
新闻行业中大规模预训练模型的语言模型实用性要求的使用场景根据新闻业务场景进行设计,分为
媒体文本创作、媒体文本编辑、媒体文本理解、媒体数据增强四个类别进行要求。
4.2 媒体文本创作
4.2.1 经典新闻创作类
新闻行业大规模预训练语言模型应当能够适应并处理多种类型的经典新闻创作任务。这些任务包括
但不限于简讯、消息、通讯、特写、专访、公文公报、社论、评论员文章、专栏评论、短评和述评。模
型需要具备生成不同类型新闻文本的能力,具体要求应符合表1的规定。
T/CAPT 010—2024
2
表1 经典新闻创作类的不同文体类型要求
新闻文体类型新闻行业大规模预训练语言模型的创作要求
简讯
要求:生成符合“用简洁、概括的言语报道事实,200字左右”的简讯
指令:规定任务长度、时效性、语言风格、核心主题,并提供事实素材
结果:内容真实,围绕单一事件展开,简明易懂,有标题和主体
消息
要求:生成通过标题、导语、主体三层报道事情概貌的消息,500~800字以内,无二级标题
指令:规定任务长度、核心主题、新闻要素,并提供细节素材
结果:内容真实,全面准确,具备完整的标题、导语、主体部分,简明易懂
通讯
要求:生成运用叙述、描写、抒情、议论等手法反映新闻事件或人物的通讯
指令:规定核心主题、新闻要素,并提供丰富的事实素材
结果:内容真实,篇幅较长,具备多级标题,语言流畅、有文学性
特写
要求:生成以描写为主,再现新闻事件或人物的特写
指令:规定核心主题、新闻要素、语言风格,并提供背景信息和细节素材
结果:内容真实,突出主题或人物,结构多层次,语言细腻
专访
要求:生成记者就专门性问题采访新闻人物的专访
指令:规定核心主题、新闻要素,并提供采访实录及背景信息
结果:内容真实,尊重被采访者立场,结构逻辑清晰,语言生动。
公文公报
要求:生成政策文章、领导人讲话稿、公报等报道性质的公文公报
指令:规定核心主题、写作主体、格式、语言风格,并提供官方文件
结果:内容准确,结构清晰,语言正式严谨
社论
要求:生成报刊以本社名义发表的权威性评论文章
指令:规定核心主题、篇幅、核心观点,并提供背景资料
结果:内容符合党和国家政策,逻辑严密,语言庄重
评论员文章
要求:生成评论员撰写的权威性评论文章
指令:规定核心主题、篇幅、核心观点、结构,并提供事实素材
结果:内容符合政策,逻辑严密,语言庄重平易
专栏评论
要求:生成在专栏中发表的具有个人风格的评论
指令:规定核心主题、篇幅、核心观点、语言风格,并提供事实素材
结果:内容联系实际,逻辑清晰,语言通俗
短评
要求:生成对人和事物简短评论的短评
指令:规定核心主题、观点立场、语言风格、篇幅,并提供背景资料
结果:内容具体,结构灵活,语言精炼生动
述评
要求:生成分析形势、指明方向的述评
指令:规定核心主题、篇幅、核心观点、结构,并提供背景资料
结果:内容以阐述观点为主,逻辑清晰,语言严谨通俗
4.2.2 新媒体创作类
本章节规定了新闻行业大规模预训练语言模型在新媒体创作类应用中的算法能力要求。新媒体创作
不仅要求内容的及时性和准确性,还需注重内容的创新性和互动性,以满足多样化的用户需求和不断变
化的媒体环境。模型对于新媒体创作类任务的具体要求应符合表2的规定。
表2 新媒体创作类的不同类型要求
新闻文体类型新闻行业大规模预训练语言模型的创作要求
公众号文章
生成内容应贴近热点,具有吸引力和互动性。需要能够根据读者兴趣动态调整,具备分段标题和配图,
文字简洁明了,突出核心观点
短视频脚本
脚本应紧凑有趣,适合短时间内传达信息。需具备简洁的场景描述和对话,突出关键点,语言通俗易
懂,便于视觉呈现
直播文案
文案应实时反映直播内容,具备互动性,能够引导观众参与。要求语言简洁、明确,包含关键话题和
互动提示,适应直播节奏
信息图文
生成内容应图文结合,直观易懂。需具备简洁的文字描述和清晰的图片说明,突出重要信息点,便于
快速阅读和分享
微博长文
长文应简洁、有深度,适合微博平台的传播。需具备明确的主题和观点,语言生动,段落结构清晰,
能够引发读者共鸣和讨论
评论回复
回复应快速、准确、有针对性。需具备简洁明了的语言,回应读者关切的问题或评论,保持互动性和
亲和力
T/CAPT 010—2024
3
表2 新媒体创作类的不同类型要求(续)
新闻文体类型新闻行业大规模预训练语言模型的创作要求
视频解说词
解说词应简洁、有条理,适合视频配音。需具备清晰的结构和重点,语言生动,能够吸引观众注意力,
增强视频内容的可理解性
H5互动页面文案
文案应富有创意,具备互动性。需具备吸引眼球的标题和简洁明了的内容,引导用户参与互动,语言
风趣幽默
多媒体长文
长文应结合文字、图片、视频等多种媒体形式,内容丰富。需具备详实的文字说明和相关多媒体素材,
语言生动,结构清晰,能够深度报道事件
4.3 媒体文本编辑
4.3.1 新闻翻译
4.3.1.1 新闻翻译功能要求
新闻翻译功能要求包括:
a) 多语言处理能力,模型需要支持多种语言的翻译,包括主流语言和小语种,以满足全球范围
内的新闻翻译需求。模型应能够处理不同语言之间的语法、词汇和语义差异,确保翻译的准
确性和流畅性;
b) 模态翻译技术,能够处理图像、音频转文本后再翻译,或者直接处理带有图像信息的图文混
排新闻内容;
c) 领域适应性,新闻翻译涉及多个领域,如政治、经济、科技、体育等,模型需要具备跨领域
的翻译能力。通过引入领域特定的语料库和知识库,模型可以更好地理解和翻译特定领域的
术语和概念;
d) 上下文感知能力,新闻文本通常具有复杂的上下文关系,模型需要能够理解和捕捉这些关系,
以进行准确的翻译。通过引入注意力机制、记忆网络等技术,模型可以更好地利用上下文信
息进行翻译;
e) 实时性与效率,新闻翻译通常需要实时进行,模型需要具备高效的处理速度和低延迟。通过
优化模型结构和算法,以及利用并行计算和分布式处理等技术,可以提高模型的翻译速度和
效率;
f) 数据驱动与可训练性,模型的设计应便于利用大量新闻翻译数据进行训练和优化,以提高翻
译性能。采用合适的模型架构和学习算法,确保模型能够从数据中学习到有效的翻译规则和
模式;
g) 可解释性与可控性,为了增强用户对翻译结果的信任度,模型应具备一定程度的可解释性,
能够解释翻译决策的依据。通过引入可视化工具、解释性算法等技术,可以帮助用户更好地
理解模型的翻译过程;
h) 鲁棒性与稳定性,新闻文本中可能包含噪声、错别字、不规范表达等,模型需要具备一定的
鲁棒性,能够检测并修正翻译过程中可能出现的错误,如语法错误、拼写错误等;
i) 自适应学习与优化,模型应能持续从用户反馈和新数据中学习,不断优化翻译效果,提供友
好的用户界面,允许用户对翻译进行反馈和校正,以便模型能够根据用户的需求进行调整。
4.3.1.2 新闻翻译结果的要求
新闻翻译结果的要求包括:
a) 翻译准确性:文本内容忠实度,模型应确保翻译后的新闻内容准确反映原文含义,不遗漏重
要信息,不产生误导性内容;专业术语翻译,针对新闻报道中的特定领域术语和专有名词,
模型应具备准确识别与翻译的能力;语法结构正确性,翻译后文本应遵循目标语言的语法规
则,保持句式结构完整且符合新闻写作规范;
b) 风格一致性:新闻文体保持,模型需保证翻译后的新闻稿风格与原文一致,即保持新闻报道
应有的客观、正式和简洁;语境适应性,能够根据新闻类别和受众定位调整翻译策略,确保
译文符合相应文化和社会背景;
T/CAPT 010—2024
4
c) 实时性与效率:快速响应,模型应具备快速翻译大量新闻稿件的能力,满足新闻发布时效要
求。自动更新与优化,具备持续学习和自我优化机制,随新词汇、短语的出现及时更新翻译
效果;
d) 安全与合规性:数据安全,在处理新闻翻译的过程中,严格遵守国家信息安全法律法规,保
护新闻数据隐私;内容审查,翻译输出应避免不良信息传播,支持可配置的内容过滤与审查
机制;
e) 可维护性与扩展性:模型更新与升级,允许模型进行定期更新与优化,并能无缝集成到现有
新闻翻译工作流程中;多语言支持,支持多种源语言到多种目标语言的新闻翻译服务,且易
于添加新的语言对。
4.3.2 新闻改写
新闻行业大规模预训练语言模型进行新闻改写应遵循包括但不限于内容补全、结构调整、精炼语言、
突出重点、呈现细节、增加引用等对内容进行增加、删除或调整等操作,具体要求如下:
a) 内容补全
设计提示词令模型根据原文和指令,补充完善相关信息,为读者提供更详尽的细节,使文章
更具理解性。指令应明确补全内容方向,如人物背景、事件细节、相关数据等,确保内容与
原文风格和情感一致。补全后的内容应紧密连结原文核心信息,提供有价值的补充,增强文
章的全面性和吸引力;
b) 结构调整
设计提示词令模型调整文章结构,提高阅读体验。指令应明确结构调整的要求,如总分结构
等,并可提供参考文章。生成结果应保持原文连贯性和一致性,使文章更具可读性和逻辑性,
不改变原文信息;
c) 精炼语言
设计提示词令模型优化语言,通过简化句子、删减冗词、提炼核心信息,使文章简洁明了。
指令应明确优化内容部分。生成结果应保留原文核心信息,简洁清晰,不影响流畅性和可读
性;
d) 突出重点
设计提示词令模型突出关键信息,通过强调核心观点、重要细节,使文章更凝练有力。指令
应明确突出重点部分。生成结果应准确传达原文核心意思,逻辑连贯,吸引读者注意;
e) 呈现细节
设计提示词令模型优化细节,通过添加具体细节、丰富描述、提供背景信息,使文章生动具
体。指令应明确添加细节部分并提供相关信息。生成结果应丰富文章内容,与原文主题一致,
描述具体生动,背景信息全面,信息准确;
f) 增加引用
设计提示词令模型添加引用,通过引用相关资料、专家观点、研究成果等,增加文章权威性
和可信度。指令应明确引用内容部分并提供相关资料。生成结果应与原文主题相关,引用可
靠来源,进一步丰富和深化文章内容。
4.3.3 风格转换
新闻行业大规模预训练语言模型进行风格转换应遵循包括但不限于通俗易懂、专业严谨、批判思维、
增加网感、理论增强、情感共鸣等要求:
a) 通俗易懂
设计模型使用简洁明了的语言阐述原内容,降低阅读难度,使更多读者轻松理解。明确要求
模型避免专业术语和复杂句子,保持核心信息不变。语言简洁,避免冗长和难懂的术语,保
留核心信息,确保普通读者易懂,不简化到失去意义;
b) 专业严谨
设计模型使用专业精确的语言阐述原内容,提升文章专业性和权威性。明确要求模型使用专
业术语和严谨结构,保持核心信息不变。语言精确,适当使用专业术语,确保专业读者准确
理解,不过度复杂化;
c) 批判思维
T/CAPT 010—2024
5
设计模型在理解原文后,提出批判性观点和深度分析,增加文章深度和思辨性,明确指定批
判内容和方向。观点客观公正,基于充分论据,清晰阐述逻辑,增强文章深度,引发读者思
考和讨论,连贯且不矛盾;
d) 增加网感
设计模型使用网络文化和流行语言,贴近网民阅读习惯和偏好。明确要求在保持专业性的同
时,加入网络流行语,保持核心信息不变。语言贴近网络文化,使用流行语和网络梗,结合
网络热点,提高吸引力和传播力,不过度娱乐化,保持专业性;
e) 理论增强
设计模型对原内容进行理论补充,引用权威资料,提升文章专业性和可信度。明确指定补充
内容和理论框架。补充理论应与主题相关,深化理解,来源可靠,保持风格和情感一致,连
贯且不矛盾,提升专业性和可信度;
f) 情感共鸣
设计模型使用富有情感的语言阐述原内容,通过感人故事、情感描写等引起共鸣。明确要求
使用富有情感的语言,保持核心信息和深层意义不变。语言引起共鸣,情感表达真实自然,
避免过度煽情,增强感染力和说服力。
4.3.4 扩写
扩写要求包括:
a) 设计相应提示词令模型进行符合“在原有内容的基础上,通过增加信息、细节、描述、背景
等,使文章更加丰富和完整,以增强读者的理解和参与感”要求的“扩写”工作。扩写旨在
保持原文的风格和情感,同时丰富内容,使之更具吸引力和深度;
b) 提示词需要包括但不限于规定扩写的主题、方向、语言风格、篇幅的要求,并可以提供相关
的事实素材;
c) “扩写”类生成结果需要保证就新内容合理性而言,扩写内容在逻辑上应与原文一致,不引
入矛盾或不相关信息;就文章流畅度而言,扩写后的文章应各部分之间过渡自然,读者可以
轻松跟随故事的发展;就内容的易读性而言,添加的内容应能够加深读者对新闻事件或相关
主题信息的理解,提供足够的背景信息;就信息的准确性而言,新增内容应准确,不涉及错
误、臆测或误导性陈述。
4.3.5 摘要
摘要要求包括:
a) 设计相应提示词令模型进行符合“对原文中的关键信息和主要内容进行精简提炼,生成符合
以简洁明了的语言表达,帮助读者迅速了解文章的核心观点、事件和重要数据”要求的“摘
要”工作。摘要旨在在尽量减少文字量的情况下,保持原文的主旨和逻辑结构;
b) 提示词指令需要包括但不限于规定“摘要”的核心主题、篇幅、原文遵从度的要求;
c) “摘要”类生成结果需要保证关键信息概括度,摘要中应包含了原文中的主要事件、观点和
数据等关键信息;就简洁而言,摘要应用简明扼要的表达方式,使读者能在短时间内获取主
要内容;就意义的保持度而言,摘要应保持原文的主题、情感和重要细节,不偏离原文核心;
就信息的准确性而言,摘要中提供的信息应准确,不得捏造、省略或曲解。
4.3.6 润色
润色要求包括:
a) 设计相应提示词令模型进行符合“修饰文章语言、风格、结构,提升文章表达效果和可读性”
要求的“润色”任务;
b) 提示词指令需要包括但不限于规定“润色”的修改方式、修改方向、语言风格的要求;
c) “润色”类生成结果需要保证语法和拼写,润色后文章中应不存在拼写和语法错误;就表达
的清晰度而言,修饰后的文章应句子结构清晰,逻辑连贯;就语言风格而言,润色后的文章
应能根据原文的风格,保持适当的新闻、专业或通俗风格;就表达的精练度而言,修饰后的
文章应用词精准,不出现啰嗦或冗长表达。
T/CAPT 010—2024
6
4.3.7 续写
续写要求包括:
a) 设计相应提示词令模型进行符合“在原文的基础上,进一步延伸事件、主题或观点,补充额
外的信息、分析或展望,以丰富内容并引发读者的兴趣”要求的“续写”任务。续写要求与
原文保持一致的风格和立场,同时为读者提供更深入的理解和更全面的信息;
b) 提示词指令需要包括但不限于规定“续写”的核心主题、续写方向、表达方式、语言风格的
要求;
c) “续写”类生成结果需要保证主题的延伸性,续写内容在逻辑上应与原文一致,延伸了事件
或主题的发展;就信息的补充而言,添加后的内容能够提供额外的背景、数据、专家观点等
与原来的新闻文本相一致的信息;就逻辑的连贯性而言,续写的内容与原文之间应过渡自然,
不引发信息不匹配问题;就信息的准确性而言,新增信息应准确,不引入错误或不实陈述。
4.3.8 核校
核校要求包括:
a) 设计相应提示词令模型进行符合“对文章进行仔细的校对和检查,以确保内容的准确性、一
致性和规范性”要求的“核校”工作。核校包括拼写、语法、标点、事实核实、引用规范等
方面的检查,以确保文章在发布之前没有错误,同时满足行业标准和读者的期望;
b) 提示词指令需要包括但不限于规定“核校”的规则、效果要求;
c) “核校”类生成结果需要保证事实核实,核校内容需要经过事实核实,文章中提到的信息应
准确无误;就信息的一致性而言,核校后的文章内部信息在逻辑上保持一致,避免矛盾;就
格式的规范度而言,核校后的文章应在排版、标点和引用等方面符合规范标准;就语言使用
的正确性而言,核校后的文章中应不存在拼写、语法错误或标点符号使用问题。
4.4 媒体文本理解
4.4.1 新闻内容标签提取
新闻内容标签提取要求包括:
a) 设计相应提示词令大模型理解新闻内容,并准确提炼文章的内容标签,符合以下要求:提取
文章的标题、摘要、时间、涉及人物、事件地点、起因、经过和结果,同时提炼文章的情感
倾向、领域主题和主要观点;
b) 大模型应当可以提取覆盖新闻文章各方面的内容标签,包括但不限于:标题、摘要、时间等
基本要素,到人物关系、事件细节,以及文章的情感和主题观点;
c) 生成的内容标签提取结果应严格基于原文。无论是直接引用的信息还是基于原文理解的总结,
都应确保准确性和相关性。提取的情感和观点应与原文逻辑一致,不产生矛盾或不相关信息。
为满足后续应用需求,这些关键信息需以标准化格式(如JSON 等)稳定输出,确保数据的可
用性和可读性。
4.4.2 新闻要素识别
新闻要素识别要求包括:
a) 设计提示词令模型完成“从新闻中提取出六要素时间、地点、人物、事件的起因、经过、结
果”的工作;
b) 提示词指令需要包括但不限于规定模型提取的要素类型、提取范围的要求,并应提供需要模
型理解的新闻文本;
c) “新闻要素识别”类结果需要保证识别出的要素完整、真实、准确。
4.4.3 新闻类型判别
新闻类型判别要求包括:
a) 设计提示词令模型进行以下三种方式的判别任务:
1) 体裁:根据新闻的手法、口吻和组织材料结构来判断新闻体裁,包括消息、通讯、评论、
公文公报等;
T/CAPT 010—2024
7
2) 范围:基于新闻发生的地区与影响范围进行分类,可分为国际新闻和国内新闻。在此,
港澳台被归类为国内新闻;
3) 主题:基于新闻的主题进行分类,应符合GB/T 20093 的要求。
b) 提示词指令需要包括但不限于规定模型判别的任务类型,并应提供需要模型判别的新闻文本;
c) “新闻类型判别”类生成结果需要保证从三种分类方式准确判断新闻类型。
4.4.4 新闻核心信息提取
新闻核心信息提取要求包括:
a) 设计提示词令模型完成“从新闻中提取关键词或摘要”的工作:
1) 关键词:新闻报道中的关键性内容,包括实体词、谓词、具有关键信息的词语;
2) 摘要:最关键的新闻元素,时间、地点、主要人物/组织、发生的事件等,以完整的句段
表述。
b) 提示词指令需要包括但不限于规定模型提取信息的任务类型及具体篇幅或个数要求,并应提
供需要模型提取信息的新闻文本;
c) “新闻核心信息提取”类生成结果需要保证关键词要求选择具有检索意义的词汇,有较特殊
意义的词、词组、缩略语,不宜拆开。若新闻中有其他类别的词、短语甚至熟语也能够提示
文章的关键内容,也应作为关键词处理。摘要要求言简意赅,能体现新闻主要内容,字数在
100~150 字左右。
4.4.5 新闻倾向判断
新闻倾向判断要求包括:
a) 设计提示词令模型完成“判断新闻报道中新闻主要人物或机构对事件的感情、态度、意向或
立场”的工作。感情倾向可分为正面、负面、中性;
b) 提示词指令需要包括但不限于规定模型提取信息的任务类型,并应提供具有较明显情感倾向
的新闻文本;
c) “新闻倾向判断”类生成结果需要保证通过文本可观测明显情感倾向,分析准确、合理。
4.5 媒体数据增强
4.5.1 媒体创意/热点推荐
媒体创意/热点推荐包括但不限于热点推荐、脉络梳理、主题扩散、内容创作建议、传播效果预测5
个子类别,其中:
a) 热点推荐:
1) 通过检索当前的社交媒体讨论、新闻头条、搜索引擎趋势等,收集当前的热点事件和话
题,再设计相应提示词引导模型分析当前社会、文化、经济、政治等领域中的流行趋势
和事件,筛选出具有广泛关注度和讨论价值的热点事件;
2) 提示词指令需要明确要求模型根据收集的数据,综合考虑话题的时效性、社会影响力,
以及可能引起的公众兴趣和参与度,推荐当前最受关注的热点事件;
3) “热点推荐”类生成结果应能够清晰展示当前最受关注的热点事件,并提供简要的背景
信息和讨论点。
b) 脉络梳理:
1) 通过联网搜索,获取与热点事件相关的新闻报道、社交媒体讨论和各类公开权威信息。
根据这些信息,设计相应提示词使模型针对热点事件清晰地梳理其来龙去脉,包括事件
的起因、发展、关键的转折点和影响事件进程的主要因素、当前状态以及参与推动或影
响事件发展的关键个人、团体或组织;
2) 提示词指令需要明确要求模型获取数据的范围和方式,确保数据的准确性和全面性。指
导模型如何根据收集的数据进行脉络梳理的要点,并确定相应的呈现方式,以详尽、直
观地展示事件的整个发展脉络;
3) “脉络梳理”类生成结果应全面、直观地反映出事件从起始到当前状态的整体发展路径,
以全面地了解事件的全貌,而不仅仅是表面的现象。
T/CAPT 010—2024
8
c) 主题扩散:
1) 基于热点事件和关联数据,设计相应提示词引导模型分析和挖掘出与热点事件紧密相关
或由此引申出的其他主题、话题和观点,并围绕这些新发现的主题或话题进行广泛的联
想和扩展,生成一系列与这些主题紧密相关的概念、创新想法、深入探讨的问题以及具
有启发性的讨论点;
2) 提示词指令需要明确要求模型从给定的热点事件中提炼出核心主题,并根据这些核心主
题,从社会、文化、经济、技术等多个角度和层面进行发散性思考,以产生新的、有趣
且深入的观点和讨论点;
3) “主题扩散”类生成结果应能够提供与原始热点事件主题紧密相关的多元化视角和深入
探讨,从而丰富内容的层次和深度,提供更加全面、多维度的信息解读和观点阐述。
d) 内容创作建议:
1) 根据热点事件及其相关联的主题,设计相应提示词引导模型从不同角度和层面提供内容
创作的灵感和实用的建议,包括文章标题的构思、内容框架的搭建、观点的深度阐述,
以及精选案例的引用等多个方面,以辅助内容创作者打造出高质量的内容作品;
2) 提示词指令需要明确要求模型结合热点事件和关联主题,给出具有针对性、新颖性和吸
引力的内容创作建议,以提升内容的吸引力和传播力;
3) “内容创作建议”类生成结果应能够为内容创作者提供具体、实用且具有高度可操作性
的建议和灵感,帮助创作出更加引人入胜、观点鲜明、结构清晰的高质量内容。
e) 传播效果预测:
1) 结合历史数据和当前媒体报道声量,设计相应提示词引导模型分析预测该热点内容在媒
体平台上的传播效果,包括可能的阅读量、转发量、讨论热度等;
2) 提示词指令需要明确要求模型依据已有的相关数据和数据分析方法,对热点事件及其相
关内容的传播效果进行合理预测,并提供相应的数据支持和解释,确保预测结果的可解
释性和可信度;
3) “传播效果预测”类生成结果应能够提供客观、科学的传播效果预测和分析,以帮助内
容创作者和发布者更好地制定发布和推广策略,最大限度地提升内容的曝光度和影响力。
4.5.2 舆情分析
舆情分析要求包括:
a) 新闻媒体文章观点分析:
1) 设计相应提示词令模型生成符合指定级别的新闻媒体倾向的观点自聚类分析内容;
2) 提示词指令需要包括但不限于规定新闻媒体级别的要求,建议新闻媒体级别按照中央媒
体、省级媒体、市级媒体和商业媒体进行划分;
3) 观点自聚类分析生成结果需要保证内容上,只分析指定级别的新闻媒体;在观点上,应
当根据文章内容,高度自聚类,建议以三至四个观点为宜;在分析上,应当言简意概,
突出主要观点指向;
4) 支持批量数据的导入分析,数据宜包括新闻媒体级别、新闻媒体名称、新闻标题、新闻
正文,建议支持数量在100 条左右。
b) 自媒体文章内容分析:
1) 设计相应提示词令模型生成符合指定平台的自媒体文章自聚类分析内容;
2) 提示词指令需要包括但不限于规定分析文章内容的意见、态度、情感等多维度指标;
3) 文章自聚类分析生成结果需要保证在内容上,应当与输入的待分析文章数据一致,不得
有虚构、幻想的成分;在结果上,应当准确反映针对具体事件或话题的思想动向,能够
挖掘出对事件或话题的兴趣点;
4) 支持批量数据的导入分析,数据宜包括平台名称、自媒体文章标题、自媒体文章正文,
建议支持数量在100 条左右。
c) 商业平台文章评论分析:
1) 设计相应提示词令模型生成符合指定平台的文章评论观点聚类分析内容;
2) 提示词指令需要包括但不限于规定评论观点的立场属性为正面、中性和负面;
T/CAPT 010—2024
9
3) 文章评论观点聚类生成结果需要保证在对待文章中所讨论事件的观点立场判定准确;在
评论内容情绪判断上精准,建议将情绪具体划分为8 类:高兴、悲伤、大笑、愤怒、讨
厌、震惊、担心和平和;在内容上,应当能够提炼出每种观点的核心要素,洞察出评论
者普遍心态;
4) 支持批量数据的导入分析,数据宜包括平台名称、文章评论正文,建议支持数量在500
条左右。
d) 历史事件回溯:
1) 设计相应提示词令模型生成符合准确描述的突发事件,回溯出历史相似事件的详细内容;
2) 提示词指令需要包括但不限于规定事件主体,回溯时间段,事件发生的地域以及事件相
似性程度等属性;
3) 历史事件回溯生成结果需要保证在内容上包括简要的事件概括、发展过程和最后的结果;
在顺序上,按照时间线依次列出;在相关性上,应当能够根据指定的事件相关度,增减
回溯的历史事件数量。
e) 热搜词条生成:
1) 设计相应提示词令模型生成符合准确描述的突发事件详情,符合不同平台热搜榜特征的
热搜词条;
2) 提示词指令需要包括但不限于规定平台名称;
3) 热搜词条生成结果需要保证在内容上能准确反映突发事件核心要素;在形式上,符合指
定平台的热搜词条特征;在逻辑上,应当能够反映社会公众兴趣所在。
4.5.3 新闻事实核查
新闻事实核查是指新闻采编人员通过多种方式,对已公开的新闻、声明、公告、报告、统计数据及
其他公共言论或信息的真实性和准确性进行系统评估的活动。大模型应当能辅助或代替人工完成新闻事
实核查的各项任务,包括:信息筛选、资料收集、验证来源、检查事实、分析证据、撰写报告和发布结
果。
在信息筛选环节,大模型应当可以迅速筛选出具有公共关注度和重要性的新闻主题或内容。在资料
收集阶段,模型能够快速查找并整理相关的原始来源、背景信息和佐证资料。在验证来源和检查事实过
程中,大模型可以高效地核实信息来源的可靠性和权威性,并对涉及的事实和数据进行多方比对和验证。
通过分析证据,模型应当可以综合多来源证据资料,识别新闻的准确性和真实性,减少人为主观偏差。
大模型应当能够生成清晰简明的事实核查报告,准确展示核查过程和结论。模型还应当可以协助发布和
传播核查结果,及时向公众提供准确的信息,减少虚假信息的传播和影响。
4.5.4 优先采用可信数据源
可信数据源是指具有权威性、准确性和时效性的数据信息来源。通常包括专业新闻机构、官方媒体、
政府数据库、研究机构或经验证的第三方数据服务机构。可信数据源应满足以下条件:
——权威性:数据源应来自政府机关、知名新闻机构、国际认可的非营利组织或行业权威研究机
构。
——准确性:数据源提供的信息应经过核实,准确无误,不传播未经证实的消息或谣言。
——及时性:数据源应能提供最新信息,保证内容时效性。
——透明性:数据源应公开原始信息来源、采集方法和时间,便于验证和追溯,如公布调查研究
的抽样方法和样本数量,指明数据可能存在的偏差与局限。
——完整性:数据源提供的信息应全面,不应有故意的遗漏或剪辑,避免误导读者。
——在新闻语言大模型的数据增强过程中,应遵循以下原则:
优先采用原则:在使用媒体数据进行语言模型训练或增强时,应优先考虑符合上述标准的
数据源,确保模型的准确性和可靠性。
多元化和平衡:应注意数据源的多元化和平衡,避免依赖单一数据源,结合多个高质量数
据源,以获得全面和客观的数据输入。
持续监控与评估:对选定的数据源实施持续监控和评估,定期审查其信息的准确性和可靠
性,并根据需要更新可信数据源名单。
T/CAPT 010—2024
10
数据更新:追踪可靠数据源提供的最新数据,保证模型接收和提供的信息不过时,能反映
最新情况。
——建议的可信数据源包括:
政府官方数据库:如国家统计局网站提供的《中国统计年鉴》、地区数据、普查数据,美国
食品药品管理局提供的药品数据等。
——新闻机构:可信的新闻机构数据源参考网信办互联网新闻信息稿源。
——研究机构:包括高校研究所验证的报告与文献、联合国与世界卫生组织等国际非营利组织、
行业内权威研究机构的资料。
4.5.5 使用外部数据的输出需要提供引证素材来源
在使用外部数据进行内容输出时,引证素材应增强内容的可靠性、可验证性和可追溯性。具体要求
如下:
a) 引证来源的灵活性与可控性:灵活选择不同的外部数据源作为引证素材。若外部数据无相关
内容,需拒绝回答,确保引证准确有效;
b) 数据来源的明确性:所有引文应明确标注引用来源,精确到原文中的具体数据片段,包括作
者、出版物名称、出版日期等,以便快速准确定位参考内容;
c) 引证数据的适当性:生成内容应与引文紧密相关,具备逻辑关联,避免无关引文;
d) 引证内容的完整性:引证内容应完整、可读,不遗漏关键信息或截取部分。需对每个观点标
注支持的引文,确保所有引用信息完整呈现。同一观点的相关引文应并排标注,便于全面了
解信息来源。
e) 引证来源的可回溯:提供引证信息的元数据,确保可找到原文;引文与原文一致,不进行改
写或修改,保证内容可追溯。
f) 引证格式的标准性:引文标注应清晰易懂,避免歧义或混淆。采用阿拉伯数字顺序夹注法关
联引证来源,方便读者查阅。元数据标注根据数据类型不同进行区分。参考文献按引用顺序
排序,提高逻辑性和可读性。遵循GB/T 7714 要求,确保引证格式规范统一。根据指定格式
自动生成引用,提升操作便捷性和准确性。
表3 数据类型和引文所需字段枚举
数据类型引证素材所需字段枚举
报纸文章(Newspaper Article)
作者(Author)、文章标题(Article Title)、报纸名称(Newspaper Name)、
出版日期(Publication Date)、版面(Section)、页码(Page Number)引文
段落(Quotation)
网页(Web Page)
页面标题(Page Title)、网站名称(Website Name)、发布日期(Date of
Publication)、URL、访问日期(Access Date)、引文段落(Quotation)
电子文档(Electronic Document)
作者(Author)、文档标题(Document Title)、页码范围(PageRange)、引
文段落(Quotation)
期刊文章(Journal Article)
作者(Author)、文章标题(Article Title)、期刊名称(Journal Title)、
出版日期(Publication Date)、卷号(Volume)、期号(Issue)、页码范围
(Page Range)、引文段落(Quotation)
书籍章节(Book Chapter)
章节作者(Chapter Author)、章节标题(Chapter Title)、书名(Book Title)、
出版日期(Publication Date)、ISBN号(ISBN)、页码范围(Page Range)、
引文段落(Quotation)
5 效果要求
5.1 专业性要求
专业性要求旨在判断大模型生成结果的新闻行业专业标准和价值取向体现情况。
5.1.1 内容专业
模型生成的新闻信息内容质量能够匹配新闻行业中的主要应用场景下的需求,保证模型生成新闻信
息的真实、准确。
T/CAPT 010—2024
11
5.1.2 结构专业
模型生成的新闻信息结构符合新闻专业标准,保证模型生成新闻信息符合新闻体裁规范。
5.1.3 语言专业
大模型生成的新闻信息的语言应符合新闻传播场景的风格需求,保证模型生成新闻信息的语言风格
不含违禁词、并符合媒体、栏目风格定位。
5.1.4 准确专业
大模型生成的内容应基于事实和数据,避免虚假信息和不实报道;在处理新闻报道时,模型应能够
识别和引用权威的信息源,如官方发布、专业研究报告等;对于历史事件、数据统计、人物言论等,模
型应确保引用信息的时间、地点、背景和上下文的准确无误。
5.1.5 可信专业
模型生成的新闻内容应具备一定的可信度,模型应能够解释其生成新闻内容的过程和依据,从而保
证读者或用户能够信赖该内容的真实性和有效性;应定期对模型进行校准和更新,以适应不断变化的新
闻环境和信息准确性的要求;当模型出现错误时,应能够识别错误类型并给出合理解释,以便用户或开
发者进行修正。
5.1.6 客观专业
模型处理和生成多样的文本时保持新闻客观性的能力,以提供更加广泛的视角和代表性;数据预
训练阶段要引入内容过滤机制,避免由于数据选择、数据清洗等过程中的不当操作而引入歧视,应
使用不同类型的可靠数据类信源以保证数据质量;生成内容时应通过算法保证信息来源的多样性和独立
性,避免偏见和误导性信息。
5.2 可靠性要求
可靠性要求应保证大模型在新闻行业使用过程中的安全、合法、可信赖,减少、防止大模型的不良
输出或侵权行为。
5.2.1 安全性
大模型生成内容应符合国家法律法规和行业规范,尊重知识产权和个人隐私,遵守道德和公序良俗,
符合社会主义核心价值观,可参考法律法规等相关文件对前述要求作出具体规定和建立负面清单,具体
要求可参考《新闻行业大规模预训练模型语言模型安全性要求》。
5.2.2 可控性
大模型在进行媒体工作时,应当满足指令提示词内的限制性、倾向性需求,保证大模型的输出是可
被输入控制的,且专业性不发生明显衰减。建立健全的内容审查机制,对大语言模型产出的内容进行人
工审核,确保内容的生成结果安全能够由用户掌控;对于发现的不适合产出的内容,应及时进行修改或
删除,防止其传播,并从技术层面判断根源,尽量杜绝类似内容的再生产;可识别具有不良诱导性内容
的提示词并给出正向提示和拒绝,并额外建立预警机制,让用户可知可控。
5.2.3 可解释性
大模型在进行媒体工作时,应能够清楚地说明其在新闻行业中的工作原理和逻辑推理过程,以便用
户进行核查检验,从而提高大模型的可信度。
5.2.4 保护数据隐私
大模型在预训练集和实际应用中均应遵循、符合对个人隐私数据保护和机构内部或敏感数据保护的
相关要求。对于处于不同国家和地区的具体情况,应遵照并符合当地相关法律法规的要求;对于涉及个
人隐私或个人隐私数据的新闻报道或输出,应遵循个人隐私数据保护的要求,对个人隐私数据进行匿名
处理或模糊化处理,包括但不限于:姓名、身份证号、家庭住址、通讯地址、电话号码、DNA数据、银
T/CAPT 010—2024
12
行账号、个人病历、照片、视频等。建立中央监管系统,通过人力和各种人工智能检测机制的辅助,发
现和记录隐私泄露或违规使用的行为。
5.2.5 保证数据可信
加强对新闻内容的真实性审核,如引入专业的新闻编辑和审核团队进行把关,确保其真实性和准确
性。同时,也可以借助自然语言处理等技术,对新闻内容进行自动化分析和验证,确保不产出虚假新闻
或误导性信息,对于未经证实的信息,应明确标注其未经验证,避免误导读者;建立可信度评级体系,
度量输出内容的可信度,供读者判断;提供用户反馈渠道,鼓励用户对不适宜及真实性存疑的内容进行
举报和提示;对用户反馈的内容进行快速响应和处理,必要时进行公开澄清或道歉。
5.2.6 尊重数据版权
尊重知识产权,严格遵守《中华人民共和国著作权法》,未经著作权人许可,大模型不得以复制、
通过信息网络向公众传播其作品等形式侵害著作权人权利;建立版权信息的查询功能:训练过程中不仅
仅要学习数据本身,还需要将数据的来源以及产权信息送入;对于引用或转载的内容,应明确标注来源,
并确保符合版权法规定的合理使用范围;使用开源数据集时,应取得开源授权协议。
5.3 适用性要求
适用性要求大模型应适应新闻行业的领域多样性和用户需求多样化,反映大模型在新闻行业中的实
际效果和用户体验。
5.3.1 灵活适用
大模型在进行不同领域的媒体工作时,应当对于差异性领域的新闻需求、多样性的新闻素材输入,
均能给出符合领域专业性的回答。
5.3.2 兼容适用
大模型在进行媒体工作时,对于同样需求、不同风格描述语言的提示词输入,应当都能给出符合需
求的回答。生成的内容在模型内部需要保持一致,不包含自相矛盾的信息,模型应保持持续稳定的性能,
不因数据量增大或计算资源变化而影响生成速度和质量。
5.3.3 创新适用
大模型在媒体行业中的应用也应当显示自身的创新能力和价值贡献,尤其是对于开放性生成任务,
如用户有需要,则大模型应有创新性或出彩性的生成结果,如生成多样性、内容新颖性等。
6 产品化要求
6.1 模型部署的要求
6.1.1 云服务的要求
云服务需要保证服务的稳定性。大模型的云服务应具备高可用性架构,保证7x24小时可靠,或根据
使用单位工作时间具体确定,同时确保系统能够在高并发访问情况下依然保持稳定运行,避免因服务中
断导致的新闻事故。此外,云服务需要具备良好的扩展性,以应对新闻行业中突发事件和重大新闻报道
期间的流量高峰。服务商还应提供全天候技术支持和快速响应机制,及时解决用户在使用过程中遇到的
问题,确保新闻行业大规模预训练语言模型的部署和运行过程平稳顺利。
6.1.2 私有化服务的要求
能私有化部署的,要保证部署方案的可用性和推理效率。私有化部署需要确保在不同的硬件环境下
都能够稳定运行,并且具备良好的可扩展性和灵活性,以适应新闻机构不同规模和需求的变化。在部署
过程中,需要考虑数据安全和隐私保护,确保新闻数据不会在传输和存储过程中泄露。此外,私有化部
署的模型应具备高效的推理能力,能够快速响应用户的查询和请求,确保新闻内容的实时性和准确性,
为新闻工作者提供高效的工具支持。
T/CAPT 010—2024
13
6.2 模型数据库的要求
6.2.1 数据库的上游数据可靠性
新闻行业要求事实,因此新闻行业大模型所采用的数据库应当具备可靠的上游数据来源。具体而言,
数据库中的数据应当来自权威、可信的新闻机构和信息源,经过严格的验证和筛选,以确保数据的真实
性和可靠性。此外,数据库还应保持实时更新,及时收录最新的新闻事件和动态,确保模型生成的内容
具有时效性和准确性。对数据库中的数据进行定期审核和清洗,剔除过时、错误或不可靠的信息,也是
确保数据质量的重要措施。
6.2.2 数据库的透明性
大模型进行数据增强时引用的数据,应当告知用户其出处和来源,方便用户进行复核查验。为了实
现这一点,模型数据库应具备高度的透明性,能够详细记录每条数据的来源、时间和相关背景信息。在
用户查询或使用模型生成的内容时,系统应能够提供详细的数据出处说明,帮助用户了解和确认数据的
可靠性和准确性。透明的数据管理机制不仅有助于提升用户对模型的信任度,也能够在出现数据争议时
提供明确的追溯依据,维护新闻工作的公正和诚信。
6.3 模型界面的要求
6.3.1 模型界面的多任务兼容性
新闻流程中任务类型庞杂,且新闻行业涉及到各方面领域,因此新闻行业大模型的界面应当根据用
户具体需求,提供不同的模式或能力组合,以方便用户应对不同的新闻工作。界面设计应灵活且多功能,
能够支持新闻写作、编辑、校对、数据分析等多种任务,并且允许用户自定义工作流程和任务模板,以
提高工作效率。多任务兼容性还要求界面能够无缝集成各种新闻工具和插件,提供一站式的工作平台,
满足新闻从业人员的多样化需求。
6.3.2 模型界面的易用性
大模型界面应当提供典型任务的默认提示词和典型新闻任务的流程模板,方便用户上手使用,提高
工作效率。易用性设计应注重用户体验,界面布局清晰、操作简便,并且具备智能化的提示和指导功能,
帮助用户快速熟悉和掌握各项功能。通过提供预设的新闻撰写模板和常用的提示词,用户能够在短时间
内生成高质量的新闻内容,减少重复性工作,提高生产效率。界面还应支持个性化定制,允许用户根据
个人习惯调整界面布局和功能设置,提升使用体验。
6.4 模型产品的数据保护和隐私保护要求
6.4.1 数据保护要求
新闻行业大规模预训练语言模型在处理和存储数据时,应遵循严格的数据保护标准。模型应当采用
先进的加密技术,保护数据在传输和存储过程中的机密性和完整性。系统需要具备完善的防护机制,以
抵御潜在的网络攻击和数据泄露风险。此外,应定期进行安全审计和风险评估,及时发现和修复安全漏
洞,保障数据使用的安全。
6.4.2 用户隐私保护要求
新闻行业大规模预训练语言模型在产品化过程中,应当高度重视用户隐私保护。系统需要遵循相关
法律法规,确保用户的个人信息不会被非法收集、存储或使用。应当建立透明的隐私政策,明确告知用
户数据的收集、使用和保护措施,获得用户的知情同意。同时,系统应具备用户数据匿名化处理功能,
确保用户信息在使用过程中不被泄露,保护用户的隐私权。
6.5 模型的性能和效率要求
6.5.1 模型的响应速度要求
新闻行业大规模预训练语言模型在处理新闻内容时,应具备快速响应的能力。系统应当优化模型的
计算和处理流程,确保在高并发访问情况下,依然能够快速生成高质量的新闻内容。响应速度的提升不
仅能够提高新闻工作的效率,还能增强用户体验,满足新闻行业对实时性和时效性的高要求。
T/CAPT 010—2024
14
6.5.2 模型的资源利用效率要求
新闻行业大规模预训练语言模型应当具备高效的资源利用能力,最大化计算资源的使用效率。在模
型设计和实现过程中,应当注重算法优化和资源调度,减少计算资源的浪费。系统需要具备动态资源分
配能力,根据实际工作负载智能调整计算资源,确保在不同工作环境下都能够高效运行。此外,应当支
持分布式计算和并行处理,提高模型的整体性能和处理能力。
6.6 模型的可扩展性和可维护性要求
6.6.1 模型的可扩展性要求
新闻行业大规模预训练语言模型应当具备良好的可扩展性,能够随着新闻业务的发展和需求的变化
进行灵活扩展。系统设计应当采用模块化架构,支持新增功能模块和业务逻辑的快速集成。通过开放的
接口和标准化的协议,模型能够与其他系统和工具无缝对接,满足不断变化的业务需求。
6.6.2 模型的可维护性要求
新闻行业大规模预训练语言模型应当具备高可维护性,确保系统在运行过程中能够方便地进行维护
和升级。系统应当提供完善的日志记录和监控功能,实时监测系统运行状态,快速定位和解决潜在的问
题。定期进行系统维护和性能优化,保持模型的高效运行和稳定性。此外,应当建立完善的技术支持和
培训机制,帮助用户及时解决使用过程中遇到的各类问题,确保系统的持续高效运转。
T/CAPT 010—2024
15
参考文献
[1] GB/T 38377-2019 新闻出版知识服务知识资源建设与服务基础术语
[2] GB/T 42131-2022 人工智能知识图谱技术框架
评论