T/CSHB 0017-2024 生成式人工智能模型训练合规技术规范 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
T/CSHB 0017—2024
生成式人工智能模型训练合规技术规范
Generative AI model training complies with technical specifications
2024 -9 - 10 发布2024 - 9 - 10 实施
河北省版权协会发布
目录
前言.......................................................................................................................................1
1 范围.....................................................................................................................................2
2 规范性引用文件..................................................................................................................2
3 术语和定义..........................................................................................................................3
4 合规原则..............................................................................................................................5
5 数据收集合规要求............................................................................................................. 5
5.1 合规性审查............................................................................................................... 5
5.2 收集方式....................................................................................................................6
5.3 数据类别....................................................................................................................6
6 数据预处理合规要求......................................................................................................... 9
6.1 数据预处理总体要求............................................................................................... 9
6.2 数据预处理安全技术要求..................................................................................... 10
6.3 数据标注合规要求................................................................................................. 13
6.4 训练数据预处理合规要求..................................................................................... 14
6.5 数据加密技术要求................................................................................................. 14
7 模型训练与测试合规要求............................................................................................... 15
7.1 模型训练..................................................................................................................15
7.2 模型测试..................................................................................................................15
7.3 数据备份与恢复..................................................................................................... 16
8 内容生成服务合规要求................................................................................................... 16
8.1 使用者尽责义务的告知......................................................................................... 16
8.2 生成内容的审核..................................................................................................... 16
8.3 生成内容的标识..................................................................................................... 16
8.4 生成内容的异议审查机制..................................................................................... 17
8.5 使用者信息保护..................................................................................................... 17
8.6 被侵权人维权支持................................................................................................. 17
1
前言
本文件按照GB/T 1.1-2020《标准化工作导则第1 部分:标准化文件的结构和起草规
则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责
任。同时,本文件的版权归配播智算(河北)人工智能科技有限公司及所有参与起草的单位
共同所有,受国家版权法律、法规保护。未经许可,任何组织或个人不得擅自复制、出版、
传播或用于其他商业用途。如有需要,请联系本文件发布机构或相关单位获取授权。
本文件由配播智算(河北)人工智能科技有限公司提出。
本文件由河北省版权协会归口。
本文件起草单位:配播智算(河北)人工智能科技有限公司、浙江宇宙奇点科技有限公司、
配播(杭州)技术开发有限公司、杭州配播科技有限公司、唐山壹播人供应链管理有限公司、
唐山研岸教育科技有限公司、华北理工大学、河北省版权协会、华科企元(北京)标准化技
术发展有限公司、中德信息技术(天津)有限公司、首科财税(河北)企业管理服务有限公
司、首科(河北)企业管理咨询有限公司。
本文件主要起草人:王大伟、张小飞、吴文建、周小明、丁振东、张晶、黄晓敏、张佳
旺、戎丽娜、解峰、安志军、张孟佑、胡君、刘伟、王海玲。
2
1 范围
本文件规定了生成式人工智能在进行模型训练时应遵守的合规原则,给出了相应的合规
要求与规定。
本文件适用于指导生成式人工智能进行模型训练。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期
的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括
所有的修改单)适用于本文件。
GB/T 4943.1 信息技术设备安全第一部分:通用要求
GB/T 5271.1-2000 信息技术词汇第1 部分:基本术语
GB/T 5271.28-2001 信息技术词汇第28 部分:人工智能基本概念与专家系统
GB/T 5271.29-2006 信息技术词汇第29 部分:人工智能语音识别与合成
GB/T 5271.31-2006 信息技术词汇第31 部分:人工智能机器学习
GB/T 29246-2023 信息安全技术信息安全管理体系概述和词汇
GB/T 29490-2023 企业知识产权合规管理体系要求
GB/T 32914-2023 信息安全技术网络安全服务能力要求
GB/T 32916-2023 信息安全技术信息安全控制评估指南
GB/T 35273-2020 信息安全技术个人信息安全规范
GB/T 35770-2022 合规管理体系要求
GB/T 41479-2022 信息安全技术网络数据处理安全要求
GB/T 41867-2022 信息技术人工智能术语
GB/T 42018-2022 信息技术人工智能平台计算资源规范
GB/T 42574-2023 信息安全技术个人信息处理中告知和同意的实施指南
GB/T 42755-2023 人工智能面向机器学习的数据标注规程
GB/T 43269-2023 信息安全技术网络安全应急能力评估准则
GB/T 43557-2023 信息安全技术网络安全信息报送指南
TC260-PG-20202A 移动互联网应用程序(App)收集使用个人信息自评估指南
TC260-003 生成式人工智能服务安全基本要求
3
3 术语和定义
3.1
生成式人工智能generative artificial intelligence(AIGC)
具有文本、图片、音频、视频等内容生成能力的人工智能模型及相关技术。
3.2
提供者provider
以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织或个
人。
3.3
个人信息personal information
以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名
化处理后的信息。
[来源:GB/T 42574-2023,定义3.1]
3.4
敏感个人信息sensitive personal information
一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到
危害的个人信息。
注:敏感个人信息包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等信息,以
及不满14 周岁未成年人的个人信息。
[来源:GB/T 42574-2023,定义3.2]
3.5
测试数据test data
用于评估最终机器学习模型性能的数据。
注:测试数据与训练数据无交集。
[来源:GB/T 41867-2022,定义3.2.3]
3.6
模型训练model training
利用训练数据,基于机器学习算法,确定或改进机器学习模型参数的过程。
[来源:GB/T 41867-2022,定义3.2.18]
4
3.7
数据标注data annotation
给数据样本指定目标变量和赋值的过程给数据样本指定目标变量和赋值的过程。
[来源:GB/T 41867-2022,定义3.2.29]
3.8
训练数据training data
用于训练机器学习模型的输入数据子集。
[来源:GB/T 41867-2022,定义3.2.34]
3.9
告知notice
使个人知晓其个人信息处理活动及其有关规则的行为。
注:个人信息处理活动包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。
3.10
同意consent
个人对其个人信息进行处理自愿、明确作出授权的行为。
注:包括通过积极的行为作出授权(即明示同意),或者通过个人的行为而推定其作出授权。
[来源:GB/T35273-2020,3.7,有修改]
3.11
提供provision
个人信息处理者通过共享、转移等方式将个人信息传输或披露给其他个人信息处理者的
行为。
注:委托第三方处理个人信息的,不属于向其他个人信息处理者提供个人信息的行为。
3.12
人工智能伦理原则ethical principles of artificial intelligence
(人工智能)开展人工智能技术基础研究和应用实践时遵循的道德规范或准则。
3.13
模型公平性model fairness
指模型的预测结果不受到不相关因素的影响,例如性别、种族等。
5
4 合规原则
生成式人工智能数据应用应符合以下合规原则。
a)科技伦理原则:在生成式人工智能数据应用的各个环节中,需严格遵守科技伦理原则。
这包括增进人类福祉、尊重生命权利、坚持公平公正、合理控制风险以及保持公开透明。这
些原则旨在确保技术的发展和应用始终符合社会伦理道德标准,促进科技进步与社会和谐共
存;
b)内容安全原则:在利用生成式人工智能技术进行内容生成时,应采取有效措施避免生
成违背社会主义核心价值观的内容,避免生成具有歧视性的内容,避免生成虚假有害信息等
法律、行政法规禁止的内容;
c)人格保护原则:在生成式人工智能数据应用的各个环节中,应注重保护自然人的人格
利益,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益等;
d)商业利益原则:在模型开发、服务提供等数据应用环节中,提供者应尊重他人的知识
产权和数据权益。避免实施垄断、不正当竞争等侵犯其他商业主体合法权利的行为。这一原
则旨在维护公平竞争的市场环境,促进技术创新和经济繁荣;
e)技术发展原则:提供者在服务提供过程中应注意及时收集反馈,提高生成内容的准确
度与可靠性,不断促进人工智能技术的优化与发展;
f)体系合规原则:提供者应建立并完善合规管理体系,对生成式人工智能数据应用的各
个环节进行全面管理。通过制定合规管理制度、采用有效的技术方法和其他治理措施,确保
数据应用的合规性。这一原则旨在建立系统化的合规管理机制,为技术的健康、可持续发展
提供有力保障。
5 数据收集合规要求
5.1 合规性审查
对用于模型训练的数据,提供者应根据获取数据的方式以及数据类别,建立合规管理制
度与流程,对数据来源和内容合法性进行审查。
5.1.1 数据来源审查
a)数据来源合法性获取途径是否正当,是否取得了相关授权或许可,第三方的数据来源
是否合法合规,是否具备相应的转让或共享权利的证明文件;
6
b)数据内容准确性与完整性;
c)数据安全性;
d)数据使用合规性。
5.1.2 内容合法性审查
a)明确数据的使用目的和范围是否符合最初的收集声明和相关法律法规要求,不得超范
围使用数据。
b)检查在数据分析、挖掘等过程中是否遵循了合法的操作流程和技术标准,避免因不当
操作导致数据泄露或滥用。
c)对于涉及敏感数据(如个人隐私、商业机密等)的使用,要特别关注是否采取了额外
的安全和保密措施,并且按照严格的审批流程进行操作。
5.2 收集方式
5.2.1 直接收集数据
提供者可直接从个人信息主体处获取个人信息,或在自身日常生产经营中创造生产新数
据、以原始数据为基础加工生产新数据。
5.2.2 间接收集数据
在事先评估合法性基础的前提下,除直接获取数据外,提供者可从其他主体处间接获取
数据,即通过数据交易、数据共享、公共数据授权运营等途径获取数据。
提供者应同相对方签订相应的法律协议,谨慎审核相对方的数据来源合法性以及数据可
交易性,并要求相对方作出来源合法性、可交易性和可使用性承诺,或出示相关证明等。鼓
励提供者通过数据交易所等公开平台获取数据,以提升数据来源的合法合规性。
5.3 数据类别
5.3.1 公开数据信息
提供者可以使用一些平台上公开可用的数据集,这些数据集通常经过整理和标注,适用
于各种机器学习任务;通过人工收集的方式获取数据信息,应注意获取手段的合法合规,不
得侵犯他人合法权益;通过网络爬虫工具抓取网页内容或是从API 接口中获取数据,应遵
守目标网站的网络爬虫排除协议(Robots 协议)等声明文件要求,避免采用破解密码、伪
7
造用户代理(User Agent)、设置代理网际协议地址(IP 地址)等技术手段进行违规爬取。
应控制数据爬取的流量与频率,避免因爬取行为影响目标网站的正常运行。爬取移动互联网
应用程序(App)、小程序等所依赖的网络服务应用程序接口(API)中的数据,应当遵守
API 的服务授权声明。
公开数据附有数据使用许可条件或使用限制的,提供者获取该公开数据后,应遵守相关
约定。
5.3.2 个人数据信息
如提供者采集的数据类型中包含个人信息,应遵循相应的法律法规,包括但不限于以下
内容。
1)收集个人信息的合法性要求
对个人信息控制者的要求包括:不得欺诈、诱骗、强迫个人信息主体提供其个人信息;
不得隐瞒产品或服务所具有的收集个人信息的功能;不得收集法律法规明令禁止收集的个人
信息;不得从非法渠道获取个人信息。
2)收集个人信息的最小必要性要求
收集个人信息对个人信息控制者的要求包括:收集的个人信息的类型应与实现产品或服
务的业务功能有直接关联,直接关联是指没有上述个人信息的参与,产品或服务的功能无法
实现;自动采集个人信息的频率应是实现产品或服务的业务功能所必需的最低频率;间接获
取个人信息的数量应是实现产品或服务的业务功能所必需的最少数量。
3)收集个人信息时的授权同意
对个人信息控制者的要求包括:收集个人信息,应向个人信息主体告知收集、使用个人
信息的目的、方式和范围等规则,并获得个人信息主体的授权同意;
收集个人敏感信息前,应征得个人信息主体的明示同意,并应确保个人信息主体的明示
同意是其在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示;
收集个人生物识别信息前,应单独向个人信息主体告知收集,使用个人生物识别信息的
目的.方式和范围,以及存储时间等规则,并征得个人信息主体的明示同意;
收集年满14 周岁未成年人的个人信息前,应征得未成年人或其监护人的明示同意;不
满14 周岁的,应征得其监护人的明示同意;
间接获取个人信息时,应要求个人信息提供方说明个人信息来源,并对其个人信息来源
的合法性进行确认。应了解个人信息提供方已获得的个人信息处理的授权同意范围,包括使
8
用目的,个人信息主体是否授权同意转让、共享、公开披露、删除等。如开展业务所需进行
的个人信息处理活动超出已获得的授权同意范围的,应在获取个人信息后的合理期限内或处
理个人信息前,征得个人信息主体的明示同意,或通过个人信息提供方征得个人信息主体的
明示同意。
4)告知与同意的基本原则
a)个人信息处理者在实施告知时需考虑以下基本原则。
· 公开透明:公布处理个人信息的种类、目的、方式、安全措施等处理规则,不采
取故意遮挡、隐藏等方式诱导个人略过告知内容;
· 有效传达:尽可能通过交互式界面、邮件、电话或短信等方式向相关个人进行告
知;
· 适时充分:在收集、提供、公开等个人信息处理活动发生之前或同时,对个人进
行充分告知;
· 真实明确:告知个人信息的处理种类、目的、方式等规则与实际情况一致,且需
结合实际业务功能,不使用笼统、宽泛的表述;
· 清晰易懂:告知文本符合个人的语言习惯,使用通用且无歧义的语言、数字、图
示等。
b)个人信息处理者在取得个人同意时需考虑以下基本原则。
· 告知一致:取得同意的范围不超出所告知的内容;
· 自主选择:支持个人通过自行操作的方式作出同意,不使用默认勾选的方式取得
同意;
· 时机恰当:在个人信息收集行为发生前,且同步传达告知内容时,取得个人同意,
以增进个人对业务功能与所收集的个人信息之间关联性的理解:
· 避免捆绑:区分产品或服务的业务功能,不采用捆绑方式强迫个人一次性同意多
种业务功能可能收集的个人信息或多个处理活动,个人拒绝同意时,不影响与该
个人信息无关的业务功能的正常使用。
5)个人信息的展示限制
涉及通过界面展示个人信息的(如显示屏幕、纸面),个人信息控制者宜对需展示的个
人信息采取去标识化处理等措施,降低个人信息在展示环节的泄露风险。例如,在个人信
息展示时,防止内部非授权人员及个人信息主体之外的其他人员未经授权获取个人信息。
6)个人信息的使用限制
9
对个人信息控制者的要求包括:除目的所必需外,使用个人信息时应消除明确身份指向
性,避免精确定位到特定个人。例如,为准确评价个人信用状况,可使用直接用户画像,而
用于推送商业广告目的时,则宜使用间接用户画像。
对所收集的个人信息进行加工处理而产生的信息,能够单独或与其他信息结合识别自然
人个人身份,或者反映自然人个人活动情况的,应将其认定为个人信息。对其处理应遵循收
集个人信息时获得的授权同意范围。
5.3.3 知识产权保护
获取数据用于模型训练的,应采取以下手段防止对他人知识产权的侵害。
a)已超过著作权保护期限进入公有领域的作品,提供者可以采集相关数据投入模型训练,
但应避免在生成内容中侵犯著作权人的署名权、修改权与保护作品完整权等著作人身权;
b)对仍在著作权保护期限内的作品,提供者应主动采取措施获取著作权人的授权,明确
其作品可用于生成式人工智能的模型训练;
c)建议提供者通过著作权集体管理组织获取著作权人的授权、商标权、专利权、商业秘
密等其他类型的知识产权,建议提供者根据数据类型和数据来源进行必要甄别,如发现有侵
权可能的,应避免采集或取得权利人的授权。
6 数据预处理合规要求
6.1 数据预处理总体要求
a)数据识别。
网络运营者应识别数据处理中涉及的数据,包括个人信息、重要数据和其他数据,形成
数据保护目录,并及时更新。
b)分类分级。
网络运营者应按照相关国家标准,根据合同规定和业务运营需要,对所识别的数据进行
分类分级管理。
c)风险防控。
网络运营者开展数据处理时,应按照合同约定履行数据安全保护义务,开展数据处理活
动应加强风险监测,发现数据安全缺陷、漏洞等风险时,应采取加密、脱敏、备份、访问控
制、审计等技术或者其他必要措施,加强数据安全防护,保护数据免受泄露、窃取、修改、
10
损毁、不正当使用等;对重要数据和敏感个人信息进行重点保护,应按照规定对其数据处理
活动定期开展风险评估,并向有关主管部门报送风险评估报告。
风险评估报告应包括处理的重要数据的种类、数量,开展数据处理活动的情况,面临的
数据安全风险及其应对措施等。
应建立数据安全管理责任和评价考核制度,制定数据安全保护计划,开展安全风险评估,
及时处置安全事件,组织开展教育培训。
d)审计追溯。
网络运营者应对数据处理的全生存周期进行记录,确保数据处理可审计、可追溯。
6.2 数据预处理安全技术要求
6.2.1 通则
网络运营者在开展数据处理时应进行影响分析和风险评估,采取必要的措施对识别的风
险进行控制,以保障数据安全。
6.2.2 收集
网络运营者为提供服务而必须处理个人信息的,应遵循合法、正当、必要的原则,不应
收集与其提供的服务无直接或无合理关联,或超出个人信息主体明示同意期限的个人信息,
且遵守以下要求。
a)应制定和公开个人信息保护政策并严格遵守,个人信息保护政策应符合GB/T
35273-2020 中5.5 要求;
b)收集个人信息前,应明示个人信息保护政策,并征得个人信息主体同意;
c)改变处理个人信息的目的、类型、范围、用途的,应及时告知个人信息主体,修改个
人信息保护政策,并重新征得个人信息主体同意,涉及个人信息保护政策变动的应修改个人
信息保护政策:
d)明示所提供产品或服务的类型,以及该产品或服务所必需的个人信息,不应因用户不
同意或撤回同意,提供该产品或服务所必需个人信息以外的信息,而拒绝提供该产品或服务;
e)不应仅以改善服务质量、提升用户体验、定向推送信息,研发新产品等为目的,强制
要求、误导用户同意收集个人信息;
f)收集敏感个人信息前,应取得个人信息主体的单独同意,确保单独同意是在完全知情
的基础上自主给出的、具体的、清晰明确的意愿表示;
11
g)收集不满十四周岁未成年人个人信息前,应取得未成年人的父母或其他监护人的单独
同意;
h)从个人信息主体以外的其他途径获得个人信息的,应了解个人信息来源、个人信息提
供方已获得的个人信息处理授权同意范围,并按照本文件的要求履行安全保护义务。
6.2.3 存储
网络运营者应对数据存储活动采取安全措施,包括:
a)存储重要数据和个人信息等敏感网络数据,应采用加密、安全存储、访问控制、安全
审计等安全措施;
b)存储重要数据和个人信息,不应超过与重要数据和个人信息主体约定的存储期限或个
人信息主体授权同意有效期;
c)存储个人生物特征识别信息的,应遵守GB/T 35273-2020 中6.3b)和c)的要求及生物特
征识别信息保护相关国家标准要求。数据接收方存储数据时,应按要求采取安全措施并以合
同进行约定。
6.2.4 使用
网络运营者在为用户提供定向推送或信息合成服务时的要求如下。
a)定向推送及信息合成:
1)网络运营者利用个人信息和算法为用户提供定向推送信息服务的,同时应提供非定向
推送信息的服务选项;
2)在向个人信息主体提供新闻、博客类信息服务的过程中,网络运营者利用算法自动合
成文字、图片、音视频等信息,应明确告知用户。
b)第三方应用管理:
网络运营者应对接入或嵌入其产品或服务的第三方应用加强数据安全管理,包括:
1)应通过合同等形式,明确双方的数据安全保护责任和义务;
2)应监督第三方应用运营者加强数据安全管理,发现第三方应用没有落实安全管理责任
的,应及时督促整改,必要时停止接入;
3)网络运营者知道或者应知道第三方应用利用其平台侵害用户民事权益,未采取必要措
施的,应与第三方应用运营者承担连带责任;
4)宜对接入或嵌入的第三方应用开展技术检测,确保其数据处理行为符合双方约定要求,
12
对审计发现超出双方约定的行为及时停止接入。
6.2.5 加工
网络运营者在开展转换、汇聚、分析等数据加工活动的过程中,知道或者应知道可能危
害国家安全和公共安全、经济安全和社会稳定的,应立即停止加工活动。
6.2.6 传输
网络运营者在应对数据传输活动采取安全措施,包括:
传输重要数据和敏感个人信息时,应采用加密、脱敏等安全措施;向数据接收方传输数
据时,应按要求采取安全措施并以合同进行约定。
6.2.7 提供
a)向他人提供
网络运营者向他人提供数据前,应进行安全影响分析和风险评估,可能危害国家安全、
公共安全、经济安全和社会稳定的,不应向他人提供。要求如下:
1)向他人提供个人信息,应向个人信息主体告知接收方的名称、联系方式、处理目的、
处理方式个人信息的种类、存储期限,并取得个人信息主体同意;
2)共享、转让重要数据,应与数据接收方通过合同等形式明确双方的数据安全保护责任
和义务,采取加密、脱敏等措施保障重要数据安全;
3)委托第三方开展数据处理活动的,应通过合同等形式明确约定委托处理的目的、期限、
处理方式、数据的种类、保护措施,双方的权利和义务,以及第三方返还或删除数据的方式
等,要求第三方以合同中约定的形式返还、删除接收和产生的数据,并对数据处理活动进行
监督;
4)发生收购、兼并、重组、破产时,数据接收方应继续履行相关数据安全保护义务;没
有数据接收方的,应删除数据。
b)数据出境:
网络运营者向境外提供个人信息或者重要数据的,应遵循国家相关规定和相关标准的要
求境内用户在境内访问境内网络的,其流量不应路由至境外。
6.2.8 公开
网络运营者利用所掌握的数据资源,公开市场预测、统计等信息时,不应危害国家安全、
13
公共安全、经济安全和社会稳定。
6.2.9 投诉、举报受理处置
网络运营者应建立投诉、举报受理处置制度。收到通过其平台编造、传播虚假信息,发
布侵害他人名誉、隐私、知识产权和其他合法权益信息,以及假冒、仿冒、盗用他人名义发
布信息的投诉、举报的,自接受投诉举报起,受理时间不超过3 个工作日。受理后进行调查
取证,对于查实的编造、传播虚假信息,发布侵害他人名誉、隐私、知识产权和其他合法权
益信息,以及假冒、仿冒、盗用他人名义发布信息的投诉,举报,依法采取停止传输、消除
等处置措施。
6.3 数据标注合规要求
6.3.1 标注规则的制定
为模型训练的目的需要进行数据标注的,应按法律法规以及数据需求方的要求,依据以
下规定制定标注规则:
a)标注规则应根据数据需求方对模型训练的具体要求制定;
b)标注规则应清晰、具体、全面、细化,对标注人员具有实际操作性;
c)标注规则的确定应有利于提高训练数据的准确性,标注过程中如发现冗余数据、错误
数据、异常数据等情况应进行及时处理;
d)标注规则的确定应有利于保持训练数据的客观性,避免因规则设计的主观性导致标注
结果发生同客观情况的偏离;
e)标注规则应进行定期审查和更新,以适应新的法律法规、技术发展和业务需求的变化。
6.3.2 数据标注质量评估
数据标注的全流程实施过程中应包含质量评估的环节, 具体操作可依据GB/T
42755-2023 第6.2 和第7.1 条规定的流程与方法进行实践。
质量评估可采用抽样核验、机器验证、第三方验证等方式进行,根据场景需求及项目特
点,建议选择两种以上方式进行数据标注准确度和一致性检查,并根据检查结果及时进行反
馈校正。
14
6.4 训练数据预处理合规要求
6.4.1 提高训练数据质量
提供者应采取有效措施提高训练数据质量,并从真实性、准确性、客观性、多样性、安
全性等角度考虑训练数据以提升数据质量。当各方面要求不能同时满足或可能存在冲突时,
提供者应进行谨慎考量,以防止训练数据的不当选择影响生成内容的质量。
6.4.2 训练数据的真实性
提供者应从数量和质量上判断所获取的数据是否具有可靠的来源,是否能够反映真实世
界的情况,并通过人工或模型等方式就数据内容的真实性进行核验。
6.4.3 训练数据的准确性
提供者可采用数据去重、去除异常值、纠正错误等数据清洗方法,以提高数据集的准确
性和一致性,排除噪声和偏差。
6.4.4 训练数据的客观性
训练数据宜尽可能中立和无偏见,在数据采集与后续处理环节中均应避免人为干扰、选
择偏见和其他主观因素的介入。
6.4.5 训练数据的多样性
为提高模型的性能和泛化能力,应充分考虑数据来源、数据类型及样本特征分布的均衡
和多样化。为防止生成存在偏见或歧视的内容,应进行充分多样化和具有代表性的数据选择,
确保其包含各个民族、信仰、国别、地域、性别、年龄、职业和健康等的充分信息。
6.4.6 训练数据的安全性
为确保训练数据的安全性,应对训练数据的来源进行安全评估和核验。
6.5 数据加密技术要求
为确保重要数据和敏感个人信息在存储和传输当中的安全性,应遵循以下要求。
a)密钥管理是数据加密技术规范的核心环节,包括密钥生成、存储、分发、更新和销毁
等过程。应明确规定密钥管理的责任和流程,确保密钥的安全和可追溯性。
b)加解密算法的选择应基于公开、安全和可靠的原则,明确规定合适的加解密算法和密
15
钥长度,以提供足够的安全性。
c)应制定合理的安全策略和控制措施,包括访问控制、审计追踪、数据备份和恢复等方
面,以确保数据的安全性和完整性。
7 模型训练与测试合规要求
7.1 模型训练
7.1.1 训练步骤
模型训练应至少包括预训练与优化训练等两重的训练环节。
7.1.2 预训练
预训练应选择具有合法来源的基础模型,基础模型应经过可靠性、安全性、合法性以及
价值观等方面的测评,才可在此基础上进行后续训练。
7.1.3 优化训练
经过预训练后形成的算法模型,还应通过优化训练进一步使用已标注的数据进行后续流
程,来优化模型训练的最终结果。
7.1.4 模型验证
在模型训练的不同环节中,均可使用验证数据对模型的参数与设置进行持续优化。验证
数据可与训练数据来源于同样的数据集,但在训练过程中应保持相对独立。
7.2 模型测试
在正式为公众提供内容生成服务之前,为保证模型生成的效果,应按照以下要求进行模
型测试:
a)制定全面完整严格的测试指标体系,以减少幻觉、有害偏见和违法内容的生成;
b)引入人工方式或其他模型进行对抗测试,根据结果反馈实现对模型性能的改进优化;
c)建立动态调整的指标体系与测试方案,定期评估和调整指标体系,确保测试结果的有
效性;
d)测试数据的来源应独立于训练数据与验证数据,且应按照同样标准进行预处理;
e)确保模型在经过严格测试并核验完成之后才对公众提供内容生成服务;
16
f)模型评价依据、测试指标体系、测试与核验办法及采用的技术手段等,均应明确记录,
做到可查询、可溯源。
7.3 数据备份与恢复
在模型训练过程中,应对重要数据进行定期备份,并制定数据恢复预案,以防数据丢失
或损坏。
8 内容生成服务合规要求
8.1 使用者尽责义务的告知
提供者应当与注册使用其服务的使用者(下称“使用者”)签订服务协议,在服务协议中
明确告知使用者如下事项:
a)生成式人工智能服务的基本特点与可能风险;
b)使用者使用生成式人工智能服务的基本规范,包括不得利用生成式人工智能服务特性,
有意识地获取违反法律法规、违反社会公德或伦理道德的内容;
c)使用者负有审慎、尽责使用生成式人工智能服务的义务,在生成内容含有违反法律法
规、违反社会公德或伦理道德的内容时,不应将此生成内容对外传播;
d)明确告知使用者与生成内容相关的具体使用场景,例如明确生成内容是否可使用于科
研、商用或白用等目的,以及其他使用限制条件;
e)对于生成内容在特定行业的应用,尤其是对内容准确性有较高要求的如法律、医疗等
领域,应向使用者重点提示风险。
8.2 生成内容的审核
提供者应建立生成内容审核机制,通过技术手段或人工审核的方式,对生成式人工智能
生成的内容在对外提供前进行检测,识别并过滤其中的个人隐私信息、虚假有害信息、违法
违规信息等不宜对外提供的内容。
8.3 生成内容的标识
提供者利用生成式人工智能技术向使用者提供文本、图片、音频、视频等生成内容时,
需依据TC260-PG-20233A 第3 章的规定,通过水印等方式对生成内容进行明确标识,标识
信息至少应包含“由人工智能生成”或“由AI 生成”等含义。在由自然人提供服务转为由
17
人工智能提供服务容易引起混淆时,应通过提示文字或提示语音的方式进行标识。
8.4 生成内容的异议审查机制
应建立使用者对生成内容提出异议的通知-受理机制、举报-受理机制,当使用者或举报
者对生成内容合法合规性有异议,向提供者通知、举报时,提供者应按如下机制来处理:
a)及时向使用者或举报者反馈,告知其已进入生成内容异议审核阶段;
b)及时判断被异议的生成内容是否违反法律法规、违反社会公德或伦理道德;
c)一旦确认被异议的生成内容违反法律法规、违反社会公德或伦理道德的,应及时采取
停止生成、停止传输、消除等处置措施,并采取模型优化训练等措施进行整改;
d)向使用者或举报者告知生成内容的异议处理情况,并视具体情况向有关主管部门报告。
8.5 使用者信息保护
提供者对使用者的个人信息、输入信息和使用记录应依法履行如下保护义务:
a)根据必要性原则,仅收集与提供服务目的直接相关的个人信息;
b)不得非法留存能够识别使用者身份的输入信息和使用记录;
c)不得非法向他人提供使用者的输入信息和使用记录,除非获得使用者同意,或具有其
他合法性基础;
d)未进行明确告知并取得使用者同意的,提供者不得擅自将使用者的输入信息用于后续
模型训练,除非具备其他合法性基础。
8.6 被侵权人维权支持
为应对因使用者不当使用人工智能生成内容造成他人权益损害的问题,提供者应建立被
侵权人维权支持机制。在确认侵权事实属实的前提下,就被侵权人在法律框架内维护其合法
权益提供合理配合,并采取必要措施防止侵害结果的扩大。
评论