T/AHAI 013-2024 面向终身学习的知识图谱构建系统技术规范 ,该文件为pdf格式 ,请用户放心下载!
尊敬的用户你们好,你们的支持是我们前进的动力,网站收集的文件并免费分享都是不容易,如果你觉得本站不错的话,可以收藏并分享给你周围的朋友。
如果你觉得网站不错,找不到本网站,可以百度、360搜搜,搜狗, 神马搜索关键词“文档天下”,就可以找到本网站。也可以保存到浏览器书签里。
收费文件即表明收集不易,也是你们支持,信任本网站的理由!真心非常感谢大家一直以来的理解和支持!
CCS L 67
安徽省人工智能协会团体标准
T/AHAI 013—2024
面向终身学习的知识图谱构建系统技术规范
Technical specification for knowledge graph construction system of lifelong learning
2024 - 12 - 02 发布2024 - 12 - 02 实施
安徽省人工智能协会 发布
前言
本文件按照GB/T 1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由安徽省人工智能协会提出并归口。
本文件起草单位:西安电子科技大学、湖南大学、科大讯飞股份有限公司。
本文件主要起草人:李瑞,徐悦甡,段明星,李鑫,李婵,蒋志平,王琳方,杨思睿,邢钧峰,蒋
宇宏,杨溢,刘寄甲,刘大威,马寅汝。
T/AHAI 013—2024
1
面向终身学习的知识图谱构建系统技术规范
1 范围
本文件规定了面向终身学习的知识图谱构建系统的框架、技术要求、功能要求和非功能要求。
本文件适用于教育行业面向终身学习的知识图谱系统设计、开发与测试。
2 规范性引用文件
GB/T 5271.17-2010 信息技术词汇第17部分数据库;
GB/T 42131-2022 人工智能知识图谱框架;
YD/T 4044-2022 基于人工智能的知识图谱构建技术要求。
3 术语和定义
GB/T 5271.17-2010界定的以及以下术语和定义适用于本文件。
3.1
终身学习lifelong learning
终身学习是一种持续不断的学习过程,在人的整个生命周期中不断获取新知识、技能和经验,使个
体能够持续提升能力、拓展视野,并保持竞争力。
3.2
实体entity
存在或者可能存在的任何具体或抽象的事务,包括这些事物间的关联。
[来源:GB/T 5271.17-2010,17.02.05]
3.3
实体类型entity type
一组具有相同属性的实体集合的抽象。
[来源:GB/T 42131-2022 3.3]
3.4
关系relation
具有相同属性的各实体值的集合以及这些属性。
[来源:GB/T 5271.17-2010,17.04.01]
T/AHAI 013—2024
2
3.5
知识图谱knowledge graph
一种以结构化的形式描述客观世界中概念、实体及其关系的方式。它将互联网的海量信息表达成更
接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
[来源:YD/T 4044-2022,3.1]
3.6
精确率precision
评价机器学习模型效果的参数,反映的是在预测为正例的样本中,预测正确的比例。
注:计算公式为准确率= 正确预测的正例样本数量/ 预测为正例的样本数量。
3.7
召回率recall rate
评价机器学习模型效果的参数,反映的是在所有正例样本中,能够正确地识别为正例的比例。
注:计算公式为召回率= 正确预测的正例样本数量/(正确预测的正例样本数量+ 错误预测的负例样本数量)。
3.8
F1 值F1-score
综合应用精确率和召回率,为二者的调和均值。
注:计算公式为F1值= 2 * 精确率* 召回率/(精确率+ 召回率)。
4 缩略语
下列缩略语适用于本文件。
NLP 自然语言处理(Natural Language Processing)
API 应用编程接口(Application Programming Interface)
RDF 资源描述语言(Resource Description Framework)
OWL 网络本体语言(Web Ontology Language)
SPARQL 数据获取协议和查询语言(SPARQL Protocol and RDF Query Language)
5 构建框架
面向终身学习的知识图谱系统以底层技术基础作为支撑,其构建需经过数据获取、数据清洗和去重、
知识抽取、知识表示、实体链接、知识存储、知识更新等阶段,各阶段间的逻辑结构如图1所示。
T/AHAI 013—2024
3
图1 面向终身学习的知识图谱构建系统结构图
标引序号说明:
1 ——数据获取。通过数据库、网络爬虫、API接口、第三方数据提供商等手段获取所需的数据。
2 ——数据清洗与去重。针对获取的数据集中的残缺数据、错误数据和重复数据进行清洗。
3 ——知识抽取。知识抽取是使用识别、理解、过滤和归纳的方法从不同来源的结构化、半结构
化和非结构化数据中将信息提取出来
4 ——知识表示。将知识图谱中的实体和它们之间的关系转换为数学表示,从而使得计算机可以
更加方便地处理和分析这些信息,能够将复杂的实体和关系映射到一个低维度向量空间中,从而能够有
效处理大规模的知识图谱。
5 ——实体链接。实体链接是一种确定两个实体是否指向现实世界中同一对象的过程,用于判断
不同数据集中的实体是否相同。
6 ——知识存储。知识存储是指将知识以某种结构化的形式存储在计算机系统或其他媒体中,以
便于组织、管理和检索,旨在有效地保存和利用知识资源。
7 ——知识更新。知识更新是指不断对知识库、知识图谱或其他知识存储结构中的信息进行修订、
添加、删除或修改,以确保其中所包含的知识与最新的实际情况和领域知识相符。
6 技术要求
6.1 知识获取
终身学习过程中涉及到多种知识获取途径,知识获取阶段应明确知识图谱构建的数据来源,针对不
同来源的数据定制不同的获取规则。
知识获取阶段的技术要求如下:
a) 应明确数据获取的来源和途径。应明确数据获取的目标来源,包括但不限于数据库、网络爬虫、
API接口、第三方数据提供商等。对于每个来源,需要了解数据的结构、格式、访问方式等具
体信息;
b) 应明确数据粒度和维度。应根据数据使用场景和需求,明确数据获取输出的粒度和维度,以满
足后续知识图谱构建的需求;
T/AHAI 013—2024
4
c) 应确保数据输出的规范化和标准化,包括字段命名、数据编码、单位统一等,以便后续数据集
成和应用;
d) 应确保数据获取的合法性和可靠性,避免侵犯他人隐私或知识产权。特别是在涉及第三方数据
提供商时,需要明确数据授权方式和使用条款;
e) 应设置异常处理和改进机制。确保对数据获取过程中出现的问题和异常进行记录和分析,及时
纠正和改进数据获取的流程和方法;
f) 应对采集到的数据进行存储,以便后续分析。
6.2 数据清洗与去重
面向终身学习的知识图谱数据清洗与去重,应满足数据来源与途径明晰化、数据粒度和维度确认、
数据规范化与标准化以及合法性和可靠性保障等技术要求,以确保清洗与去重后的数据质量和可用性,
为知识图谱的构建和应用奠定基础。
数据清洗与去重阶段的技术要求如下:
a) 数据来源与途径明晰化:应明确数据清洗与去重的目标数据来源,包括已有知识图谱、自然语
言文本、结构化数据库等。对于每个来源,需要了解数据的结构、格式、获取方式和访问权限
等具体信息。
b) 数据粒度和维度确认:应根据知识图谱的应用场景和需求,明确数据清洗与去重输出的粒度(如
实体、关系等)和维度(如时间、地点、属性等),以满足后续知识图谱构建的需求。
c) 数据规范化与标准化:应确保清洗与去重后的数据输出符合统一的规范和标准,包括字段命名
一致、数据编码统一、单位规范等,以便后续数据集成和应用。
d) 合法性和可靠性保障:应确保数据清洗与去重过程中的合法性和可靠性,避免侵犯他人隐私或
知识产权。特别是在涉及第三方数据提供商时,需要明确数据授权方式、使用条款和合规性,
以保证数据的合法获取和使用。
e) 缺失值填充:应对于存在缺失值的数据,需要进行适当的填充操作,以保持数据完整性。常见
的缺失值填充方法包括使用均值、中位数或众数进行填充,或者根据数据的特点和背景知识进
行合理推测和插补。
f) 异常值处理:异常值会对后续分析和应用造成不利影响,因此需要识别和处理异常值。常见的
异常值处理方法包括使用统计学方法(如3σ原则、箱线图等)进行判断和剔除,或者根据领
域知识和实际情况进行异常值的修正或标记。
6.3 知识抽取
6.3.1 实体抽取
实体抽取是自然语言处理中的一项重要任务,其主要目标是从文本中识别和提取出具有特定意义的
实体,如人名、地名、组织名、时间、数量等。
实体抽取的技术要求如下:
a) 实体抽取的结构和形式输出实体应包括类型、起始位置、结束位置等信息,以便于后续处理和
应用。实体抽取结果应采用统一的格式和标注规范,以支持不同系统间的交互和整合;
b) 数据类型和规模。文本数据应涵盖多个领域和主题,包括但不限于新闻、社交媒体、学术文献
等,覆盖范围广泛。数据规模应确保充分覆盖各类实体,包括人物、地点、组织、时间等;
c) 利用命名实体识别技术,从文本中识别出具体的实体,包括人名、地名、组织名等,以支持多
种实体类型的识别,满足不同场景下的实体抽取需求;
T/AHAI 013—2024
5
d) 实体分类。对抽取出的实体进行分类,确定实体的具体类型,如人物、地点、时间等,以便后
续处理和应用;
e) 实体抽取的准确性评估。建立实体抽取的精确率、召回率和F1值等指标,对实体抽取结果进行
全面评估和比对。
6.3.2 关系抽取
在终身学习过程中,面对海量多领域知识,实体间的关联起到了重要的链接作用。关系抽取是自然
语言处理领域的重要任务之一,通过对应算法与模型自动识别和提取文本中的实体之间的关系,以构建
结构化的知识表示,进而支持信息检索、问答系统、知识图谱构建等应用。
关系抽取的技术要求如下:
a) 关系抽取的结构和形式。输出关系应包括关系类型、关系持有实体(实体对)、关系置信度等
信息,以便于后续处理和应用;
b) 关系抽取结果应采用统一的格式和标注规范,以支持不同系统间的交互和整合;
c) 关系类型的定义。定义一套完整的关系类型体系,涵盖常见的关系类型,同时支持自定义扩展,
以应对不同领域和应用场景的需求;
d) 上下文信息的利用。应利用关系在上下文中的语境和逻辑,通过利用句法结构、语义信息等,
提高关系抽取的准确性和连贯性;
e) 应进行关系分类器设计。构建关系分类器,用于将抽取出的关系进行进一步分类和验证。应关
注特征选择、模型训练和评估等环节,确保分类器的准确性和泛化能力;
f) 应进行可信度计算。对于抽取出的关系,应引入可信度计算模型,评估关系的真实性和可靠性,
排除噪声和错误信息;
g) 交叉验证和测试。利用交叉验证或者留出测试集的方式,对关系抽取系统进行全面的性能评估,
包括精确率、召回率、F1值等指标。
6.4 知识表示
知识表示是指将自然语言中的信息、概念和关系以一种计算机可理解的形式进行表达和存储的过程。
在NLP任务中,知识表示起着至关重要的作用,它直接影响到文本理解、推理和应用的效果。
知识表示阶段的技术要求如下:
a) 应明确知识表示的结构和形式。知识表示应采用统一的格式和结构,如图谱、知识库、向量空
间模型等,以便于计算机进行有效的理解和处理。应采用语义网络、本体、三元组等形式对知
识进行表达,以支持语义推理和信息检索;
b) 应对多模态信息的整合。融合文本、图像、语音等多模态信息,构建跨模态的知识表示,以满
足不同应用场景下的需求。应关注多模态信息之间的关联和交互,提高知识表示的丰富度和复
杂性;
c) 应明确语义和关系的表达。确保知识表示能够准确表达实体之间的语义关系和属性,包括同义
关系、层次关系、关联关系等,以支持语义推理和信息抽取;
d) 知识表示建模。应利用自然语言处理技术对原始数据进行建模,形成结构化的知识表示;
e) 应进行知识的补充和更新。不断更新和补充知识表示,及时引入新的知识和信息,确保知识表
示的时效性和全面性。结合领域专家的知识和经验,对知识表示进行修正和完善,提高知识表
示的准确性和有效性;
f) 确保对知识表示中出现的问题和异常进行记录和分析,及时纠正和改进知识表示的方法和模型。
6.5 实体链接
T/AHAI 013—2024
6
实体链接是自然语言处理中的一项任务,旨在将文本中提及的实体链接到知识库中相应的实体。在
文本中,实体可以是具体的人、地点、组织、时间等事物的提及,而知识库中存储了这些实体的结构化
信息,如实体的属性、关系、分类等。实体链接的目标是将文本中的实体与知识库中的实体进行对应,
从而丰富文本的语义表达,帮助计算机理解和推理文本内容。
实体链接的技术要求如下:
a) 应了解系统是否需要额外的上下文信息,如句子级别的上下文、语义信息等,以提高实体链
接的准确性;
b) 应确定实体链接系统的输出格式,如实体标识符、实体类型、链接的知识库实体等;
c) 应关注到对未链接实体进行处理,系统对于无法链接的实体应当给出相应的处理方式,如标
记为未知实体、进行后续人工处理等;
d) 候选实体生成模块应确定实体链接系统如何生成候选实体集合,可以是基于文本上下文的实
体候选集合或者利用外部知识库进行实体匹配;
e) 系统应当包括实体消歧模块,用于在候选实体集合中识别出正确的链接实体,应关注上下文
语境、实体描述信息等;
f) 确保有合适的标注数据集用于对实体链接系统进行训练和评估。
g) 确定实体链接系统的评估指标,如精确率、召回率、F1值等,以及如何计算这些指标。
6.6 知识存储
知识存储是支撑终身学习知识长久保存与维护的关键技术。知识图谱是一种用于表示实体之间关系
的知识存储结构,以三元组(subject, predicate, object)的形式来表示事实或关系,其中主语和宾
语表示实体,谓语表示它们之间的关系。知识图谱中的实体和关系可以通过唯一的标识符链接到外部的
知识库或数据源,从而构成了一个具有丰富语义信息的知识存储结构。
知识存储的技术要求如下:
a) 采用图结构和本体表示等合适的数据结构和语义模型,以清晰地表达实体之间的关系和语义信
息;
b) 应满足丰富的语义信息,如存储实体的属性、关系的类型、层次结构等,提供清晰的语义表示,
以支持多样化的知识图谱任务需求;
c) 应支持多种查询和推理操作。提供适当的API或查询接口,支持复杂的语义查询和推理操作,
例如基于SPARQL的查询语言;
d) 结构化数据。采用RDF或OWL等标准化格式,以便进行统一的存储和查询。
e) 应关注到知识存储的准确性。采用人工审核、自动校对等手段,确保知识图谱中的信息准确无
误;
f) 应考虑到知识存储的完整性。通过与已知领域知识库对比、自动生成的知识验证等方式,评估
知识图谱的信息完整性;
g) 应关注到知识存储的一致性。建立严格的逻辑规则和一致性检查机制,确保知识图谱中的信息
不会相互矛盾或冲突;
h) 应关注到知识存储的更新性。建立自动化的更新机制,定期对知识图谱进行更新和维护;
i) 应关注到知识存储的可信度。评估知识来源的可信度,并设立权威信息标识机制,以提高知识
图谱的可信度和权威性。
6.7 知识更新
T/AHAI 013—2024
7
在终身学习过程中,海量的领域知识具有一定的时效性,因此知识的增量更新对终身学习知识图谱
的构建至关重要。知识更新是指不断对知识库、知识图谱或其他知识存储结构中的信息进行修订、添加、
删除或修改,以确保其中所包含的知识与最新的实际情况和领域知识相符。更新知识的目的是保持知识
库的准确性、完整性和时效性,以满足学习者的终身学习需求并反映最新的知识和信息。
知识更新技术要求如下:
a) 采用人工审核、自动校对等手段,应确保知识图谱中的信息准确无误。人工审核可以通过专家
审查、领域知识验证等手段进行,以确保添加到知识图谱中的信息符合专业标准和事实真相。
自动校对技术如数据一致性检查、逻辑推理等,以发现潜在的错误或冲突信息,并及时予以修
正。
b) 评估知识图谱的信息完整性,应采用知识补全技术,通过分析知识图谱中的结构和内容,发现
缺失的实体、关系或属性,并利用各种技术手段从外部文本、数据库等来源中提取相关信息,
使知识图谱更加完备和全面。
c) 应建立严格的逻辑规则和一致性检查机制,定义实体之间的合法关系和属性取值范围,确保知
识图谱在补全和更新中信息不会相互矛盾或冲突,保持数据一致性。
d) 应建立自动化的更新机制,定期对知识图谱进行更新和维护。通过自动化更新技术,以实现知
识的增量更新、错误修正、新知识的添加等操作,保证知识图谱与实际领域知识的同步。
e) 评估知识来源的可信度,并设立权威信息标识机制,标记来源于可靠渠道和权威机构的知识信
息,以提高知识图谱的可信度和权威性。
7 基本功能要求
面向终身学习的知识图谱交互系统的基本功能如下:
a) 应支持知识图谱的可视化展示;
b) 应支持对知识的管理功能,包括知识查询、知识增添、知识更新、知识删除等;
c) 应支持模型训练优化,包括支持模型组合和调参,提高模型性能和泛化能力。在评测知识图谱
模型时,可以结合精确值(Precision)、召回值(Recall)和F1值来进行综合评估;
d) 应保证模型的可用性,即无论输入什么样的数据,模型都能返回一个结果,供系统进行决策处
理;
e) 应支持对机器学习服务模块的管理,保证据传输过程安全、开发框架安全,支持权限管理和服
务接口规范制定等。
8 基本非功能要求
8.1 可扩展性要求
8.1.1 应具备良好的可扩展性,根据需求随时进行扩展和收缩。
8.1.2 应支持横向扩展,用户通过API可以直接接入。
8.2 可靠性要求
8.2.1 应确保数据只能按约定好的行为进行使用,避免数据滥用。
T/AHAI 013—2024
8
8.2.2 应具备在出现故障(比如服务器故障、硬盘故障、网络故障、关机、重启等)后系统进行自动容灾
恢复的能力,包括数据备份和恢复等。
8.3 兼容性要求
8.3.1 应能在业界主流硬件上正常运行。
8.3.2 应支持多数据源的批量数据导入与更新。
8.3.3 应兼容主流商业及开源社区版操作系统。
8.4 性能要求
8.4.1 应支持通过集群化方案解决在线服务的负载均衡、故障转移、动态扩缩容等问题。
8.4.2 可支持亿级或者以上规模数据的秒级查询。
8.5 易用性要求
8.5.1 可提供API及算法封装,如知识查询、知识增添、知识更新、知识删除等。
8.5.2 应提供应用运行时动态修改配置的服务,并提供图形化的集中化管理界面。
8.5.3 可支持数据并行加载及增量加载。
8.6 安全性要求
8.6.1 应支持将知识图谱中数据的传输限制在特定授权实体间。
8.6.2 应确保知识图谱数据的完整性和可用性。
8.6.3 应保证知识图谱输入数据及输出返回结果的保密性和完整性,确保不被未授权用户非法获取。
评论