知识图谱1—概览
2017-10-29 09:17
176 查看
知识图谱前世今生
知识图谱由最早的语义网络发展过来而来,语义网是通过图结构来记录词语之间的语义关系(之后的还有本体论,Web,语义网,链接数据),而知识图谱对图中的节点意义进行扩充,每个节点对应于现实世界中的实体,整个图谱通过图记录现实世界中不同实体之间的关系,现在还有人提出”知识库”概念知识图谱技术意义
由于Web中的数据会以不同的格式(结构、非结构、半结构)存在,这样而言,对于这些海量数据的管理和融合的难度会大大增加。对于知识图谱而言,技术人员首先通过自然语言处理等手段将Web中的数据进行知识抽取,根据抽取出的知识链接关系建立一个关系图(Graph),将这些知识”映射”到这张图中,继而在关系型数据结构上人们可以进一步对数据进行进一步的数据管理工作(知识推理,数据分析,数据融合等)知识图谱最大的意义在于借助在关系型数据上推理出来的知识,让Web中Doc to Doc这种传统知识检索方式进化成Data to Data形式,即每次检索到的一个结果就是关于这个实体的所有信息,而不是一个由某个单独的人编辑的而且内容存在局限性的一个网页(可以很大程度提高知识检索的效率)
已有的一些知识图谱项目:
谷歌知识图谱、KG辅助搜索、KG辅助问答交互、KG辅助决策、KG辅助AI
知识图谱技术概览
以知识图谱为中心展开的技术点包括:知识表示、知识抽取、知识链接、知识众包、知识推理、数据分析、知识问答、语义搜索、可视化等知识表示:研究如何使用计算机符号来表示人脑中的知识,以及符号之间的运算模拟人脑的推理
知识抽取:对非结构化文本数据经过文本预处理、语法解析、依存分析等操作并对实体进行识别后,进行实体链接,再进一步抽取关系和事件,最终构建为一个三元组或者多元组格式数据
知识推理:基于已有的事实通过计算推理出未知的事实
知识融合:对不同数据源中描述同一实体的信息进行整合,形成更加全面的实体信息
(其他的技术和具体的技术细节之后分章节详细分析)
典型知识库项目简介
Cyc,目标建立人类最大的常识知识库,由Terms与Assertion组成。优点:基于形式化知识表示来刻画知识,缺点:过于形式化灵活性拓展性与灵活性不够WordNet,词典知识库,用于词义消歧。定义了名词、动词、形容词、副词之间的关系。如名词之间的上下位关系、动词之间的蕴含关系
ConceptNet,也是个常识数据库,与Cyc相比ConceptNet采用非形式化,更接近自然语言的描述。与谷歌知识图谱比较,ConceptNet更倾向于比较词与词之间的关系,接近WordNet
<
4000
p>YAGO,链接数据库,集成Wikipedia,WordNet,GeoNames的数据,将WordNet词汇定义与集成Wikipedia分类体系数据进行了融合,有更加丰富的实体分类体系。同时给数据增加了时间和空间维度的属性描述。
还有其他常见的例如Freebase、WikiData,BabelNet(支持多语言),微软Conceptgraph等等。
相关文章推荐
- 第二章 知识图谱——机器大脑中的知识库
- 技术人,为什么需要构建知识图谱 (转载)
- Java知识图谱
- 从概念到底层技术,一文看懂区块链架构设计(附知识图谱)
- Java知识图谱收集整理
- 综述 | 知识图谱向量化表示
- Java知识结构图谱
- 大数据工程人员知识图谱
- 信息到数据到认知,结构化到知识图谱
- 翻转设计模式系列——第一部分--面向对象基础知识(1)--概览
- 医学知识图谱构建技术与研究进展
- 当知识图谱“遇见”深度学习
- android 架构师知识图谱
- 知识图谱
- 知识图谱好文章整理
- 从概念到底层技术,一文看懂区块链架构设计(附知识图谱)
- 我的Android进阶之旅------>Android知识图谱
- 知识图谱——机器大脑中的知识库
- 首次公开!深度学习在知识图谱构建中的应用
- 知识图谱 资源