知识图谱算法:一文详解知识图谱关键技术与应用
知识图谱算法:一文详解知识图谱关键技术与应用我们先直观的来看一下什么是知识图谱,下面有一张图,从这张图里可以看到,这个图里圆圈是节点,节点之间有一些带箭头的边来连成,这个节点实际上相当于知识图谱里的实体或者概念,边连线表示实体之间的关系。▌一、知识图谱的概述大家晚上好!我是达观数据的桂洪冠,负责达观的搜索技术团队。非常高兴今天晚上能给大家做一个分享,分享的主题是“知识图谱的关键技术和应用”。达观数据是一家专注于文本智能处理的人工智能技术企业,我们为企业提供完善的文本挖掘、知识图谱、搜索引擎、个性化推荐的文本智能处理技术服务。言归正传,进入今天的演讲环节。今天的演讲主题是“知识图谱关键技术与应用”,分成几个环节:
讲师 | 桂洪冠
来源 | AI科技大本营在线公开课
本课程从知识图谱的历史由来开展,讲述知识图谱与人工智能的关系与现状;知识图谱辐射至各行业领域的应用;在知识图谱关键技术概念与工具的实践应用中,本课程也会讲解知识图谱的构建经验;以及达观在各行业领域系统中的产品开发和系统应用。
以下是公开课文本版整理
大家晚上好!我是达观数据的桂洪冠,负责达观的搜索技术团队。非常高兴今天晚上能给大家做一个分享,分享的主题是“知识图谱的关键技术和应用”。
达观数据是一家专注于文本智能处理的人工智能技术企业,我们为企业提供完善的文本挖掘、知识图谱、搜索引擎、个性化推荐的文本智能处理技术服务。
言归正传,进入今天的演讲环节。今天的演讲主题是“知识图谱关键技术与应用”,分成几个环节:
- 一、知识图谱的相关概述;
- 二、知识图谱的基本概念;
- 三、知识图谱行业方面的应用和场景介绍,着重讲一下知识图谱构建的相关技术;
- 四、达观在知识图谱构建方面的经验、心得和相关案例。
- 最后是与大家的Q&A互动环节。
▌一、知识图谱的概述
我们先直观的来看一下什么是知识图谱,下面有一张图,从这张图里可以看到,这个图里圆圈是节点,节点之间有一些带箭头的边来连成,这个节点实际上相当于知识图谱里的实体或者概念,边连线表示实体之间的关系。
知识图谱本质上是一种大型的语义网络,它旨在描述客观世界的概念实体事件以及及其之间的关系。以实体概念为节点,以关系为边,提供一种从关系的视角来看世界。
语义网络已经不是什么新鲜事,早在上个世纪就已经出现了,但为什么重新又提到知识图谱?
知识图谱本质上是一种语义网络,但是它最主要的特点是一个非常大规模的语义网络,之前的语义网络受限于我们处理的方法,更多是依赖于专家的经验规则去构建,在规模方面受限于特定领域的数据。大规模网络,谷歌在2012年首先提出知识图谱的概念,在freebase的基础上扩展了大量来自互联网的实体数据和关系数据。据说目前实体的数据已经达到数十亿级,有达到千亿级的实例关系,规模是非常巨大的。
我们再看一下,知识图谱背后是怎么表示的,我们看到的是一个巨大的语义网,背后是怎么存储或者表示的呢?
首先,它是由三元组构成的,构成知识图谱的核心其实就是三元组,三元组是由实体、属性和关系组成的(由Entity、Attribute、Relation组成)。
具体表示方法为,实体1跟实体2之间有某种关系,或者是实体属性、属性词。
举个例子,“达观数据是一家人工智能公司”,其实就可以表示成这样的三元组:
<达观数据,is-a,人工智能公司>。“人工智能公司是一种高科技公司”可以表示成:<人工智能公司,subclass 高科技公司>。“达观数据成立于2015年”,也可以把这个属性表示成一个三元组,就是:<达观数据,start-time,2015年>。基于已有的三元组,它可以推导出新的关系,这个对构建知识图谱来说是非常重要的。我们知道,知识图谱要有丰富的实体关系,才能真正达到它实用的价值。完全靠人工去做的话是不太现实的,所以内部一定有一个自动推理的机制,可以不断的去推理出新的关系数据出来,不断的丰富知识图谱。
来看一些具体的例子。
“人工智能公司是一种高科技公司”,subclass的关系。
还有一个三元组是谷歌是一家人工智能公司,<Google is-a人工智能公司>,可以由这两个三元组推导出谷歌是一家高科技公司,<Google is-a高科技公司>。因为subclass的实例之间是一种继承的关系。
<翅膀part-of鸟>,<麻雀kind-of鸟>,可以推导出<翅膀part-of麻雀>。
为什么要用三元组来描述知识图谱?
三元组是一个人和计算机都易于理解的结构,人是可以解读的,计算机也可以通过三元组去处理,所以它是一个既容易被人类解读,又容易被计算机来处理和加工的结构,而且它也足够的简单,如果说你扩充成四元组、五元组,它整个结构就会变得比较复杂,那是综合的一种复杂性和人的易理解性、和计算机的易出理性来综合的考虑,决定用三元组的结构来去作为它的一个存储。
那么,AI为什么需要知识图谱?
人工智能分为三个阶段,从机器智能到感知智能,再到认知智能。
机器智能更多强调这些机器的运算的能力,大规模的集群的处理能力,GPU的处理的能力。
在这个基础之上会有感知智能,感知智能就是语音识别、图像识别,从图片里面识别出一个猫,识别人脸,是感知智能。感知智能并非人类所特有,动物也会有这样的一些感知智能。
再往上一层的认知智能,是人类所特有的,是建立在思考的基础之上的,认知的建立是需要思考的能力,而思考是建立在知识的基础之上,必须有知识的基础、有一些常识,才能建立一些思考,形成一个推理机制。