知识图谱智能构建(从碎片化数据到全面知识网络)
知识图谱智能构建(从碎片化数据到全面知识网络)知识图谱构建主要流程知识图谱构建主要步骤分为知识汇聚、知识抽取、知识建模、知识映射、知识融合、知识存储、知识挖掘,从而把碎片化知识整合形成图谱库,提供上层知识服务应用。知识图谱通常会把客观事物、事物关系和对事物的描述的抽象为实体、关系、实体属性概念转为机器可理解的图结构数据。两个节点及它们之间的关系形成一条知识,作为知识图谱最小基础单元。每条知识表示为一个SPO三元组(Subject-Predicate-Object),即主语、谓语、宾语。其最接近于人的自然语言的数据模型,而图的信息组织方式又更加接近于人脑的记忆存储方式。如上图中Tony、Rose、Jim三个人作为知识图谱的实体,每个人职业(开发工程师、测试工程师等)为该实体的属性,他们之间的连线来表述关系(如兄妹关系、同事关系、朋友关系等),即为知识图谱的边关系。通过这样的抽象映射,我们能很快速的得到:Tony是大数据开发工程师,他有一
认识知识图谱知识图谱概述
知识图谱本质上是语义网络的知识库,可以简单地把知识图谱理解成多关系图。用于迅速描述物理世界中的概念及及相互关系。
知识图谱由节点和(连接不同节点的)边构成,知识图谱中的每个节点代表该主题内一个实体(entity)或概念(class),边代表相连实体或概念间的语义关系(relation)。实体的属性代表节点相关的描述信息。
图片来源网络
知识图谱通常会把客观事物、事物关系和对事物的描述的抽象为实体、关系、实体属性概念转为机器可理解的图结构数据。
两个节点及它们之间的关系形成一条知识,作为知识图谱最小基础单元。每条知识表示为一个SPO三元组(Subject-Predicate-Object),即主语、谓语、宾语。其最接近于人的自然语言的数据模型,而图的信息组织方式又更加接近于人脑的记忆存储方式。
如上图中Tony、Rose、Jim三个人作为知识图谱的实体,每个人职业(开发工程师、测试工程师等)为该实体的属性,他们之间的连线来表述关系(如兄妹关系、同事关系、朋友关系等),即为知识图谱的边关系。通过这样的抽象映射,我们能很快速的得到:Tony是大数据开发工程师,他有一个叫Jim朋友,Tony是Rose的哥哥等知识信息。
知识图谱的构建知识图谱构建主要步骤分为知识汇聚、知识抽取、知识建模、知识映射、知识融合、知识存储、知识挖掘,从而把碎片化知识整合形成图谱库,提供上层知识服务应用。
知识图谱构建主要流程
- 知识汇聚
借用ORC、nlp等技术,使用大数据套件抽取作业,把结构化、半结构化、非结构化数据,进行清洗、转化变为规范结构化数据存储到数据源。
- 知识抽取
从各种类型的数据源中提取出实体、属性以及实体间的相互关系。
- 知识建模
根据抽取信息对现实生活中实体、属性和其逻辑关系概念的抽象,进行本体的知识表达建模。
- 知识映射
通过数据映射关系配置,把规范结构化数据映射到本体,建立起与数据源联系,以便后续转换为图结构存储。
- 知识存储
随着业务数据不断产生,源源不断把其中的知识汇聚过来,并根据知识映射规则存入到图数据库,形成知识主题库。
- 知识融合
在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到图库中,以确保图库的质量。
- 知识挖掘
除此之外,利用高级机器学习算法基于逻辑规则、图结构推理、分布式学习推演、神经网络学习,根据已知知识信息推理出未知、预见性的知识。
- 知识应用
最后,根据已构建的知识图谱库,根据AI算法、图算法等建立算法库,形成图服务API,提供上层知识分析、知识检索等应用。
知识图谱应用场景知识图谱作为数据信息知识处理的重要工具,在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值。
图谱已被广泛运用于金融、医疗、政务、能源与工业、公安等领域。在各领域中主要体现能力如下:
能力一:异构知识处理,进行信息结构化、可视化、服务化
- 异构数据的知识结构化,把文档、音频、文件等数据抽取形成知识关联,构建知识网络。
- 常见应用:企业知识库、政务公文知识建模、图谱可视化套件等
能力二:关系分析、追溯源头
- 做关系发现,实体探索,借助于图可视化工具发现一些潜在信息,潜在的关联。
- 常见应用:可疑团伙挖掘、企业关系分析、反洗钱领域、社区人群关系分析等
能力三:使能机器语言认知
- 运用NLP技术,进行分词,短语理解,文本理解等。通过知识图谱可以让机器能更好的去理解自然语言,进一步的更好的理解用户的意图,文本的含义。
- 常见应用:文本理解、智能知识问答
能力四:画像分析、增强标签能力
- 根据人的行为、特征与现实事物之间关系,建立人、行为、特征、事物的关系图谱模型,通过对具有人或物的关系分析结果打标记,对各种标签数据做数据增强。构建用户分群、分组,形成用户画像。
- 常见应用:用户画像、标签检索
能力五:提供行业背景知识、做知识引导,解决问题
- 垂直领域内的深度应用,比如智能客服系统、智能外呼系统、运营推荐系统,利用知识图谱可以精准地回答用户的问题,可以进行复杂问题的回答,并推荐客户感兴趣的内容。一些垂直行业内常用的传统专家系统,通过赋予他们一定的背景知识,可以很好地提升效果。
- 常见应用:智能问答、智能推荐
北明数科结合项目优秀经验,沉淀了一套成熟的知识图谱构建产品。
主要模块:本体管理--图谱管理--知识抽取--知识映射--知识融合--知识存储--知识模型--知识服务--图谱可视化套件,还包括算法库、知识监控等功能。
1.产品简介
采用分布式服务架构和分布式图计算引擎,实现行业级的知识图谱构建和分析,从可视化的知识建模、多源异构的知识提取和知识融合、复杂的知识推理等角度,快速、精准从知识图谱中提取出有价值的信息,快速生成成熟的解决方案。
产品架构图
知识处理按架构自下而上分为四层:
(1)知识内容层,数据资源提供方的原始数据,可以是产品、技术、问题、风险等各类知识内容源;
(2)知识元数据层,通过基础支撑平台,对于各类知识基于分类法及知识特征的结构化要素定义,形成知识资源池。
(3)语义关系层,通过知识图谱能力,对于元素间语义关系定义,可以实现跨多种主题知识的内容关联和穿透;
(4)知识应用层,提供智能搜索、知识聚合、智能推荐、关系推理等前端应用功能。
2.产品功能
- 知识汇聚
知识汇聚是将各个业务系统的非结构化、结构化的数据通过实时或者离线采集方式不同数据源数据采集到数据中心,并进行清洗、转化变为规范数据格式存储到数据源中。
帮助用户完成知识汇聚工作,解决知识异构问题
- 本体管理
本模块完成知识建模过程,从各种类型的数据源中提取出实体、属性以及实体间的相互关系。根据抽取信息进行分析,建立本体模型。
本体模型构建
- 图谱管理
本模块进行图谱模型构建,完成关联本体、知识映射、知识融合、知识抽取动作。主要流程如下:
- 本体选择:图谱模型与本体模型进行绑定,定义知识抽取结构规则。
本体选择
- 知识映射:对关联的本体模型的本体节点、本体节点关系进行知识映射,建立表关系、表、字段到实体关系、实体、实体属性映射关系。
知识映射
- 知识抽取:建立作业抽取任务,根据本体模型结构和知识映射规则把结构化数据转为图数据,进行图数据库存储。
知识抽取
- 知识融合:对进入图谱模型的数据进行知识融合规则配置,为知识融合提供依据:
知识融合规则
知识融合算法
- 知识存储
提供不同类型的知识存储源。
支持图数据库与RDF图存储结构,满足大数据混合存储结构
- 知识分析
平台针对于知识图谱分析提供路径分析、关系分析、集群分析、中心度分析、统计分析等大类,50多小类的图分析算法服务。
图谱算法分析
- 可视化套件
图谱可视化是基于复杂网络的可视化形式与分析手段,对各种图数据,直观地展示各实体间发生的事件关系以及实体的特征信息,展示各个实体之间的关系网,并提供相关知识服务分析算法。
图谱可视化套件
- 知识服务
提供在线可视化的服务开发能力,提供知识图数据API服务、图分析算法服务,通过服务构建、服务发布、服务注册、服务订阅、服务控制流程,形成数据服务集市,快速响应业务侧的图谱知识服务需求。
3.产品案例
某城市社会关系分析平台
本案例构建大数据资源池知识图谱平台,对城市各社会主体及周边事物的治理融合,清晰地展示和挖掘。面向各智慧应用和部门,为人口信息挖掘、政务服务优化决策等提供支撑能力。
城市人口知识档案
事件材料知识库
某人社局人社知识库
案例简介:本项目基于北明数科知识图谱能力,为某人社局提供以下三大方面服务
- 面向社会公众和企业,通过知识图谱赋能人社政务服务窗口、人社公众号、企业服务平台,提供智能搜索和推荐服务,实现人才供需精准匹配。
- 面向人社局业务部门,通过知识图谱赋能内部人事、人才、档案等业务管理系统,提升业务人员对各类人才管理、事项办理的效率,助力业务沉淀和持续发展。
- 面向人社局政策专家,提供政策图谱可视化工具,支持专家对政策比对分析,研究拟订人社相关政策、规划。面向市委、人社局相关分管领导,结合大数据分析辅助领导科学决策。
在目前,知识图谱已经成为了知识处理与分析过程中的重要一环,国内部分企业已经开始架构属于自己企业体系的知识图谱,在信息整合与数据分析中快人一步。
如果看到这里你还心存疑问:为什么自家企业需要知识图谱?
那就以最简短的例子为证:智能手机的普及淘汰了一批不会使用它的人,那么未来的知识图谱也会淘汰一批没有抓住它的企业。
北明数科拥有丰富的知识图谱实施经验,在智慧城市、智慧社区、政府企业项目都经历过打磨,为客户进行知识主题库构建提供重要的支撑能力。