构建知识图谱技术：产品视角下的知识图谱构建流程与技术理解

小君 2022-11-10 06:31:49 983

构建知识图谱技术：产品视角下的知识图谱构建流程与技术理解要构建规模庞大的知识图谱，已有的文献或资源数量上肯定是不够的，需要把各种来源的数据中的知识提取出来，并且存储在知识图谱中。RDF4J本身提供内存和磁盘两种RDF存储机制，支持全部的SPARQL查询和更新语言，可以使用与访问本地RDF库相同的API访问远程RDF库，支持所有主流RDF数据格式，包括RDF/XML、Turtle、N-Triples等。其实现的查询语言为SPARQL。查询语句可以写的很复杂，可以层层嵌套，求并集等各种运算来实现复杂的业务逻辑。最后说一下RDF的存储，三元组形式简单，可以简化为一张三列的表，进而存储在关系型数据库（如Mysql）中，也可以存储在专门的RDF数据库中，如RDF4J。RDF4J是Eclipse基金会旗下的开源孵化项目，功能包括RDF数据的解析、存储、推理和查询等。

PREFIX部分进行命名空间的声明，使下面查询的书写更为简洁。

RDF中以“?”或者“$”指示变量，在where子句中列出关联的三元组模板（三元组中允许存在变量，所以称为模板），而select子句指示要查询的变量。

对应到上述这个例子，查询的是学生姓名，年龄以及选修的课程，OPTIONAL关键字是可选算子，指的是在这个算子覆盖范围的查询语句是可选的，有年龄则返回年龄。

filter是过滤算子，指的是这个算子覆盖范围的查询语句可以用来过滤查询结果，整句的意思是如果有年龄，则年龄必须大于25岁。

查询语句可以写的很复杂，可以层层嵌套，求并集等各种运算来实现复杂的业务逻辑。

最后说一下RDF的存储，三元组形式简单，可以简化为一张三列的表，进而存储在关系型数据库（如Mysql）中，也可以存储在专门的RDF数据库中，如RDF4J。

RDF4J是Eclipse基金会旗下的开源孵化项目，功能包括RDF数据的解析、存储、推理和查询等。

RDF4J本身提供内存和磁盘两种RDF存储机制，支持全部的SPARQL查询和更新语言，可以使用与访问本地RDF库相同的API访问远程RDF库，支持所有主流RDF数据格式，包括RDF/XML、Turtle、N-Triples等。其实现的查询语言为SPARQL。

六、知识抽取

要构建规模庞大的知识图谱，已有的文献或资源数量上肯定是不够的，需要把各种来源的数据中的知识提取出来，并且存储在知识图谱中。

知识抽取是指自动化地从文本中发现和抽取相关信息，并将多个文本碎片中的信息进行合并，将非结构化数据转换为结构化数据，包括某一特定领域的模式、实体关系或RDF三元组。

具体来说，数据的来源有结构化数据、半结构化数据、非结构化数据等，分别对于了不同的抽取方法。