构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源 。一类是开放域的知识图谱,另一类是垂直领域的知识图谱 。目前的知识图谱分为两类 。这些都是知识图谱的构成 。数据是阻碍构建图谱的最大绊脚石,只要有了数据,利用neo4j或其他一些工具就能比较简单的构建出图谱 。
知识图谱是什么?
在人工智能时代,大家都在讨论机器学习、深度学习等技术,但如果你持续关注人工智能,你会发现知识图谱这个概念也在被越来越多的人重拾 。而知识图谱也确实是人工智能发展到一定广度之后,向深度发展的重要依托工具 。传统的搜索方式是基于关键词,给出密密麻麻的网址排序,这种搜索方式并没有真正理解我们的搜索意图 。而结合了知识图谱的搜索方式,其关键点在于“知识”,它集合于互联网上的知识于一身,试图去了解世界的真实含义,从信息检索的层次转变为知识积累,因此知识图谱建立认知的过程被看成是最能体现人工智能的方式之一,很像我们人类大脑学习思考的过程,即由点及线,由线到面,一步步理清知识之间的逻辑 。
以百度这个全球最大的中文知识图谱为力,其优点可以简单总结出以下三点:1)提供了一种新的搜索方式 。例如我们在搜索“地球质量”的时候,百度内涵的知识图谱直接就显示给我们答案,而不是以往那些隔靴搔痒的网页 。2)以实体为中心建立丰富的联系 。例如我们搜索“杨幂”,既能直接返回给我们杨幂个人信息,也能在右侧推荐出跟杨幂相关的其他实体,并能显示出实体与实体之间建立联系的逻辑,即下图中的推荐实体下方的推荐理由 。
1)能够依据知识之间的逻辑进行简单的推理,简单的举例如下图所示 。基于逻辑的人工智能是AI的经典想法,就是因为我们发现世界上的知识无法用逻辑真理描述,而且存在很多自相矛盾的情况,后来机器学习(Learning from Data)成了AI的主流,到了今天,我们发现机器学习也有一定的瓶颈,尤其是在问题三的逻辑推理 。
如何构建知识图谱?
目前的知识图谱分为两类 。一类是开放域的知识图谱,另一类是垂直领域的知识图谱 。首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的 。结构数据一般就是公司的业务数据 。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用 。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了 。
但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性 。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作 。从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息 。对于实体的提取就是NLP里面的命名实体识别 。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧 。
【如何构建知识图谱,知识图谱构建】关于实体对齐 。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人 。由于文本的不一样,开始的时候导致这是两个实体 。这就需要我们对它进行实体对齐,把它统一化 。另外是实体消歧 。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司 。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧 。
推荐阅读
- Java异或运算总结,java异或
- ROOT大师v1.7.6,关键字
- 皮革版本区别,皮和皮革的区别
- 华为ascend p1,华为Ascend P1如何?
- 智能电视和网络电视有什么区别,如何区分智能电视和网络电视
- 家里无线网密码怎么改,如何改自家wifi密码
- 微距镜头该如何选,索尼微距镜头哪个好
- 如何刷回锤子系统啊!!
- 设定单卡操作,如何使用sim2发短信
- 怎么查楼盘备案价格查询 如何查询楼盘备案价格