史上最大规模:这有一份1.4亿的中文开源知识图谱

知识图谱是人工智能新时代的产物,简单地说知识图谱就是通过关联关系将知识组成网状的结构,然后我们的人工智能可以通过这个图谱来认识其代表的这一个现实事件,这个事件可以是现实,也可以是虚构的。

机器之心整理,参与:郑丽慧、杜伟。

近日,一直致力于知识图谱研究的 OwnThink 平台在 Github 上开源了史上最大规模 1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。

到目前为止,OwnThink 项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。知识图谱融合了两千五百多万的实体,拥有亿级别的实体属性关系,机器人采用了基于知识图谱的语义感知与理解,致力于最强认知大脑。自然语言处理工具包的功能有:中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。

那么 OwnThink 知识图谱的具体演示是怎样的呢?

本次 ownthink 开源的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。

知识图谱演示

在 OwnThink 平台首页上滚动着各种关键词,用户也可输入自己想要查询的知识,然后就可以得出相应的知识图谱。

img

用户输入关键词即可得出相应的知识图谱。

我们以「姚明」为关键词搜索相应的知识图谱,可以得到出生日期、队友路易斯·斯科拉、毕业院校等相关信息。

img

然后,我们点击上图中姚明的各个标签,则又会出现这些标签的知识图谱,如点击路易斯·斯科拉,又会得到他的相关信息:

img

如此循环,点击上图中路易斯·斯科拉的各个标签,则又会出现这些标签的相关信息,这里就不一一展示了。

对话机器人

OwnThink 知识图谱还可以应用于机器人问答系统、知识推荐等等。下图为知识图谱在机器人上的应用。

img基于知识图谱的对话机器人系统。

数据下载方式:

使用与安装

按照上面的下载地址,拿到文件并解压后查看知识图谱规模:

1
2
$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知识图谱数据:

1
2
3
4
5
6
7
8
9
10
11
$ head ownthink_v2.csv
实体,属性,值
胶饴,描述,别名: 饴糖、畅糖、畅、软糖。
词条,描述,词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。
词条,标签,文化
红色食品,描述,红色食品是指食品为红色、橙红色或棕红色的食品。
红色食品,中文名,红色食品
红色食品,是否含防腐剂,否
红色食品,主要食用功效,预防感冒,缓解疲劳
红色食品,适宜人群,全部人群
红色食品,用途,增强表皮细胞再生和防止皮肤衰老

使用 python 进行读取测试:

1
2
3
4
5
6
7
8
import sysimport csv
with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
reader = csv.reader(fin)
for index, read in enumerate(reader):
print(read)

if index > 10:
sys.exit(0)

运行以上脚本输出结果:

1
2
3
4
5
6
7
8
9
10
11
12
['实体', '属性', '值']
['胶饴', '描述', '别名: 饴糖、畅糖、畅、软糖。']
['词条', '描述', '词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。']
['词条', '标签', '文化']
['红色食品', '描述', '红色食品是指食品为红色、橙红色或棕红色的食品。']
['红色食品', '中文名', '红色食品']
['红色食品', '是否含防腐剂', '否']
['红色食品', '主要食用功效', '预防感冒,缓解疲劳']
['红色食品', '适宜人群', '全部人群']
['红色食品', '用途', '增强表皮细胞再生和防止皮肤衰老']
['红色食品', '标签', '非科学']
['红色食品', '标签', '生活']
来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%