知识图谱万条三元组生成方法一

作者：谓之小一

本篇文章接《Python爬虫|Get豆瓣电影与书籍详细信息》，学习如何利用爬取的数据，构建知识图谱所需的三元组。主要内容包括如何从Json类型的数据，转换成RDF数据，并最终存储到Jena之中，然后利用SPARQL进行查询。数据链接: https://pan.baidu.com/s/1cLdsAXLGH2akJqMIsGdoig 提取码: n97y。

实践之前，请自主学习相关背景知识。

语义网络, 语义网, 链接数据, 知识图谱是什么。
RDF, RDFS, OWL, Protege, 本体构建。
MySQL数据库, pymysql。
D2rq, Jena, fuseki, SPARQL。

1.数据清洗 1.数据清洗

电影信息 包括电影id、图片链接、名称、导演名称、编剧名称、主演名称、类型、制片国家、语言、上映日期、片长、季数、其他名称、剧情简介、评分、评分人数，共 67245条 数据信息。虽说是电影信息，但其中也包括电视剧、综艺、动漫、纪录片、短片。
电影演员信息 包括演员id、姓名、图片链接、性别、星座、出生日期、出生地、职业、更多中文名、更多外文名、家庭成员、简介，共 89592条 数据信息。这里所指的演员包括电影演员、编剧、导演。
书籍信息 包括书籍id、图片链接、姓名、子标题、原作名称、作者、译者、出版社、出版年份、页数、价格、内容简介、目录简介、评分、评分人数，共 64321条 数据信息。
书籍作者信息 包括作者id，姓名、图片链接、性别、出生日期、国家、更多中文名、更多外文名、简介，共 6231条 数据信息。这里作者包括书籍作者和译者。

上述为我们爬取的数据类别，但数据有很多噪音，比如中文电影名称会外接英文电影名称、某些类型数据严重缺失、数据格式不统一等等，这就需要我们根据具体数据进行具体分析。此处需要多搬搬砖，没什么技术，不多讲。

2. Json2MySQL 2. Json2MySQL

首先我们将json类型的数据存储到MySQL之中，这里共构建了13个表，包含

movie_genre: 包含movie_genre_id, movie_genre_name属性，表示movie类别信息。
movie_info: 包含movie_info_id, movie_info_name, movie_info_image_url, movie_info_country, movie_info_language, movie_info_pubdate, movie_info_duration, movie_info_other_name, movie_info_summary, movie_info_rating, movie_info_review_count属性，表示movie信息。
movie_person: 包含movie_person_id, movie_person_name, movie_person_image_url, movie_person_gender, movie_person_constellation, movie_person_birthday, movie_person_birthplace, movie_person_profession, movie_person_other_name, movie_person_introduction属性，表示movie_person信息。
movie_to_gender: 包含movie_info_id, movie_genre_id属性，设置两个外键，分别关联到movie_info表和movie_genre表，表示movie到genre的关联。
actor_to_movie: 包含movie_info_id, movie_actor_id属性，设置两个外键，分别关联到movie_info表和movie_person表，表示movie到actor的关联。
writer_to_movie: 包含movie_info_id, movie_writer_id，设置两个外键，分别关联到movie_info表和movie_person表，表示movie到writer的关联。
director_to_movie: 包含movie_info_id, movie_director_id，设置两个外键，分别关联到movie_info表和movie_person表，表示movie到director的关联。
同理，根据图书信息构建 book_genre, book_info, book_person_info, book_to_genre, author_to_book, translator_to_book 表。

表构建好之后，利用pymysql将Json类型数据导入到MySQL之中。

3. RDB2RDF 3. RDB2RDF

我们已经将Json类型的数据导入到关系型数据库RDB之中，现在问题是怎么将RDB Data转换成RDF。转换之前，我们先根据数据构建本体。

3.1 本体构建 3.1 本体构建

什么是本体？本体有点哲学的含义，在计算机领域，可以理解为一种模型，用于描述由一套对象类型（概念或者说类）属性以及关系类型所构成的世界。此处我们使用Protege进行本体建模。

首先下载protege，下载链接为 https://protege.stanford.edu/。安装完成之后，新建class，如果没有的话，在window->Tabs->Classes寻找。根据MySQL之中构建的表，此处构建相应的类，如下所示。红色箭头表示的是构建子类，右边图标指的是构建兄弟类，最右边指的是删除当前类。

类构建完成之后，进行构建对象属性，共包含

has_movie_genre: domains为movie_info, ranges为movie_genre，表示某电影有某类别。
has_book_genre: domains为book_info, ranges为book_genre，表示某书籍有某类别。
has_actor: domains为movie_info, ranges为movie_actor，表示某电影有某演员。和has_acted_in为互逆关系。
has_acted_in: domains为movie_actor, ranges为movie_info，表示某演员出演了某电影。和has_actor为互逆关系。
同理 has_writer, has_writed_in, has_director, has_directed_in, has_author, has_authored_in, has_translator, has_translator_in 构建方法相同。

对象属性构建完成之后，进行构建数据属性。数据属性构建比较简单，指明数据类别和值类别即可。

构建完成之后，可以通过OntoGrap看到关系图。可以去window->Tabs->OntoGrap寻找OntoGrap。

最后通过File->Save as保存成Turtle Syntax形式，命名为 douban_kgqa_ontology.owl。

3.2 D2RQ 3.2 D2RQ

RDB转换成RDF有两种方式，一是direct mapping，即直接映射。规则为

数据库的表作为本体中的类（Class）。
表的列作为属性（Property）。
表的行作为实例/资源。
表的单元格值为字面量。
如果单元格所在的列是外键，那么其值为IRI，或者说实体/资源。

但实际中，我们很少使用这种方法，因为不能把RDB中数据映射到我们定义的本体上面。因此我们采用另外一种方法，R2RDF(RDB to RDF Mapping Language)，链接为 https://www.w3.org/TR/r2rml/。下面我们使用D2RQ工具将RDB数据转换到RDF形式。

D2RQ提供了自己的mapping language，其形式和R2RML类似，具体语法链接为 https://www.w3.org/TR/2004/REC-owl-features-20040210/。D2RQ有一个比较方便的地方，可以根据已定义的数据库自动生成预定义的mapping文件，用户可以在mapping文件上修改，把数据映射到自己的本体上。

首先下载D2RQ文件，链接为 http://d2rq.org/，进入到目录之中，利用下列命令生成 douban_kgqa_mapping.ttl 文件。

mac, linux系统命令为

./generate-mapping -u root -p 123456 -o douban_kgqa_mapping.ttl jdbc:mysql:///douban_kgqa

windows系统命令为

generate-mapping.bat -u root -o douban_kgqa_mapping.ttl jdbc:mysql:///douban_kgqa

参数解读：root是mysql用户名，123456是root密码，douban_kgqa_mapping.ttl是输出文件名称，douban_kgqa是MySQL数据库名称。注：如果Mac用户如果提示permission denied, 可以用chmod改变访问权限，chmod 777 generate-mapping。

现在根据我们的MySQL数据库已经生成了默认的 douban_kgqa_mapping.ttl 文件，然后根据 douban_kgqa_ontology.owl 中定义的本体修改 **douba

文章目录

知识图谱万条三元组生成方法一

1.数据清洗 1.数据清洗

2. Json2MySQL 2. Json2MySQL

3. RDB2RDF 3. RDB2RDF

3.1 本体构建 3.1 本体构建

3.2 D2RQ 3.2 D2RQ

See Also

最近文章

福利派送

分类

标签

友情链接

其它