配套PPT下载,请识别底部二维码关注社区公众号,后台回复 上海NLP

分享嘉宾: 马宇峰** 阅文信息 内容挖掘平台技术负责人**

编辑整理: 赵世瑜

内容来源: DataFun AI Talk《NLP在阅文内容挖掘平台的应用场景与落地实践》

出品社区: DataFun

注:欢迎转载,转载请注明出处。

一、业务背景

网络文学的发展已有20年的时间,阅文从发展之初的不太看好,再到现在发展为400亿港币市值的阅读平台和文学IP巨头。他的发展历程并不是那么一帆风顺,但却也契合了当前人们对物质文化的热切需求。目前很多网络小说已经改编为电影或电视剧,按每天每人阅读消费带动收入,可以说网络小说在泛娱乐场景下已无处不在。

1.1 发展历程

从中国加入国际互联网以来,网络小说一直是互相竞争的领域,几乎互联网的巨头都想对这个领域进行渗透。其原因主要是小说是IP(Intellectual Property)的一个起源,为了争夺这样一个起源,很多公司都会在网络小说方面进行布局。2016年阅文统一网络小说后,竞争仍在继续,如现在的爱奇艺文学以及头条传媒平台,都在做网络小说。

网络小说主要是创作式平台,作者在里面占有举足轻重的作用,所以永远不可能达成平台化的单方垄断,很难把所有的竞争对手都压制住,因而需要不断的提升作者与读者双方的生态体验。

1.2 产业状况

现代小说不在是作家单枪匹马进行创作,而是变成挖掘哪些元素比较受人喜欢,然后以一种比较快的方法去切入进行变现,并伴随一些商业衍生产品。如从网络小说衍生为国产动漫,电视剧、电影、自拍剧等,这些都是网络小说的一些变现方法。

网络小说是一种产业链生态,不仅仅是写小说、看小说这一件事。更多的是用户会参与其中,并告诉我们小说衍生的下一步应该如何走,是应该变成漫画还是变成影视剧。也正是这个原因,大量的付费阅读变成了免费阅读,希望把自己的作品扩展到其他领域,获取更多的收益。每家都有自己的网络小说平台,发展方式都是从明星作家到产业变现的方式。为了IP变现和影视流动,需要对网络小说作品做更深层次的理解。以前不太关注的点,如一篇长篇小说是不是适合改编成影视、游戏或者动漫,如何对改编的合理性进行评估,现在都需要有深层次的理解。

1.3 作者作品

网络小说头部流量作品主要有玄幻、奇幻、科幻、仙侠、武侠、都市、历史、灵异和游戏。每种类型的网络小说都有自己的代表作,如武侠类别的代表作为英雄志。

不同类型的小说有不同的表现形式。如玄幻小说和武侠小说是完全不一样的作品,玄幻小说比武侠小说有更夸张的表现形式,如手一挥,星球就爆炸了,这种在武侠小说中仍然不存在。 随着种类的变化词的意义也不同,如“吓死了”,很多时候不是死了或者要死了,而是情感的一种表达方式。这也是NLP之所以困难的一个原因。也就是说NLP是由共识而来,也是会随共识而变。对于一个词的语义,在不同的文章中、不同的上下文中都在不停的变化,不可能有一个标准的方法来处理一切NLP问题。而且热门的网络小说类型也在不停的变化。

1.4 写作套路

网络小说的写作有自己套路,一般表现在书名、等级、打斗、装备、悬念及世界观等方面。如书名要么狂、要么low,总之要贴近小白和草根;等级设定要完备、可以无限升级、做到一山还比一山高;打斗要么跨级逆袭,要么扮猪吃虎;装备则需要变废为宝、随手捡来的垃圾也得是个宝物;明线暗线要留足吊胃口的悬念,例如要报仇、要找爹妈、要复活老婆等;世界观都非常大,如玄幻仙侠中,可涉及地球、星系、异界、多宇宙、平行宇宙、混沌等。网络小说到最后已经不是在写文章,而是写一种体系和架构。作者会驱动自己把文章变成架构体系。文字风格需要使用夸张的手法,如一吼之下,让好几座山峰都炸开。

** **

1.5 网文结构化-标签维度

这里说的网文结构化,主要从标签维度考虑。而在这之前需要明确什么是标签以及标签如何进行定义,如何把标签描述清楚等。一个好的标签体系是后续工作的基础。

对网络文章进行结构化,主要是通过技术结合人工进行确定。标签标记大致流程为。首先通过运营、编辑结合技术手段确定标签体系,再通过用户填写标签,以及通过技术判断标签下的候选作品集,运营和编辑对候选结果进行判断后与作家沟通确认(但不许作家随意改动)后,形成最终的用户标签。如果后续需要补充标签,如编辑或者技术提议补充新标签,或者用户标记了新标签后,需要运营对这些新增的标签进行确认,然后在重复标签标记的工作。流程如下图所示。

标签主要分为通用标签和品类题材标签,通用标签主要强调通用性,而品类主题标签主要是结合品类进行更加细化标签。甚至内容风格、套路流派、主角身份及故事元素等方面都需要制定细化的标签体系。

为什么要做这么多、这么细的标签,其原因在于网络文章的推荐是不同于短资讯类的推荐,短资讯喜欢不喜欢,看一眼马上就已经明确了。但网络小说需要看比较长的篇幅才能确定喜欢还是不喜欢,如果推荐不准确,用户看了两小时后不喜欢这部小说,会导致用户对推荐非常反感。因此需要对网络小说的标签进行细化,建设更多维度的标签。

二、技术架构

内容挖掘目标:

持续提升内容价值转化。最简单的是确定用户喜欢不喜欢、但更重要的是要转化到其他场景中去,需要深挖,把不同的场景循环起来。这才是一个比较好的内容挖掘平台。网络小说内容挖掘主要存在三方面的问题:

1、内容挖掘算子分散不集中、不可互相促进;

2、需求来源散乱、整理代价大、不可复用;

3、内容挖掘后的使用渠道单一。

解决方案:

1、内容挖掘平台需要闭环。即平台需求、挖掘算子和业务反馈需要形成闭环。

2、不同平台之间需要链接。即业务观察、内容生产、挖掘平台及应用场景之间需要形成很好的链接关系。

2.1 内容挖掘平台-赋能业务

内容挖掘平台的主要任务是挖掘内容价值、赋能作者,提升内容流传效率。其目的是赋能业务,不同的业务需要挖掘不同的内容。如果是IP变现,需要预测内容的目标群体以及转化的可行性分析,应该转化为动漫、电视剧还是游戏等。如果是针对阅读用户,用户提供一些明确的信息,则需要提供推荐理由、标签和结构信息等辅助用户进行消费决策。针对作家,可以引导作家写什么样的内容,用户更感兴趣。针对内容审核可以提示一些审核风险等。通过趋势指数、候选标签的指导编辑进行内容方向的判断等。

2.2 技术全景

技术主要包含底层数据、核心技术、基础算子、应用策略和业务场景五层。如下图所示。

需要说明的是,基础算子中的书层次,需要依赖段落与章节粒度的分析,却又与这两个粒度的分析方法不同,是独立的端到端模型。

2.3 知识库构建

知识库主要用于辅助语义理解、关系网络构建和知识推理。知识库可以辅助网络内容进行语义理解,并希望把这些知识库固化下来进行迭代更新。以及相应的角色与角色之间的关系,把关系网络建立起来。当需要大规模、系统化的深层关系挖掘时,可通过知识库来支持知识推理。

2.4 知识库构建方法

知识库的构建方法主要有两种,一种是基于数据推理,另一种是基于人工构建。人工构建方法比较简单,而基于数据推理的方法则需要大量的算法辅助。

三、落地实践

业务落地场景主要有角色分析、标签建设、推荐语生成、色情鉴别和抄袭鉴别五种场景。

3.1 角色分析

角色分析主要通过NER加关系抽取进行分析。NER主要是书籍主角识别,关系为人物关系和书籍角色关系。书籍主角名识别最简单的一种方法是通过关键词+词性+百家姓来分析角色,这种简单的方法就可以达到很高的准确率(95.6%)。另外主角的出现次数是远多于其他角色,其他角色的次数呈现阶段性下降,通过这种方式可以确定主要人物、重要人物、一般人物等。

人物关系通过社交关系反应。所谓社交关系,定义为两个人有过对话、打斗,即存在社交关系。社交广泛程度通过社交比例进行量化,与人物A有社交关系的所有人除以书中人物总数,即为人物A的社交比例。将每一次对话、打斗记为一次关系(可以累加),可以通过这种关系构建人物关系矩阵。有了这个关系矩阵,就可以进一步构建人物关系图并分析人物关系。

从人物关系矩阵中,可以发现每个人物之间存在的一些联系和冲突,然后通过统计人物贡献周围的一些词是正向还是负向来判断人物是正面人物还是反面人物。通过人物关系矩阵,进一步加工成关系向量,再用关系向量聚类,就可以聚成图中的四大类。

聚类后,发现每一类中的人物关系显著高于类与类之间人物的关系。通常,在网文中,关系密切的一群人会有一个组织或帮派。与此同时,也会出现少量的聚类错误。

通过与主角的对话等,结合情感挖掘方法进行情感分析和预测,使用基于参数共享和端到端标注的深度学习方法对实体识别与关系抽取进行联合挖掘,分析其他角色的人物性格与情感分析。

3.2 标签建设

标签能有效给予读者锚点,让筛选的成本进一步降低,但每本书的标签都是不一样的。与段内容的标签不同,段落中存在一些标签,但是很有可能不置信。网文标签变换非常快,2016年热门标签是校花、兵王,2018年热门标签变成了神豪、奶爸。重要的问题是不太清楚热门标签会不会变化,而且每年都会有新标签出现,如何才能快速对新标签进行融合。第二个问题是标签因为某些书籍而诞生,需要后续慢慢发展而填充进来,很可能在那个时间点样本是相当有限的(就算长期来看,某些标签的样本总量也极低)。由于这些问题,需要对标签进行重复建设,但是数据标注永远稀缺。因此需要整合标签体系,完善反馈闭环。具体的做法是充分利用群体知识,结合已有行为数据和内容数据的标签,通过标签生产和管理生成一些不太确定标签,然后在通过编辑、运营进行标注,再进行标签生成和管理,形成标签产出机制进行循环迭代。

标签的生成主要有两种方法。一种是基于规则产出,缺点是规则不好定义,规则中的词存在歧义,在不同的场景和上下文中有不同的意思。

另一种方法是基于相似度产出,这里的相似度主要有两类,一类是语义相似度,包含标签语义向量生成和书籍语义向量生成;另一种是B2V行为特征向量相似度,通过用户行为的相关性对标签进行预测。

结合规则特征、结构特征和语义特征,使用深度学习进行建模。但存在在标注不完整的情况下,多标签如何联合建模的问题。

3.3 推荐语生成

生成推荐语的目标是需要覆盖推荐池内的数据,提升转化。解决推荐理由相对单调,信息量低的问题。

结合标签和用户行为数据,推荐语生成有两种方案。一是基于结构化内容模板生成,另一种方案是基于书单已有的推荐语作为训练语料,使用data2seq模型生成推荐语。

除推荐语生成外,还可以结合推荐文章生成,热门作家、台词和时间模板等进行更好的推荐。让用户看到不仅仅是推荐、更是一个AI的应用场景。

3.4 色情鉴别

色情鉴别主要判断内容是否涉黄、涉政及涉黑等,鉴别方法包含关键词召回和模型召回两种。关键词召回需要定义风险召回关键词和黑名单等。模型召回使用的特征包括规则粒度特征、结构特征和语义特征。规则特征在不同的条件语境下,不同的代词会有不同的指代对象,此时需要很多规则去列举。如不同的穿着和形容词等,有不同的组合,定义好特征规则后,再接入模型进行判断。也可以使用word2vec进行特征扩展,但同时也会引入大量的噪音。

3.5 抄袭鉴别

抄袭一般会对关键词和命名实体进行替换。基于这种原因,在做抄袭鉴别时,把句子中的部分关键词和命名实体识别去除,只提取常用词词典中的词,减少命名实体、时间名词的干扰。具体的算法有:

**章节拆分:**以句子为最小单位,判断不同章节中句子是否有重复。

**句子筛选:**删除短句,只保留长句。原因是加入短句会使得最后的命中结果太多。

**去除长句中的命名实体:**保留常用词,减少实体词的干扰。

**提取指纹:**通过MD5等,对每个长句提取唯一的指纹,得到该章节的所有指纹集合。

**建立索引:**通过Lucene对指纹建立倒排表。

鉴别时,先对章节进行预处理,利用Lucene索引对比指纹库,如果被找到的句子数超过一定的阈值,则认定该章节为抄袭章节。

四、实践总结

技术如何与业务结合。很多时候不能避免返工,但要保证这件事或者方向正确,要对业务问题非常清楚。

如何快速构建正负样本。样本标注不是硬标注,应结合技术手段尽可能减少标注的工作量(例如谷歌流体标注改造),标注尽可能使用二值判断的方式,避免使用从多个选项中选择一个的方式。另一点是配套监控与记录、校验,确保整个标注过程可控。

如何充分利用用户行为。不要觉得用户行为是无效的,用户行为能提供很多信息。文本本身是通过共识达成的,而用户行为记录的是更本质的共识系统。如果业务上会产出用户行为,则优先考虑用户行为贡献的知识。用户