本文是工业界和学术界共同合作的产物。Layer 6 AI 和 University College Dublin 的科学家们提出一种 通过整合矩阵分解（MF）模型和对抗式 Seq2Seq 模型的多任务学习框架，并利用强化学习来尝试生成评论，借以解答推荐系统的研究和应用领域一种“殿堂”级的难题——推荐系统的评分预测的可解释性。除此之外，该模型的预测准确性超过了现有推荐模型的效果。

作者丨姜松浩

学校丨中国科学院计算技术研究所硕士

研究方向丨机器学习、数据挖掘

模型结构

该多任务学习的推荐模型架构可分为两个部分：

第一部分为利用 对抗式的 Seq2Seq 模型 学习生成用户对 item 的相关的个性化评论，将此评论作为模型推荐的潜在特征模型生成的可解释依据；

第二部分为一种 内容敏感型 PMF 模型 通过评论文本学习合并的潜在 item 特征，最终通过一种妥协的同步学习方式完成目标，整体结构如下图所示。

对抗式Seq2Seq

这部分模型的输入可分为两部分，一部分为 用户的评论数据，例如用户 i 的评论文章定义为，这部分数据用来表示用户的偏好。另一部分为** item 的评论数据**，item j 的评论数据定义为，这部分数据则表示为 item 的情况。

模型结构方面，针对用户的 Seq2Seq 与针对 item 的 Seq2Seq 结构一致，但其参数略有不同。经典的 Seq2Seq [2] 会存在先验的标注情况，但是这种方式会导致 exposure bias 这样的问题。exposure bias 就是说后一项预测依赖于前一项的预测情况，随着时间的推测，这种方式导致错误会逐渐发生积累和偏移。

这篇文章中提出的 Seq2Seq 的方式与经典的 Seq2Seq 不同。文章首创一种 对抗式 Seq2Seq 模型，与常见的 GAN 方式一样包括判别网络和生成网络。

生成模型部分，该部分与经典的 Seq2Seq 基本一致，用来生成相关评论。首先将一条评论中的一系列词汇利用预训练的 Word2Vec 的方式表征为 k 维的向量，然后利用双向 GRU 单元得到潜在的向量，该向量为双向的 concat 结果。将用户 i 发布的所有评论向量 h 进行平均计算得出关于用户的特征。

在 t 时刻，首先将预测的词映射为对应的然后与用户特征进行 concat 组成 decoder 的 GRU 部分的输入，获得的隐藏层向量 h 经过一层矩阵相乘处理后，利用 Softmax 函数进行概率预测得出 t 时刻的预测词。其概率预测方式如下公式所示。此外，初始化时为隐藏层向量为 0 向量。

判别模型部分，这篇论文的判别的模型目的与常见的判断文本是不是由人生成的不同，这篇轮的判别目的不仅在于是不是由人生成的，还在于生成的文本与观察的内容主题是不是一致。该部分模型借鉴经典的 TextCNN [3] 结构进行判别，将评论词汇向量与用户特征向量进行 Concat 处理后作为输入，模型结构如下所示。