作者: 深宇 闲鱼技术

背景

  运营或者产品同学开展的各种导购、外投活动中常常需要做商品选品或者用户圈选,来提高活动的相关指标。一般的步骤包括商品选品、ab实验、用户画像分析、活动全量投放。其中如何快速准确并且多样地做商品选品以及相关人群画像分析决定着活动效果的好坏。

  常用的商品选品方案包括1)基于指标:根据活动指标(ctr、cvr、ipv等)进行建模。2)基于特征:根据商品的类目、品牌、价格等特征选品。常用的人群画像分析是基于用户的基础特征,如年龄、性别、城市、活跃度等等。

  然而随着业务的发展,我们需要更加个性化的商品选品或者人群画像分析方式,比如圈选ip、明星等相关商品,或者某些虚拟服务相关的商品,并在此基础上做相关人群画像分析。

商品选品及画像分析

  用户在商品发布过程中填写的信息(标题、描述、图片、价格等)体现了商品的特征。对具有相似特征的商品进行选品,一种方法是对一类特定内容单独进行识别,比如“代拍车牌”虚拟服务相关商品,分类模型预测商品标题、描述、图片是否包含代拍车牌相关信息,这种方式准确率召回率高,但不利于扩展,下一次圈选“代购火车票”虚拟服务相关商品,要重新训练模型;另一种方法为对商品内容采用统一匹配的方式,圈选“代拍车牌”的商品,只要传入某一个相关样本,就能匹配具有相似内容的商品,这种方法优点是具有较强的扩展性,但同时准确率和召回率要低于第一种方法。

  考虑到个性化商品选品需求多样性以及人力成本,我们采用第二种匹配的方式。现在有两个方面需要考虑:1)系统设计 2)算法设计。

系统设计

 系统是构建在实时计算平台上的匹配方案,通过新建一些有特定主题的商品集合,并且为每个商品集合关联对应的样本作为冷启动数据,系统自动地实时给该集合匹配其具有相同主题的商品。一般的,具有相同主题的商品是指具有相似的标题、描述、图片等内容。

  实时匹配系统设计如下图所示,比如要圈选一批“代拍车牌”服务相关的商品,第一步:手动录入某一个或一些“代拍车牌”相关商品的标题、描述、图片数据作为样本数据;第二步:建立一个商品集合,这个商品集合具有特定代拍车牌主题;第三步:将第一步样本数据关联到该商品集合,作为冷启动数据;第四步:系统开始自动实时匹配新发商品内容是否与该样本数据内容相似;第五步:匹配结果被确认是相似内容则作为新的样本回流到该商品集合的样本数据中,形成循环。

算法设计

  实时匹配系统中的算法包括两部分:特征向量抽取以及相似度匹配。

  首先对于相似的定义分为两层:1)相同。商品标题、描述不存在差异或者只是局部某些字存在差异,并且商品图不存在差异或存在较小亮度、尺度差异。2)语意相似。商品标题、描述高维特征相似,或者商品图通过ocr提取的文字内容特征相似。

  上图分别对两层相似进行可视化,其中左边一列对应的商品1和商品2标题和描述一样,区别只是商品2的图在右下角加上了卖家的logo,属于相同商品;右边一列对应的商品1和