风控建模流程以京东群体感知项目为例

导读：本次分享将以群体风险感知为例，从需求挖掘、数据挖掘、建模再到最终的模型部署应用，详细介绍全流程的风控建模方案。下面将从这几个方面出发，详细的讲解具体流程中的概念，同时会给出每个流程中的 目标、实现方法、交付物，让同学们在具体实践的时候有目标，有方法。

▌业务需求挖掘

任何项目的起源，都是从需求挖掘开始的，不可能一蹴而就，会经过多次循环。这体现了作为数据分析师和建模人员的功力，可能有的业务要 A，你就给他A，而没有往下深入几个层次进行考虑，** 因为有的时候，可能业务的需求自己也没有想清楚需要的是什么，这和传统的软件工程是一样的，所以宁可在这里多花一点时间，也好过到后面踩坑之后，在回来重新挖掘需求。**

① 目标

找出关键变量（与判断项目成功与否的指标相关，最好的方法就是定义几个场景，比如做风控，是坏账率下降，还是机注量下降了，或者其他指标），并把关键变量作为模型目标
识别业务已经使用或者需要获取的数据源

② 实现方法

定义目标，与用户以及其他利益相关方一起理解，识别业务问题，并构建多个问题(这些问题要能定义出业务目标同时也能作为建模的目标)
识别数据源：基于问题找出能帮助回答的数据源，越多越好

**③ ** 交付物

项目需求文档（比如 A、B、C 三个场景，机注量下降2%，或者坏账率下降1%等等）
数据源梳理，有几张宽表，有几个数据源，都需要弄清楚

④ 业务方的诉求与抱怨

业务方的诉求与抱怨，抽象来说就是多、快、准、省：

多：在风控反欺诈领域，对于抓黑产，召回率越高越好。
快：实时反应，不能等到 T+1 时间过去了才反应，比如拼多多的风控事件，不仅仅需要做到实时，最好做到事前，并且可以发出告警，提示哪个环节被攻击。
准：准确率（auc，roc 曲线）大家都比较熟悉，尤其对于金融风控，准确率要求更高。
省：省心，傻瓜式操作，不需要告诉具体指标的含义。对于模型，只需提供给业务方0或1即可。

所以，对于业务的诉求和抱怨，就在这四个字之中，当我们接到群体风险感知这个 Case 时，我们首先需要做的就是：定义群体风险感知（为什么叫群体而不叫团伙？），明确业务场景，找出业务痛点。

两个场景：

一堆人来买我的货，我不会认为他们是坏的人；
iphone 新品首发，黄牛带货，对我的品牌或者收益造成损失，这时，我们需要进行控制打压。

所以我们交付的东西，需要是中性的， 把模****型看作一把刀，具体刀用来做什么，由业务来决定。

⑤ 需求分析

风险未知可能出现的状态：

少量交易造成巨大损失（例如：网络舆情事件，诈骗，网络攻击等）
大量交易造成巨大损失（例如：拼多多事件，上万个账号薅优惠券，然后快速的变现）

黑灰产的主要特征：

**逐利性（**不断升级，不断寻找漏洞）：由于他们是在为自己牟利，没有 kpi 没有996，甚至一天可以更新迭代4个版本，他们自己干的很起劲。
群体性（短期，快速，大量获利）目前成熟的电商，基本上不会让一个账号短时间内下很多单了，现在的黑产为了达到短期快速大量获利，一般使用群控手机，即用软件控制几百台手机，尤其在6·18和11·11时，给我们造成的压力也是比较大的。

项目的定义：

以黑灰产群体作为特征指标，发现交易链条上可能存在的漏洞增强防控能力，提高黑产成本（黑产本质上是生意，风控人员不是为了消灭黑产，是为了让他们这门生意做不下去，明面上是技术的对抗，实际上 是成本的对抗）。

⑥ 项目目标

监控指标体系与异常发现（输出结果形式）：