分享嘉宾:万阳春 度小满 算法专家

编辑整理:仁科 苏州市广播电视总台

出品平台:DataFunTalk

导读: 今天跟大家分享一下,在金融小微场景下,我们通过OCR技术提升业务效率的一些思考和探索。主要介绍以下几大方面:

  • 小微业务痛点
  • OCR典型应用
  • OCR背后技术
  • OCR平台智能化

01 小微业务痛点

首先分享一下小微信贷的特点,小微的机遇,以及金融机构遇到的一些难点。

1. 小微企业

大家这两年经常会听到小微企业, 其含义是在法律允许的范围内从事经营活动,每年纳税不超过300万, 从业人员不超过300人,总资产不超过5000万的企业,都是小微企业。

截止2021年4月底,全国的小微企业总数超过4400万户,个体工商户超过9500万户。

小微企业是国民经济的基本细胞,可以用8、7、6、5几个数字来形容,解决了80%的就业,创造了70%的技术成果,贡献了60%的GDP,缴纳了50%的税收。

相比大、中型企业,小微企业具有很明显的特点,资产规模小、抵押物不足、抗风险能力弱、财务不完善。

由于其自身的特点和经营发展的需要,小微企业具有“短、小、频、急”的借贷需求。

然而,由于信息不对称,融资难、融资贵,是众多小微企业面临的一大难题,融资的周期长,尤其是“首贷难”,更是“难上加难”,这些仍然制约着小微企业的发展。

2. 小微企业的机遇

近年来,政府不断出台新的政策支持小微的信贷,尤其是今年,2021年政府工作报告,国务院常务会议以及银保监关于小微企业金融服务高质量发展通知,都提到小微企业金融贷款实现增速和户数“两增”的目标,在政策的支持下,小微企业的融资将会变得更加便利,融资成本将稳中有降,给小微企业带来新的发展契机,同时也给金融机构还有一些金融科技企业带来了新的机会和挑战。

3. 小微企业的认定

我国小微企业的生命周期较短,平均寿命为3年,由于其经营状况存在诸多不确定性,其信贷的风险偏高,风控成本也比较高。

因此,如何充分挖掘小微企业的经营情况,构建企业用户画像,是金融机构面临的一大难题。

围绕小微企业的构成,可以从以下三个方面来进行挖掘:

  • 小微企业主的个人信用情况,小微企业老板的个人信用情况,往往反映了小微企业的状况;
  • 小微家庭的整体信用情况, 比如像个体工商户和家庭作坊,他们往往是以家庭为单位经营,其小微家庭的负债等情况可以作为风控的参考;
  • 小微企业的健康程度综合评估,比如说行业信息、经营性以及稳定性等多个维度考虑,行业信息上,每个行业具有自己的独特性,经营性可以参考一些经营交易的资料,比如流水、交易发票等,发票能够反映经营的范围、还原交易真实性、从上下游反馈其经营状况,流水信息能了解企业运营状况、经营质量、经营风险和成长性。

02 OCR典型应用

1. OCR能为小微做些什么?

在这些资料、资质的审核中,OCR技术到底能为小微信贷提供哪些帮助,也是我们一直探索的一个方向。

在互联网加持下,省去了像银行这种传统模式下的实地调查,线上小微信贷流程变得更加简洁,主要流程为企业或者用户来提出申请,然后进行实名认证,银行卡绑卡、企业认证、提交材料,到最后的审批。

整个过程中又涉及到很多流程,比如在实名过程中,需要用户的身份证来进行身份核查,绑卡需要银行卡, 企业资质的认定,需要企业营业执照、行业特有的资质证书, 比如教育行业要有办学许可证,食品行业要有安全生产许可证等,材料中又包含了一些反映其经营状况的资料,比如合同、发票、流水等。这些资质材料可能有成百上千种之多。

传统模式下审批的流程, 都会存在用时长、体验差等痛点,因为大部分都是人工来审,所以整个流程会比较长。

借助于OCR技术,能够简化整个流程,缩短周期,提升用户体验,降低风控决策的成本,真正做到秒批秒贷。

围绕个人、家庭和小微企业,在实名、绑卡、企业认证、材料提交环节中,我们借助OCR技术,构建了全流程的小微OCR产品,重点包括了身份证、驾驶证、行驶证、营业执照、保单等,涉及到小微企业的多个方面。

2. OCR重点产品

下面重点介绍下各方面具有代表性的一些产品。

① 身份证识别

在实名认证环节中,OCR识别用户上传的身份证,进行身份核验,整个流程包含两个部分:前端的采集SDK和后端的识别。

  • 前端SDK包括两个功能:第一个负责图像质量的检测识别,包括亮度、模糊、亮斑、阴影等;第二个是用户操作不当的检测识别,包括遮挡,身份证的不完整以及用户传反(就是应该传身份证正面,用户却传了个反面)的情况。
  • 后端识别主要负责包括内容的识别和风险类型的判断,内容上,身份证正面支持姓名、性别、民族、出生日期、住址、身份证号的识别,反面支持签发机关、签发日期和失效日期的识别。风险类型识别支持正常、翻拍、复印、涂抹、马赛克、PS篡改、临时身份证、非身份证等。

② 营业执照识别

在企业认证过程中,识别企业的营业执照,来进行小微企业身份的认定和和风险评估。目前我们支持市面上常见版式的识别,识别的字段包括社会统一信用代码、名称、类型、住所、法定代表人、注册资本等。

③ 家和贷

家和贷是首个小微家庭的金融产品解决方案。小微家庭,指的是在互联网金融下,有很多家庭选择全职/兼职一些经营活动以提高收入,这种小微家庭的典型代表,就是夫妻店,他们往往有这种借贷需求。据报告显示,有超过6成小微家庭的贷款需求没有得到满足。

借助人工智能、大数据风控,度小满推出了首个家庭小微的金融产品——家和贷。当小微家庭夫妻一方申请的同时,可邀请另一方为自己助力,即可获得更低的利息和更高的额度,在夫妻关系认定中,需要上传结婚证,并进行OCR识别,识别的内容包括持证人、登记日期、结婚证字号、姓名、性别、国籍、 出生日期、身份证号等,同时支持新版和老版的结婚证识别。目前结婚证识别的准确率在95%以上。

**3. 其他产品矩阵 **

其他一些产品矩阵,包括了如下几类:

  • 资质类的包括办学许可证、医疗卫生许可证、卫生许可证、烟草许可证等,以办学许可证为例,支持的是名称、地址、负责人、办学类型、有效期等内容的识别;
  • 房产分析上,支持不动产权登记证、房产证以及房产证明的识别,像房产证的话,我们识别的是房产证编号、房屋坐落以及登记日期、规划用途、共有情况、房屋所有人等信息;
  • 在增值税发票中,我们支持发票类型、发票代码、发票号码以及开票日期、购买方、服务内容、 金额、销售方等识别,主要是用来还原一些交易的真实性和上下游信息;
  • 合同,我们不仅支持甲方、乙方这种关键信息的识别,同时又支持快速找出不同版本的合同差异,主要用于法务的合规审查等;
  • 在银行卡绑卡环节中,我们支持银行卡识别,并支持移动端和服务端部署,直接在端上完成采集、识别,做到识完即焚,保护用户的隐私,减少数据传输的风险,提升用户的体验;
  • 车产分析上,我们支持驾驶证和行驶证的识别,比如行驶证,我们识别号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代码等。
  • 还支持一些复杂场景的印章检测、文字内容识别、风险预警等,比如支持合同中的印章的检测识别;支持证件中ps、篡改、涂鸦等检测告警;支持任意场景的文字检测识别,返回其内容还有位置信息。

03 OCR背后技术

前面讲了这么多关于OCR的一些产品,到底什么是OCR?其实OCR就是光学字符识别的意思,通俗的讲,就是识别照片中文字内容的技术。

下面就重点讲一下我们OCR背后的整体方案、关键技术以及我们做的一些探索。

OCR完整的流程是:一张文本照片进来,我们会判断其质量、文字的朝向,并针对特定证件进行鉴伪,随后通过检测、识别、结构化等关键技术后,根据需求输出不同的结果,对于通用场景,输出文本位置坐标、文本内容及置信度等信息,对于证件、表单等用户关心的字段,会输出其对应的关键信息。

1. 文本检测

文本检测就是检测出文本图像中文本行的位置。弯曲、密集文本,复杂背景下,文本检测仍然存在一些难点。针对业务需求,我们采用了单字符检测和文本行定位相结合的方案。

单字符检测我们采用了CRAFT,CRAFT采用的是热力图的操作来检测每一个字符,其标签生成是通过对应的分水岭算法来实现的,在水平文字的基础上,我们增加了竖版文字的检测。

文本行定位方面,我们采用的是DB,DB提出了一种可微的二值化模块,就是将二值化阈值加入到训练中来学习,获得更加准确的检测边界,同时也引入了可变形卷积提升文本检测效果。

基于分割的文本检测方法,往往面临着正负样本不均衡的问题,我们采用了Focal loss来有效的解决样本不均衡的问题。我们标注了一批真实的通用数据进行预训练,通过对比发现,相比合成数据的预训练模型,通用OCR预训练模型,在指标上平均提升了2%,有效缓解了真实数据和合成数据的分布差异。数据增强方面采用了常规的一些方法,比如说缩放、裁剪、翻转、旋转、亮度颜色变化等。学习率方面,相比于其他的学习率下降策略,余弦下降可以使得整个训练更加平缓。同时我们也在银行卡这个项目中轻量化了银行卡检测模型,模型的大小在200~300KB左右,比目前市场上开源的轻量化文本检测模型小一个数量级,并且精度保持在95%以上。

2. 文本识别

文本识别就是识别出图像中文字的内容,并返回其对应的置信度。当前文本识别遇到的主要难点是中文长文本、生僻字以及形似字等。

针对实际应用场景,我们采用了CTC和Attention两种方式,其流程包括4个方面,首先通过TPS把一些变形的文本校正成标准图像, 然后通过CNN提取特征,得到一个高级的特征图,然后将这些特征图通过LSTM进行序列化,再通过CTC、Attention等解码方式解码出对应的字符。解码器的选择主要取决于业务场景中文本行的特点。

在这个过程中,针对中文识别,我们将字典扩充到16,000多个,使得我们能支持正常业务上内容的识别。针对生僻字、形似字以及训练样本不均衡的问题,我们构建了一套数据合成方案。针对长文本,我们做了两个方面优化,第一个就是结合单字符检测模型,首先将整个长文本或者超长文本通过单字符检测模型定位出单字位置,并判断出字符数量,然后再按照一定数量进行切割后,再用通用的文本识别模型去识别,大大的提升了长文本识别的准确率。在轻量化方面,我们采用剪枝和权重聚类等手段,将银行卡识别模型压缩在80K左右,可以直接用于移动端的部署。

3. 信息提取

关键信息提取作为检测识别的下游任务,具有重要意义。它能够从OCR识别的内容里面提取用户需要的一些字段,更偏向于NLP领域的知识。

传统方法,针对固定版式采用正则、模板匹配等方式来实现,这种方式容易受版式和识别内容等因素的影响,准确率会下降。

因此我们借助NLP的知识,将关键信息提取任务当作命名实体识别任务来处理, 在BLSTM+CRF的基础上,引入了BERT预训练模型,通过BERT预训练模型得到字的向量表示,再将字向量序列输入到BLSTM+CRF的模型中进行训练,BLSTM层进行特征的提取,CRF层防止非法标签序列,得到概率最大的标签序列。在实际业务中,我们将命名实体识别和模板匹配结合起来,能有效的提升关键信息提取的准确率。

4. 证件鉴伪

证件鉴伪即判断证件是否被ps、涂鸦等。不同于常规的图像篡改,文本篡改更加细微,往往涉及到很少数量的像素,比如说可能是几十个或者几百个像素,占的比例特别少。

传统方法借助深度学习的卷积神经网络提取特征,再通过全连接层过渡后,放入到softmax进行分类,然而不同于常规的目标检测识别任务,简单的CNN对这些隐写信息表达能力并不好。

因此,我们在这个基础上结合了一些先验知识,引入隐写分析特征、误差等级分析,进行特征融合,提取篡改区域与正常区域的差异,就能够准确的定位出篡改的位置,判断出篡改类型。同时我们也加入了文件属性来辅助判断照片是否被篡改过。

04 OCR平台智能化

上述基于深度学习的通用OCR技术,解决了识别率的问题,但是在工业中还需要更加智能的方案来简化OCR落地的整个流程。

1. 业务痛点

传统OCR释放了少量的人力成本,智能OCR解决识别率的问题,但是随着小微等其他业务的快速增长,会涉及到成百上千种资料识别,有时候这些场景前期甚至没有任何数据,因此需要一套完整的解决方案来实现业务落地,将整个流程平台化,让业务和开发者更好的关注需求,简化对模型和数据的依赖。

2. 技术方案

已有的接口、新增的需求,按照需求-数据-模型-训练-部署-评估的串行方式,中间会涉及到很多的同学,比如说PM、标注人员、算法、工程同学等,会存在很多枯燥重复的工作,比如数据标注就是一个比较头疼的问题。基于数据的模型迭代,其实就是单纯的标数据,�