泥鸽靶微笔记 | 第16期:互联网信贷业务如何利用大数据做风险防控

时间: 2017/04/13 来源:泥鸽靶

2017年3月30日晚,我们有幸邀请到同盾科技银行事业部首席研究员》宁兆鑫老师,为大家分享《互联网信贷业务如何利用大数据做风险防控》相关知识,根据宁老师的授课内容,小编给大家整理出了课堂笔记,满满干货,一起来学习。

首先第一张图我们可以看出是在传统风控领域当中没有见到过的一种欺诈手段和作弊工具。属于互联网线上的手机作弊工具。大家可以看到IOS的一键改机,安卓的一键改机,位置定位的修改,设置多开的工具,大家应该在实际中都有见到。

为什么说在整个互联网行业当中或者说在这种相对比较泛的互联网风控当中,存在有这么大量的作弊工具,包括一些特种手段。我们这种属于防守方进行一种风险对抗。这种手机的作弊工具也好,包括现在最近在互联网上或者在微信上出的比较多的对于消费金融或者说是医美的线下风险这样的情况。

我个人对于风险控制的感觉来说就是一个个的欺诈分子真的像特种部队一样,他们利用很多技术或者利用风险方面的一些漏洞,然后在我们的整个风控链条当中去寻找一些风险技术的漏洞,或者说是一些弱点,然后通过这样的一个点去冲破整个风险体系的防线,从而达到快速获利,形成这样不劳而获的格局。

除了我们的对手,或者是我们在常规当中风险控制的对象以外,在大家的日常工作当中其实也能够发现几个比较大的几个问题,第一因为客户群体的原因,可能我们前端营销吸引过来的一些客群,我们可以参考他们的一些历史行为,可用的外部数据的纬度是非常少的,而且我们发现因为系统的原因或者谨慎考虑的这样的风险考量,大量的数据审核。

包括这样的一个风险判定,是以人工的,以肉眼的方式去查询为主。其实很多时候,甚至是14年大数据以前的过程之中,其实很多风控领域的同事,他们都是基于风险的事件,然后将这些风险事件查找一定的规律,然后发现他们的业务表现的共同点,然后形成风险判定的规则。进而形成对风险的控制。

特别是在银行,在整个风险防御当中,大家都是孤独的各自为战,比如前段的市场营销的同事他们只负责把客户带过来,特别在信用卡领域,由主要负责黑卡的在线准入,他们只负责前期的准入风险,进行评估,然后进行授信,进行放贷。放贷之后,会再有一部分负责贷后的同事对这些客群进行风险发掘,风险监控。但是这些方法或者说现有的风控体系,这样的工作流程让我们发现除了我们的对手怀揣各种各样的利器,在我们各种各样的体系的交叉点上面去寻找系统的漏洞,或者做这种数据性的分散,从而达到欺诈的目的。

所以在我们对外风险控制的实践之中,首先第一个是我们提出了风险控制的方式,在数据缺少的情况下,联防联动的风险体系。当然这种数据表现不单单局限于客户在信贷领域的表现,还包括了客户在其他比如说社交、出行、购物等生活场景。除此以外,我们还在整个风险体系当中,在每一个单一的节点中对于人工审核情况,然后我们也能提供跨事件自动流化的决策。会将整个在贷前准入的过程之中,早期的风险发现,包括行为风险的分析,一直到整个的授信领域,成立若干个自动化或者说是模型化自动授信的过程。但是每一个风险节点之间我们也会通过这种系统的方式或者风险递减的方式,对客户进行梯度化的调用,进而达到自动决策的过程。

还有一个是在风险控制中大家提及比较多的风险模型的问题,模型比传统规则来说,先对起来在整个的分析过程,分析的纬度,以及结果的验证,通过数理的方法,然后进行更科学的风险判定。我们可以通过大量数理根据结果的表现多维度的数据因素,能大概的判定客户行为或者客户表现与最后欺诈风险或者说是信贷风险之间的关联关系,第一个是可以大幅度的提高模型或者决策的准确性。

除此以外,通过对风险决策的模型化,这样很大程度上较少了人工对于决策结果的干扰性,可以做到快速、高效、统一的审批这样的一个流程,第二是全生命流程的风险风控。在我们的实践当中,整个的风险事件,以一个信贷业务来说,从客户最早期的注册,然后到他申请第一笔的款项,然后到了真正发放贷款之后,以及在整个的还款周期当中,其实在这个整个的过程之中,每一个节点的风险表现,在这其中还都可以发现很多的客户风险变化的一个趋势,或者是发现在早期没有发现的隐藏的风险,从而可以帮助我们,进行全景式的风险防御,从而达到一个更好的风控效果。

今天因为时间关系我讲的比较关乎底层的数据,其实就是说在数据的纬度精度方面的一些经验。这张图是比较典型的互联网线上交互的过程,每一个客户都能通过一台智能的设备(智能手机、平板、或者一台PC)跟我们发起业务的访问,然后他们将所有的业务数据传递到后台的业务系统,这些业务系统叫这些数据进行数字化的记录,然后传递到风控同事的眼中可能就是透过模型,透过规则方法,然后去审核每笔业务数据或者这种交易数据是否存在风险。

最为显著的就是说可能是13年以前针对线上交易的过程之中,很多的机构对于客户行为的线上表现,或者是他们这种互联网行为风险缺少相关的数据知识的。在之前银行交流的时候,会经常给前台的同事讲,要注意那些行为可疑的来前台办理业务的人,可能在衣着上面会戴墨镜和口罩,回答问题的时候躲躲闪闪。那在互联网线上来说,很典型的非面对面的交易形式,我们是如何进行风险的发掘,或者说是风险的控制。像在这张图上来说的,每一笔互联网线上的业务他们都有智能的设备发起的终端,然后透过网络的渠道跟我们进行数据的交互,而在操作的过程之中,可能会有反应的快与慢,数据的多与少,数据字段的长与短,然后在整个的操作之中将所有的业务表单录入后台系统。

如何一些技术的手段或者将这些行为的捕捉,并且精确的还原,变成了线上业务风控风险的重要环节。基本上来说,从最基础的获取数据角度,第一是对前段的智能设备进行唯一化的标识,同时在于客户之间的网络渠道风险的发现,其实在我们很多交易的过程之中,特别是涉及到一些安全攻防之中,我们经常会遇到一些,比如说代理服务器啊,使用VPN软件,自我诊断IP地址。

如果通过技术手段发现这些隐藏在真实IP背后的这样的一些风险事件也是成为我们在整个风险防控领域的非常重要的一个环节。就像刚开始讲到的第一张图,有IOS的海基软件,,那么针对于设备指纹的唯一化标识,为了躲避他们的追踪,然后在整个互联网当中除了出现一些常用的作弊工具之外,还会有一些系统的从底层软件进行修改的一些软件,能够希望误导设备指纹的技术,做出一个错误的判断,希望把它不唯一化,或者识别为其他的数据。

那么有了这样的一些捕捉数据的方式,回到最开始讲的作弊工具中的持续对抗的问题。其实我们知道很多欺诈分子他们会拿到通过各种各样的底层技术的修改,软件模拟的调整,会操作这样的系统,原来早期的时候可能会修改某些参数,后来随着技术的发展,他们会在软件的底层构建一个虚假软件的平台。对这个平台数据进行篡改。针对于这样一个实时性的对抗,也就是要求整个设备指纹或者说是设备捕捉的一个体系,要持续地对可能作弊的工具或者软件,他们进行风险的发现,风险的应对。

还有是相对来说更高阶的风控人员,或者说是欺诈人员,他们寄希望通过代码的方式查看你的工作原理,然后进行技术上的破解从而帮助他们绕开监控,在整个互联网行为捕捉技术方面,不断面临持续性对抗以及防破解这样的一个问题。另外我们讲到设备的唯一化的标识,作为一个唯一化的组建或者唯一化的关联符,我们可以做很多的外部数据的链接,比如说,最简单的我们将设备上的信息和手机上的信息形成一个唯一性的映射,对客户的可信和不可信进行风险的发现,另外是基于各种各样的设备,或者IP 的信息,我们除了能够发现这些IP地址本身存在的一些风险外,进行深度的数据挖掘或者说是风险发现。

在这张图上是我们在IP上做的风险的延伸。我们看一下IP地址类型。

我们可以将整个在互联网上的IP地址分成八个不同的出口类型。因为在传统的风控体系当中,我们仅仅会在IP上关联到几笔交易,或者是IP地址本身的黑名单标签,进行风险性的防控,因为IP地址高速的变化,比如说在家里面用的把接口断开再链接,IP地址会重新进行划分,那么IP地址的黑名单包括IP地址和行为之间的关联性可能在标签并不是特别的有效,或者是说会有更多的误判性。

但是我们将IP地址进行准确的风险的划分,或者说是出口的划分以后,我们对于来自不同出口IP风险进行风险划级,比如图中的第四种普通机房或者专用出口,这两种IP出口,在实践当中的话,这两种出口在实践当中和普通大众联系的很少。我们将在行为过程之中或者说在申请端有了一个IP地址的出现,那么肯定是需要我们提高对这次交易的风险等级或者说是提高我们对它的关注程度,那么有了客户线上行为方面的原始数据,或者说是多维度的风险数据,我们就可以基于线上或者线下客户的行为方面,构建大量的欺诈的模型,或者说是大量行为方面的规则,进行客户行为风险的判定。

行业内共享的或者是我们所拥有的这样的一个历史数据的沉淀,我们就可以构建成整个信贷领域的第一道风险防御体系。就是说在是准入上面通过客户行为,名单进行风险防控,那么这些风险的把控或者整个风险的判定是基于行为,基于历史数据的积累,整个交易过程之中,一个节点可能会出现的异常,所以说对于整个风险控制的时效性,或者说是对于这种首发性(无历史,临时起义),我们就可以通过多维的数据进行风险的发现,风险的预警。

针对于特定的小概率的风险事件,我们就可以通过多维的数据来发现风险及进行风险预警,从第一个梯度来讲,我们可以透过信贷反欺诈的渠道,将所有在线上的,我们认为在风控体系当中或者说风险偏好当中我们不能接受的坏人全部都剔除掉。

那么剩下来的这些人群,我们只能说是这些人群在历史上没有劣迹,或者说在整个的行为过程之中没有异常,但是我们并不能保证,他所有提交数据之间的关联性和一致性。所以我们就构建了第二个梯度,叫做信息验证。

对于客户所提交的信贷信息,像是身份、手机、地址等等多维的信息,将它们进行交叉的验证和比对,这里边所用到的数据很大程度上都是从官方机构,比如说运营商,公安机关,教育机构如学信网获取的,然后讲数据进行交叉比对。同样的我们也可以根据历史存量的数据,根据当时交易的实点数据,历史沉淀的数据,对他所提交数据进行交叉验证,或者说是信息参展比对。那经过了信息验证比对这个环节以后,那我们就完成了对客群当中的坏人及假装好人的人群进行的剔除。

到了后续的人群界定,通过我们的第一个阶段或者说初筛阶段,里面应该是没有异常的,或者说通过相对比较精密的防控体系,将所有的坏人剔除掉。但是在整个的实践过程中,确实因为可以利用或者说是基于数据使用范围的界定,通过一些合法的或者客户授权的方式进行外部数据的补足和对客户资信情况的二次验证。像是在一些互联网机构中会通过授权爬取的方式,再补充一些外部的数据资料,进而帮助风控人员对客户进行进一步的认识。

通过这样三个步骤,我们将客户的全貌或者外部数据进行全面的补充,进而就会进入到一个客户授信的环节,通过各种数理建模的方法,对客户的信用进行评估,通过信用评估的结果,然后结合我们的授信模型或者授信评分卡给这个客户进行一定额度的借贷数据,借款金额的发放或者授信额度。

在整个业务流程中或阶梯过程中,所有的数据或事件都是完全自动化进行的,简而言之,对于申请这块,比如客户的申请反欺诈数据低到了一定程度,我们才会去自动化的调用第三方数据的验证。在整个第三方数据验证过程中,只有当每一个需要被验证的信息返回都是一致的情况下,我们才会要求客户提供一些额外的数据,或者说通过已有的历史存量数据,进入到我们的整个授信模型。我们是在信用模型中对客户的信用进行评估,然后自动化地给他们额度分配,在这个过程中,首先来讲,所有数据的调用和完整性是一个梯度增长,而且在这样的一个过程中,所有的额外的数据成本也是伴随着客户的价值出现了一种正向增长和正相关的关联关系。我们是为更多的可能的好客户付出更多的数据成本,对他进行风险的调研或授信盘点。

额外的补充一点,关于历史风险运营风险单的内容。在我们实践的的过程中,通常我们会将所有的客户的历史风险表现数据分成三个大类的不同的外部数据。第一个大类就是上面提到的欺诈手机和欺诈设备类。这两类的历史风险数据的积累,相比较而言在全场景下,都会有广泛的运用,所以说是一种通用型的,或者说是针对于客户设备级的或者说是行为方面的风险结果表现数据,这样的话可以在每一个风控场景管理中都进行使用。

后面一类是高危名单和风险名单,比如我们通常所讲的黑名单和灰名单。这两个在整个的信贷领域或授信领域当中会广泛的使用,然后对他们的准入进行风险的判定。另外一个,其实中间这两类也是这些年来我们在风险实践过程当中发现的一个有意思的两大类数据,一个大类叫多头借贷或过度授信的数据维度,另外一个大类可能会涉及一些公安,法院,包括环保类的一些风险名单数据,为什么我们的一些数据会特别的将这两类数据割裂开来,或者说是独立出来,是因为对于这些数据的行为,表现和信贷逾期,不能够证明会产生必然相关的风险结果,但是这两类的数据涉及到某一类特定的类型或达到一定的量级了以后,可能对于最终的逾期表现有一个指向性或者说有一定的预测性。所以说我们会将这两类数据作为一个单独的类型列举出来。

那么刚才我们讲到的整个的风控体系当中,我们分析的所有风险的主体是对于个人,或者说是针对于每一笔独立的交易进行的风险分析。但是在信贷领域当中,确实是大量存在或大量出现团伙化的事件,确实是相比较而言难以预防和控制的数据场景。可能很多机构在实践的过程当中,通过把已知的负面名单或者说黑名单的逾期数据及现有存量客户进行一种数据的重新关联,进而进行风险的发现。

就是在我们已知的已经表现为逾期的或已经表现为高危风险的客户群体中,我们可以发现,他们所填写的信息跟另外一些特定人群会存在数据的相同性,特别是针对于非单位型的个人的数据当中,可能交易过程中的设备、IP甚至说电子邮箱、家庭电话这一类相对较弱的信息项目当中会容易发现数据的相同性,进而通过团伙化的数据关联或复杂网络的数据分析,我们是可以发现一些虽然还没有风险表现,但是需要我们进行高度风险监控的人群。


讲完了在贷前的准入和名单后,我想就关于模型的问题简单的说几句。最近其实可以感觉到,从去年上半年开始到现在,AI这个词被每个风控的同志挂在嘴上,都认为风险模型似乎可以战无不胜,是一个非常有利的工具。从我的角度来说,我也是高度认可模型在整个风险控制当中所能起到的作用,但是我今天之所以额外的提出来,是想说在整个的模型的构建中,它是一个非常科学的,实证型的分析过程。


关于信贷模型的构建,从数据准备来说,以银行信用卡来讲,最起码我们是需要准备12个月的历史数据或者表现期或观察期的数据情况。针对客户在整个风险的过程中,如果你要想完全做一个冷启动的话,我们还是回到最原始的数据的测试中。你只有足够的第一手数据的积累,只有多维度的数据表现,以及相对正确的关于好坏标签的认证,我觉得才具备一个模型开发的前提条件。

比如说我们很多时候和一些机构在聊的时候,表示业务才开展了两三个月,然后要求做一个非常有效的模型,虽然这个模型可以构建,但是在整个模型的构成和调优都需要一段的时间才能达到一定的稳定性。因为作为一个模型来讲,最为核心的是我们是基于多维的,包括已知的未知的因素,对于结果判定,对于可能性的数据加工的这样一个过程。在整个模型构建的过程中,包括数据的来源,比如说你的数据来源是相对单一的或者是相对广泛的,那么整个数据的稳定性的情况是我们在构建模型过程当中需要特别注意的。同样的我们可以看到的是构建一个申请的模型的话,起码你要有两年以上的数据积累,而且有相比较而言比较准确的好坏样本的标签,这样的话才能构建出一个比较精准的数据模型。

在整个的模型构建过程中,数据的量级也是非常重要的。可能我们经常说的几万比的样本数据或者说是几十万比的样本数据,在数据的验证过程中会有比较好的拟合情况,但是在实际的应用过程当中,整个的稳定性可能还是会存在一定的偏差。

讲完贷前的客群,我们也想特别的提一下关于贷后的风险控制。关于贷后的风险来说,其实大家历来都是重在前,轻在后。很多时候都会把重兵放在客户准入的这一过程之中,用各种各样的放大镜去看,而且我也听到过一些言论说,只要把好人放进来了,那后续的风险就相对较低了。可能风险的控制的手段和投入会少一些,但是确实在实践中我们发现了很多特别的案例,比如我们在为一些银行服务的时候,一些相比较风险较低的人员比如公务员,教师的团队,因为资金方面的变化或者借款后的持续性的对外借款的表现,导致最后逾期甚至失联的风险事件。

我们发现贷前好的人群确实能够降低风险,但是对于整个人群的变化和贷后的风险监控也是非常有必要的。对于贷后的风险监控,我们并不完全看这个人有什么样的新增风险,什么意思呢?就是这个人新增风险,在我们的风险变化里面并不是看他的相对位置,比如说他的风险从从一到二十甚至三十,而是要去看风险变化的二十和三十是否还在风险可控的范围内,还是超出了风险可控的范围。在这个监控的过程当中,对于他的稳定性,像是地址的异常变动,对我们的监控是一个非常有效的数据,同样的特别是客户新增的申请,我们为什么特别关注客户新增的申请,因为这个属于典型的。

客户有一定的资金需求,我们已经发放了他们能够承担的风险额度,如果一个客户在借款以后还会持续性的对外借款,说明他本身的资金缺口还是非常巨大的,所以相比较而言,我们对他的关于可承受的授信额度的评估就有所补足。

地址和多头就是我们所特别关注的,当然针对已经出现的一些风险事件,像是失信、逾期事件等也是需要我们监控的。

最后,关于贷前、贷后我们也已经讲了很多。我个人的一个经验,不管是利用大数据的方法,还是更现代的数理化的模型方法,从我个人的经验来说,风险控制永远都是一个可以无限接近,但是无法消除的事件。我们对于所有的风险的控制,无论是从技术也好还是从手段也好,提供更高维度的还是精度的原始数据,丰富我们风险判定的手段,找到我们风险控制的成本和客户感受之间的平衡,进而达到一个相对可控的风险承受水平。这个才是风控当中我们需要把控的一个度。

问答环节:

1、问:多头和异常地址都是通过设备指纹的方式作为关键信息发现的吗?

答:关于多头和异常地址,设备指纹会作为我们数据的一个维度,这里面我们的多投会涵盖到结果的表现。很多机构里面,比如央行中心查到最近有多少个机构去查这个人的征信记录,这些都是一个结果的数据。

从前端查询的维度来说,多投的数据以及地址类的数据,更多的可以通过手机的查询,将设备作为一个维度,包括电子邮箱等很多信息。但是从多投来讲,还是将手机、身份证,电子邮箱作为数据关联的维度。从异常地址数据来说,这个数据的来源范围就比较广泛了。通过(同盾)设备的指纹的技术,我们可以获取一些基于IP地址,基于基站所谓定位,我们是可以做一些数据的积累。大家在实践过程中,有一些APP是可以获取到GPS的,这样的数据行为,我们也可以作为一个数据的维度。当然我们也可以从很多的外部的数据厂商这样的机构,获取一些基于设备的或者是基于电商收获地址的,或者说是基于运用商的地址类的信息。

2、问:我们也发现个贷主要的信用风险来自于多投,所以我们也搭建了一些模型或规则来识别,思路是通过现金流和信息流结合的方式,我感觉老师更多的是通过信息流整合为客户的欣慰来识别,有没有考虑加入资金流进行多维度识别?

答:您这是一个特别好的问题。从资金流向上来说,不单单是包括资金流,像资金额度以及产品的设置,也会是我们整个模型或者判定的很重要的维度,可能通常在模型化的构建过程中。像您提到的资金流和信息流,我们可能会放到一个更起点的位置,比如我们会结合一个产品,结合不同的场景,再决定资金流和信息流的权重和分析,但确实资金流在整个资金流向包括资金使用方面是一个,不管在信贷也好,特别是在欺诈场景当中,我们觉得比较重要的一个维度。

3、被法院判处已经是罪犯的人员名单,是属于黑名单的范畴的吗?

答:抛开风险的角度来说,抛开很俗的理念来说,纯粹从风险的角度来看,被法院判刑或一些行政处罚与黑名单是否具有直接的关系,从我个人来讲,并不认为他们之间具有关联关系。但是我们在整个的数据维度方面,也是会把法院的,公安的数据作为一个独立的数据项进行使用。但确实在实践中,有了公安在案的记录,比如涉黄涉毒,包括其他的类型的事件来说多半信贷机构不愿与其产生业务往来。从风控的角度来说,他不是一个黑名单,但是很多机构拿他当一个黑名单来使用。