前海征信:为了对付“老赖”我们打入了他们内部

DT财经 2017-03-16 16:46 阅读:13
摘要:在金融大数据风控行业,如今对数据的应用越来越丰富。由信息流和资金流结合产生的“关系人图谱”、甚至你在网上输入身份证号的“手速”,都有可能决定一家信贷公司是否贷款给你。

在金融大数据风控行业,如今对数据的应用越来越丰富。由信息流和资金流结合产生的“关系人图谱”、甚至你在网上输入身份证号的“手速”,都有可能决定一家信贷公司是否贷款给你。

DT君说

前段时间,DT君采访了用大数据做信贷风控的公司读秒。近日,DT君又接触到了前海征信旗下专注于研究大数据、风控和前沿技术的卅伍研究院。

前海征信是平安集团旗下全资子公司,平安集团积累了丰富的金融数据资源。此外,前海征信也是央行允许开展个人征信业务的八家社会机构之一。这样的机构,本可以靠丰富的数据资源“吃饭”,但偏偏还想靠实力:DT君采访了解到,前海征信去年用复杂的贝叶斯网络相关技术,已经做过一个将零散的数据资源整合并运用到风控模型中去的项目。

DT君也很好奇,作为八大个人征信机构之一的前海征信,是如何将数据应用到风控中的?他们又是如何看待大数据风控的?

在采访中,前海征信旗下卅伍研究院向DT君介绍了其数据来源、数据整合策略、行为数据在反欺诈领域的典型应用、大数据风控和传统风控的各自优势等。

信息流和资金流背后的“关系人图谱”

(注:以下内容根据对卅伍研究院的采访整理而成,文中小标题为DT君所加。)

前海征信的风控数据来源主要有四部分:内部数据、政府数据、大型商业机构数据,以及合作金融机构数据四部分。

第一块是内部数据。前海征信是获得央行许可筹备个人征信业务的征信机构,可以在遵循国家法律、行政法规、监管政策的相关规定,同时严格遵循各公司之间的防火墙制度的基础上,充分利用平安集团的内部数据。

第二块数据是在和政府合作过程中获得的。近年来政府特别想做的是共享经济和普惠金融。比如推出再就业工程,或支持年轻人创业等,平安可以为这些群体提供贷款、资助,这是平安集团擅长的。我们也因此可以基于与政府的合作获得一些信息。

第三块利用到的数据,是和大型商业机构合作取得的,比如运营商等。运营商的数据是非常丰富的,可以用在反欺诈领域。比如,某用户和欺诈人员有频繁的通信记录,则有助于判断其中的欺诈风险。

交易类数据也是类似的道理。资金流向也可以协助确定关系人网络。犯罪活动是有收益的,资金的流转和流通也是定位人群网络的有效方式。

资金流和信息流,是识别犯罪团伙最重要的侦测手段。通过类似关系人图谱这样的数据可以知道的是,这群人是有金融欺诈历史的。如果一个团伙中,有三个人有金融欺诈历史,就可以把整个团伙标记成疑似团伙。

第四块数据是与金融机构合作获得的。比较典型的应用是信贷逾期等不良信息的联防联控。以前,每家金融机构都会有自己的“黑名单”,但机构间都不联网,骗子骗完这家骗另一家。

现在,我们打造了一个不良信息的共享库。大家把信息共享出来,别人查到的话,会拒绝再向这个人提供贷款,互相减少损失。我们的这样的签约机构已经有两千多家了,这些机构主要是P2P,小贷公司,中小银行,和消费金融公司。

数据要放在一块儿看,形成大数据,才有用。我们在做的事情就是打通数据壁垒。

数据本身的“风险信号”不强时,需要建模来“放大信号”

处理不同的数据,需要的模型精细程度不同。

在数据侦测能力较弱的时候,建模能力会有抢眼的表现。简单来说,当我们并不十分明确哪个因素会对判断违约概率有用,这个时候建模就比较重要。

如果数据本身侦测能力比较强,模型的技术本身要求其实并不太高。举个例子:我们知道,有过违约的人,或者他在信贷饥渴方面表现很强烈的人,他的违约概率更大。这种情况下,我们可以不做过分精细的模型,直接用这两个因素来判断,用户会不会违约。

但是,如果我们想研究“有过骗保行为的人,是否更容易信贷违约”,就没那么简单了,因为这里的数据“信号”并不强。这时,建模就变得尤为重要了。

在信号不强的情况下,我就要有一个“信号放大器”,来侦测信号对于最后的结果是不是有帮助的作用。这里说的信号放大器,就是技术模型。我们要通过量化的手段来判断,因素、权重应该怎么配置。

为了解“老赖”是怎么想的,我们甚至打入了人群内部

除了建模之外,要做好金融风控产品,对金融业务本身也要有比较好的了解。

比如,做学生贷业务,我们需要了解产品的特性是什么,风险点在哪里——学生是一个几乎没收入的群体,对这类贷款或征信产品,可能要有父母的担保。那对父母的担保能力,他们的收入、地址、身份都需要进行认证的。

不同的金融产品,设定的征信情景不同。

在这里分享一个前海征信之前做过的案例。我们之前帮一家公司做过发薪日贷款(Payday Loan)的模型。

早期建模阶段,因为我们还不太了解业务,风险点没有把握好,所以起初模型效果并不好,后来我们团队就深入去了解了一下发薪日贷款这个业务——我们打入了这个业务用户聚集的“口子群”。(DT君注:贷款的“口子”,是指开放可申请贷款的公司。“口子群”是贷款申请者汇聚并讨论相关话题的QQ群,这些群往往需要收费进入。)

进群之后你可以了解到,这些真的借钱的人在讨论什么。我们了解到发薪日贷款的风险点主要集中在两点:一是共债,就是这个人是否在多个地方多次借贷,二是违约成本。

违约成本是指,这个人在还钱的时候会衡量一下,“不还钱”对其的影响,有没有我把这个窟窿补上的价值大。因为发薪日贷款借的钱比较少,所以基本不涉及还不还得起的问题,很多时候就是愿不愿意还的问题。

怎么看一个人的违约成本呢?比较靠谱的是看两方面:生意和家庭。如果不还钱,会间接影响借款人的生意周转的话,他可能会更愿意去还,因为这动了他的本;家庭也是一方面,如果催收会影响到借债人的孩子或妻子,这也会影响他的还款意愿。这就是违约成本的概念。之后我们做发薪日贷款联合建模的时候,把这些风险点都考虑进去了,模型效果就好了很多。

这只是一个例子。我们会根据不同的场景,不同的风险点,不同的贷款产品,去筛选变量。

比如POS贷、房贷,它们的风险点就和发薪日贷款完全不一样。做模型时,我们也会根据产品特性采集不一样的变量、用不一样的变量。这些是目前市面上很多所谓的大数据风控产品比较忽略的。

输身份证号的“手速”,暴露输入者是不是你本人

传统的征信和风控,是指以人民银行的征信信息为核心的风控。人行征信数据的核心,是个人之前的信用记录,以及已有的资产、负债状况。这些都是传统金融的信息。

而大数据风控,是要以不同的维度和技术的大数据来提供风控策略。大数据风控的魅力,就在这里。

举两个比较典型的例子:每个人在输入身份证号时,是有相对固定速度的。如果用户输入过快,我们会评估这是不是机器在注册;如果用户输入速度过慢,我们会认为不是其本人在注册,因为你对你的身份证号不应该不熟。这就是大数据风控一个典型的应用。

还有一则典型的应用是:如果某客户以往的还款都是贴着发薪日的,我们一般会认定这是一个低风险甚至无风险的行为。但如果这位客户的还款日,渐渐离他的最后还款日越来越近,这种行为就是风险提高的行为。

以上两个案例是大数据在反欺诈领域的具体应用。其实,行为数据能用在反欺诈领域,是经历过三个进阶的发展的。

第一进阶是最传统的生物身份鉴别,包括对声纹、指纹的识别。

后来发展到第二进阶,设备指纹识别。设备指纹识别背后的逻辑是,我们通过建立技术门槛,让企图诈骗者的经济门槛升高。当这个门槛升高到他赚的钱已经不足以支付用户的成本时,用户就不来欺诈了。

比如说,我们可以通过检测设备上的信息,包括IP地址,来限制申请者可以通过同一台设备申请贷款的笔数。我们认为,设备和人是绑在一起的,设备一定程度上可以代表人。理论上来说,一个设备不太可能申请一万笔贷款。这样,如果贷款者要申请很多笔贷款的话,他要不停地换设备,这样他的成本是很高的。

反欺诈的第三进阶,才是行为指纹识别。一个人的行为是有一定模式的。如果一个早睡早起型的人,他的金融交易发生在深夜,这个就不太正常。这时我可能就会暂停你的金融业务,要求对你的身份进行重新认证。刚才提到的,输入证件号码的速度,也是行为指纹。

这是大数据在风控、反欺诈领域的一些创新,也是我们认为大数据风控今后的发展方向之一。

大数据风控不能流于噱头,要结合传统风控的优势

现在有的大数据风控公司号称拥有几亿人的标签数据,如果它真的有这么多人的完整的一套标签数据,那真的很有用。

但是,如果它的数据是这样:比如说1亿人里面,我有前100万人的某些标签,另100万人的其他标签……这样的标签其实是不完整的。我们也有很多这样的数据,但是具体使用的时候,这些标签数据用起来十分困难。

前海征信去年做了一个数据融合项目,就是想把这些零散的标签数据融合起来,放到模型里,让它变得更能帮助我们做决策——这块其实技术难度很高。

我们用的是贝叶斯网络相关的一个技术。简单来说,它是一种因果的推理。比如说,我知道一个5亿人群体里的300万人的一些信息,再结合这300万人其他领域的标签,我们大概可以推测一下,其他4亿9千7百万人的这些数据是怎么样一个分布。

最后我们会去看整体的模型表现是怎样的。通过这种方式,(我们的模型效果表现)大概能提高30%左右。

当然也不得不提到的是,虽然大数据风控这两年被提及很多,传统风控也仍有其优势。

像美国很有名的FICO(DT君注:美国一款广泛使用的个人信用评分系统)也是做传统风控。FICO的数据量其实相对比较小,但是其用的大多是“专家型的变量”,它知道每一个变量的含义,它能很好地解释:我要拒绝一个人,就是因为你违约成本中的一项太低。

大数据风控在实际产品中,很重要的一点在于可以实时放款。它们对贷款的审核不需要人工的介入,从头到尾,机器一分钟解决。在这种情景下,机器不需要告诉客户,为什么拒绝他,只需告诉客户结果,这对可解释性的要求比较低,整个过程也不需要人工去理解。

但同时,也有一种观点认为,如果是放50万以上的信用贷款,最好还是要有人工介入,人工去理解。在这种情况下,传统的风控模型可能会比较好。

(联系本文编辑张弦:zhangxian@dtcj.com)

数据侠门派

卅伍研究院隶属前海征信。卅伍研究院以专业和科技推动行业发展为使命,为大家带来深入浅出的大数据研究成果、风控经验分享和前沿金融科技解读。 

如何加入数据侠

“数据侠”栏目网罗全球最IN的数据侠客,利用人工智能、机器学习等各种前瞻算法,从数据的视角洞察消费生活的方方面面,打造理性酷炫、活泼有趣的数据分析盛宴。用大数据,阐述事实及其背后的故事和逻辑趋势。

DT时代超级英雄正在组队!你也想要成为数据侠吗?请将你脑洞大开的数据作品,发到数据侠联盟盟主程一祥邮箱:chengyixiang@dtcj.com。

版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
阅读量: 13