八爪鱼,最好的网络爬虫工具

大数据风控模型是什么?有哪些?

作者:keven 发布时间:2018/1/22 18:20:50 152 人已阅读

摘要:在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的风控体系和行业最低的坏账率。

在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的风控体系和行业最低的坏账率。这种理解有些过于简单了。

 

其实,做大数据风控是一个挺细致的事儿,大数据风控,重要的不是数据本身,而是对数据的理解。

 

 

 

类似的话,哈佛大学的Gary King教授也说过,Big data is not about the data——大数据的价值不在于数据本身,而在于它背后的数据分析。

 

 

相比传统风控,大数据技术对零散的碎片数据具有很好的整合能力,这一点特别适用于证信业,它可以搜集更多的数据维度,实现征信信息的有效补充。

 

大数据风控模型是什么

 

指标体系

 

大数据圈流行一句话:数据决定了数据分析的上限,而模型做的是逼近这个上限。因此,构建一个完善的指标体系是非常重要的,大数据风控模型则主要涵盖下面几类指标:

 

申请信息:年龄、性别、籍贯、常驻地、工作、联系人;

 

用户使用过程信息:资料修改频率、IP定位、设备重复、填写顺序、其它行为记录;

 

交易数据:借款相关交易频次、金额,还款等;

 

第三方数据:一类是电商、社交、搜索、新闻、物流等信息的爬虫或接口导入;一类是设备信息的读取,还有一类是向第三方征信和风控公司进行购买。

 

 

 

风控模型

大数据风控更多应用与小微互金贷款,因此更多是还款意愿的控制,欺诈风险会比较高,因此构建好的反欺诈模型就非常重要,目前一般分三种:

 

1. 规则:根据经验总结规则,形成规则库;而基于规则的主要手段是交叉验证,对规则库,证件、通信、定位、指纹,面部识别进行交叉验证,保证客户真实性。

 

2. 黑名单和灰名单:基于以往发生的行为,进行名单匹配,对黑名单客户一刀切,对灰名单客户深入关注。

 

3. 机器学习模型:利用聚类等模型发现一些违反常识的规则,反推,在应用于后续的客户验证。

 

另外,传统信贷中非常关注的信用风险,大数据风控同样非常重视。信用风险对模型的应用应该说很成熟了,包括ABC评分卡在信用卡领域的使用,芝麻信用在支付领域的使用等。评分模型最常使用的就是LR模型,现在大数据风控在此基础上补充了XGboost,FFM等模型来尝试新的方向,不过据了解,目前还是LR模型最稳定常用,新的机器学习模型或许还需要一段时间的实践和迭代。

 


分享到: 更多