电商社交数据在大数据风控的应用实践

大家好，又见面了，我是全栈君。

0?wx_fmt=jpeg

随着普惠金融业务的深入，以及消费金融业务竞争的白热化，针对信用白户的风控显得尤为重要。如何面向信用白户进行快速有效的信用评级，卧龙大数据根据自己的实践经验，就电商、社交数据在风控上的应用价值与大家进行一些分享。

一、电商社交数据的数据覆盖度：

卧龙和众多不同类型金融机构进行了数据匹配测试，下图为各类金融机构的互联网行为数据整体匹配情况。

0?wx_fmt=jpeg

可以看出：

传统的农商行主要面对线下人群，线上数据的匹配率很低，，要利用电商社交数据做信用评估基本不可行，利用大数据引流获客倒是一个值得关注的方向；

对于大型股份制银行以及消费金融公司特别是网贷平台，数据匹配率可以达到50%及以上，具有较大的大数据风控分析潜力。

二、电商社交数据的反欺诈应用

基于电商和社交数据，我们依照传统的反欺诈和信用评估两个方向进行分析体系构建，也得到了一些很有意思的分析结论：

电商数据反欺诈

众所周知，在某宝平台，上至豪宅别墅下至铁钉牙签，尤其是各种线下服务，除了吸毒犯罪，几乎没有不能卖的，正是这种特性给了我们很大的分析空间。

下面是我们获取到的一批典型案例：

0?wx_fmt=jpeg

根据我们对一批用户的互联网行为特征进行跟踪，发现了一些很有趣的特征。建模分析过程如图所示：

0?wx_fmt=jpeg

对于其中发现的一批关键词，我们进行term weight分析，聚类如下图所示所示：

0?wx_fmt=jpeg

经过对近十万逾期和欺诈用户的百万条互联网行为记录进行分析，按关键词不同可以分为三个客群：

1、老赖客群：典型的诸如让银行头疼的老赖、资产纠纷用户会关联到法律纠纷等关键词；

2、多头借贷：这些用户会关联到新口子、套现、京东白条、蚂蚁花呗、苏宁金融等关键词，通过薅羊毛的手法走各种新平台，拆东墙补西墙；

3、黑产中介：这些用户则会关联到周卡、零配件设备号等关键词。从黑产中介的跟踪情况看，当前黑产已经形成一条极度隐蔽而且设备高度自动化的产业链。

利用这批关键词，结合业务知识以及机器学习算法挖掘，我们找到上千个异常关键词，几十万量级的黑产商品，并通过商品关联到百万量级异常用户。同时我们发现，某宝也在极力打压黑产异常商品，我们分析的商品，部分在某宝上面会不定时消失，所以这批异常数据基本属于卧龙所独有。这批数据通过分析发现很多并不在传统的多头借贷、网贷黑名单数据库当中，可以作为黑名单库的一个补充，同时在几家合作公司测试也得到良好反馈。

社交数据反欺诈

社交领域数据是另外一个比较有趣的话题，除了直接关注贷款类、涉黑类话题的用户，我们通过图数据库、PageRank算法等社交分析工具找到一批刷单刷帖用户。

具体过程如下：

0?wx_fmt=jpeg

这中间最有意思的就是号码的重叠度，现有公布的的黑产名单与我们分析的社交刷单刷帖灰名单用户有极大的重叠度，结论就是：物尽其用！实名制的普及带来的是号码资源稀缺，最大化价值利用是黑产平台的主要特点，这也给我们基于大数据的反欺诈提供了线索。

三、电商社交数据的风控建模应用

信用评估一直是金融领域的重中之重。在介绍卧龙电商和社交数据的信用评估领域应用时，先普及几个基本知识。

模型评估维度

0?wx_fmt=png

模型特征

0?wx_fmt=jpeg

业务经验法的例子包括根据品牌商品占比、主动评论占比、用户购物类目的分布占比情况等特征进行分析。一般购物类目分布越广，说明这个用户线上消费越强，刷单用户的可能性也就越低。

机器学习法的经典案例就是使用Pagerank计算微博用户的影响力，一般pagerank值越大，影响力越高，用户失信的可能性也就越小。另外比如使用标签扩散法，通过黑名单库计算相应的用户灰名单概率权重特征。这些特征IV值（即Information Value，信息价值）一般都在0.1以上。下图为PageRank分段值在大额借贷和小额借贷中违约率中的关系。

0?wx_fmt=jpeg