如何用AI算法识别骗保行为？蚂蚁保险智能风控模型首次公开！[通俗易懂]

大家好，又见面了，我是你们的朋友全栈君。

阿里妹导读：人生充满意外和不确定性，保险的使命，就是给人以安全感。风控是保险业务正常发展的重要环节，成长于互联网环境下的保险风控更为重要。

今天，阿里工程师正在利用跨平台体系下的海量数据资源和智能风控模型，优化保险风控，提升保险业务整体风控能力，让保险更好帮助人们对抗风险，减少后顾之忧。

保险风控的背景以及挑战

商业保险是一种用于保障未来的商业行为。除了我们常见的车险、财产险、健康险等传统保险以外，运费险、账户安全险等在互联网环境下应运而生。风控是保险业务正常发展的重要环节，成长于互联网环境下的保险风控更为重要，其中保险风控主要有两个重要部分：

核保/准入：判断是否承保，如何承保的过程，精准的准入能力对于骗保风险防控有非常重要意义，尤其是冷启动阶段
核赔：判断理赔是否符合保险保障条款，是防控骗保的核心手段之一

受到有限的数据、大规模计算平台缺乏等原因，传统保险公司只能基于有限的特征（如年龄、性别、出险情况），结合经验提炼出来一些简单规则（当然，有些公司尝试使用LR等方法建模）去辅助保险员的核保、核赔工作。

支付宝以及淘宝体系下的数据的积累，给我们提供了更好的资源来做风控，从中可以挖掘出用户的消费习惯、社会关系、经济能力等多维度深层次信息，一定程度上可以反映出用户的骗保概率、出险概率，用于甄别用户骗保行为。我们希望能够利用跨平台体系下的海量数据资源和智能风控模型，优化保险风控这两个重要环节，提升保险业务整体风控能力。

值得注意的是，在构建保险场景下的风控模型，以下两个重要的问题需要考虑：

可解释性：对于保险领域的模型来说，特别是风控模型，模型的可解释型是一个重中之重。
团伙性：大部分的骗保行为都是团伙行为。个体行为可能不明显或者容易伪装，但是潜在团伙关系是很难被完全掩饰的。如何挖掘图上的潜在信息，挖掘出团伙对甄别骗保行为有很大的帮助。

本文依托于超大规模机器学习框架参数服务器PS[1]开发的FastRep图算法和PS-SMART算法，并通过特征工程精细化账号行为属性等，最终在X产品的两个重要场景准入和核赔上上线，大大减少了骗保案件。

风控背景

以X产品风控为例：1.量化投保人不履约责任的风险概率，从而判断最优的承包人员群体，即准入模型；2.量化理赔申请的骗保风险概率，从而防止骗保带来的资损，即核赔模型。因为考虑到保险场景要求的强解释性，我们算法的主体选用了PS-SMART（PS-SMART是基于PS实现的分布式GBDT）。GBDT作为一个非线性分类器，其的优势在于模型的强解释性，鲁棒性高，并能很好的处理建模使用的特征里的稀疏，缺省，连续数值等。

我们提取了一些业务特征，同时引入图算法来学习理赔涉及到的关系网络信息。不同时间粒度下的离线特征是通过ODPS定时任务周期性生成，与行为相关的实时特征是通过特征中台生成。

准入模型

准入模型的业务目标在通过模型预测用户的ROI，基于用户的特征、行为等属性，我们使用PS-SMART训练了多版GBDT模型。GBDT是非常成熟的一类算法，这里就不赘述原理。

模型效果

前后我们上线过两版模型，在产品赔付率下降的情况下，预测目标的保费翻了四倍。

准入模型的价值是用算法的视角，更精准的预估了用户的ROI。从而业务决策上将会调整不同的ROI结果的人群准入策略，从而保证整体的保费收入增长。

核赔模型

核赔模型的目标是去判定每一笔理赔是否骗保。因为是事件级别，所以除了把用户特征引入PS-SMART训练GBDT模型以外，还引入了行为特征、关系特征等更多数据。核赔模型的建模需要了解骗保行为本身，因此我们基于参数服务器（PS）框架下的FastRep算法来学习用户的embeddding来刻画理赔中投保人和被保险人所涉及到的关系特征。从后面的模型效果显示，关系网络的embedding的加入后，能提高模型头部的召回。另外，目前FastRep算法可以支持十亿量级节点图的计算，对于大数据量级的模型产出效率是非常重要。

算法原理

FastRep算法是一种基于图关系的数据表征算法，该算法为无监督算法，利用PS分布式框架能快速地生成每个图节点的embedding向量。这些embedding向量能较好的反映节点在网络中的特征。FastRep算法主要包括随机游走算法和word2vec算法两个部分。

基于PS框架的随机游走算法(random walk)算法：

随机游走（random walk）是图计算中的一个基础算法。其核心思想：针对一个构建好的图（网络），随机地选择一个结点，记作X1，然后随机的从X1的邻接结点选择一个，记作X2，类似的，不断的选择出来X3，X4等等。由于PS在处理超大数据规模上的处理速度、容错性有较大的优势，因此我们在PS框架下开发了随机游走(random walk)算法。和传统的随机游走算法相比，我们的PS版本的随机游走算法的特点和优势：

在server和worker上分别保存整个图的信息。在server端保留全局图信息的好处是当有worker挂机时，PS的failover机制能较快的重启一台机器，并将server的信息同步到worker上。
在worker上保存全局图信息的好处是每个worker独立批量产生相应的随机序列，并且流式输出到ODPS表中。由于每个worker都保存着全局图信息，生成相应序列并不需要访问其他数据，减少了依赖性和网络带宽，极大地提高了效率和并行化。

基于PS框架的word2vec算法：

利用随机游走算法产生相应的序列后，我们采用word2vec算法来生成相应的embedding数据。大家都很熟悉传统的单机版word2vec算法，为了解决超大规模数据的word2vec算法，我们开发了基于PS框架的word2vec算法。和传统单机版word2vec算法相比，我们做了以下改进：

worker端并不存储整个模型，它仅仅存储它读入数据中需要的embedding。当模型更新时，仅仅更新局部节点的embedding。这样减少了worker的内存和传输网络带宽。
worker端读取数据时，并不是全部读入整个数据，而是读入部分数据分片。这样能大大减少worker的内存和存储资源。
引入category sample方法，使得负样本采样更加贴近词的权重。计算下一次的负样本采样的数据时，将cpu计算和网络传输异步进行，进一步提高cpu和网络带宽的使用效率。

模型效果

FastRep算法效果

我们从两个角度研究了FastRep在这个场景下的效果，如图1我们可视化了某一天测试集关系网络向量表示，我们发现该方法对于骗保事件和正常事件是有较强的区分度的(蓝色是正常事件，红色是涉及骗保的事件)。

如何用AI算法识别骗保行为？蚂蚁保险智能风控模型首次公开！[通俗易懂]

图1 理赔事件embedding可视化

图2可视化了同一天事件涉及到的用户向量表示，骗保一定程度上也是可以通过此法识别出来，另外我们通过实际数据研究了图中圈出来case，发现了一组存在中介关系的骗保团伙，而这种多度关系的识别在普通方法上是很难识别出来。

如何用AI算法识别骗保行为？蚂蚁保险智能风控模型首次公开！[通俗易懂]

图2 用户embedding可视化

模型离线效果：

在测试集上，准确率提升的基础上，覆盖率上涨了5倍。

模型在线效果：

目前我们部署上线了模型，此模型和规则等组合上线之后我们可以看出来线上识别风险的能力大幅度提高，日均骗保案件量降幅76％。

总结

这次的项目是蚂蚁保险数据部和人工智能团队一次成功探索尝试，利用AI新技术提升整体风控能力，未来，我们将继续探索更多场景的能力提升。

我们在等你！

如果，你想感受互联网时代的大潮！

如果，你想成为互联网金融的弄潮儿！

如果，你想成为大数据的摸金校尉！

来这里就对了！

蚂蚁金服保险事业部数据组常年招聘各类算法、数据挖掘、数据分析等方向人才。欢迎砸简历：insdata_jobapp@list.alibaba-inc.com，一起致力于互联网保险的数据能力建设，if not now，when! If not you, who！

同时蚂蚁金服人工智能部分布式学习和系统组也常年招各种算法相关人才，同样欢迎砸简历！

参考文献

［1］Jun Zhou, Xiaolong Li, Peilin Zhao, Chaochao Chen, Longfei Li, Xinxing Yang,Qing Cui, Jin Yu, Xu Chen, Yi Ding, and Yuan Alan Qi. KunPeng: Parameter Server Based Distributed Learning Systems and Its Applications in Alibaba and Ant Financial. KDD 2017. 1693-1702.

如何用AI算法识别骗保行为？蚂蚁保险智能风控模型首次公开！[通俗易懂]