您的位置:首页 > 要闻 >

【友盟+】:看似毫不相关的行为数据,竟在破解风控难题?

“在互联网金融场景中,我们服务的相当一部分群体是没有央行征信数据的。这就需要金融机构能够利用其它数据精准的鉴别欺诈风险,降低违约风险,为真正的用户群提供金融服务。”在第三届中国消费金融峰会上,【友盟+】CDO李丹枫分享了【友盟+】是如何利用设备行为数据,破解风控难题的。 

互联网行为数据*机器算法=风控模型

在风控数据金字塔模型中,最顶端是来自央行的信用数据,与风控的相关性最强,但覆盖率最小。底部是覆盖率最大的设备行为数据,其应用难度也最大。【友盟+】正是利用海量的设备行为数据,再结合多维数据和机器算法,形成金融风控模型,帮助金融企业提高风控决策模型覆盖率和准确率

blob.png 

基于我们服务的150万移动应用、710万网站,我们每天能够触达14亿活跃设备,每月覆盖80%以上新增手机消费者,几乎覆盖全部iOS消费者,几乎所有移动端设备都可以在【友盟+】找到相对应的数据,这对金融风控非常有价值。例如,欺诈型的设备很有可能使用老设备操作,如果在【友盟+】系统中没有某个设备近期的活动数据,该设备会比可以找到数据的设备的风险高。

blob.png  

另外基于互联网和移动互联网的使用行为,我们也可以对风险有一个判断。例如,有两位消费贷款申请人,App的使用行为如图中描述,显然男性的风险概率更高。如果有充足的数据,机器学习判断的效率更高。 

1)手机品牌、价格与风险率有什么关系?

我们发现设备的操作系统、品牌、价格、质量都与风控有强相关性。第一是操作系统:iOS比Android风险低;第二是设备风险比较,价格越低风险越高;第三是手机品牌风险,根据市场上手机品牌的变化而变化;第四是设备质量风险对比,判读设备的正常使用情况。比如,用户正常的使用模式是早起看新闻,然后使用出行类App,晚上看视频等,根据手机使用行为去判断设备的正常情况。在【友盟+】的系统中,如果数值到“4”,就说明设备是虚拟机或farm里专门用来刷量的手机,例如这类手机的电池永远是满格,频繁使用1个或几个App。第五是历史行为相似度指标,会有一组特征描述手机上信息行为与历史长期行为的相似度,相似度越高风险越低。 

blob.png 

通过简单的统计指标可以找到很多相关性,因为我们看到这些相关性,我们才觉得利用互联网和移动互联网行为数据,通过机器学习建模,可以在普惠金融的场景中发挥巨大的作用。

2)环境与行为数据,如何在风控模型中发挥作用?

blob.png 

【友盟+】风控模型用到了两类信息,一是与环境相关的信息,包括操作系统、价格品牌、质量、IP、Wi-Fi、运营商、地理位置等,基于信息衍生出很多变量;二是行为相关的信息,包括浏览的网站、使用的App等。将这些数据打通可以极大地丰富设备行为,比如一个设备装了很多P2P类App,并频繁使用,这个用户就有多头借贷的嫌疑。行为相关的信息还包括使用的时间、时长、频次兴趣偏好、借贷/金融类App的使用情况。主要是逻辑回归模型和树模型,通过时间序列的变量计算,可以预测一个设备的违约风险。最终,我们会输出一个分值,分数越高,违约率越高。

这样的模型的效果是显著的,例如我们帮助融360将设备覆盖率提升至>90%,KS(模型衡量指标)提升20%。

3)深度学习行为风控的三个场景

blob.png 

场景一,迁移学习。新场景往往没有足够的数据量,我们利用迁移学习技术即先在大样本数据上建模,然后在小数据集上fine-tune已有模型,这种方式比直接在小数据集上建模提升10%以上效果。

场景二,Multi-task。不同的额度、期限组合,可以变幻出各种场景,而每一个场景的数据又不多,如何做好模型? 我们将多个小数据集合并,每个数据集的target为一个task,底层共享参数,顶层分隔为独立参数,进行共同训练。效果提升30%以上。因为本来每个都是小样本,但集中在一起就变成了足够多的样本,每一个目标要根据场景进行微调,达到比较好的效果。

场景三,通过深度学习神经网络提取特征。我们底层的特征有上百万,是人工加的。例如,近期行为和长期行为有很多比较方法,可以用今天比上周,上周比上月,但这类特征人工成本非常我们尝试用深度神经网络自动提取特征。卷积神经网络有一层叫卷积层,把卷积层的输出层作为模型的变量,用变量去训练树模型,会发现模型变量和人工提取变量的结果接近,极大的节省人力。而且在新场景中,如果强调模型的可解释性直接使用通用解决方案,就可以迅速做出效果好的模型。

数据营销:机器模型驱动的精细人群定向

blob.png 

互联网广告很重要的是用户定位,即在庞大的用户群体中找到精准的目标用户。目前大部分的定位功能是通过人工进行判断,比如一个旅游App要推新品,有性别、年龄、地域分布三张统计表,人工分群会按照预判将“年龄段:20-34岁”+“性别:女性”+“地域:北上广浙”的人群组合起来,投放广告,这就是人工产生的模型。

而机器模型Look-alike Model,是这样工作的:比如以1万个高价值用户作为种子用户,而【友盟+】数据几乎覆盖了中国互联网网民,通过建模的方式能够精准的找到与这1万人相近的群体。我们只需要种子用户,就能够使用机器模型驱动的方式做人群定向,并且数据维度越丰富,用户群定位就越准确。

这与传统的定位相比有非常大的好处,人工分群能够承担100个、500个、最高1000个维度,但是机器可以轻松的完成上千万个维度。企业可以在非常庞大复杂的全域数据中找到需要的人群,这是机器学习为广告领域带来的好处。

营销目标受众圈选规则:直线、曲线、等高线

blob.png 

直线代表圈选规则:决策空间是直线,基于规则的人群圈选。在直线之上是“否”,之下是“是”,非常粗矿的决策方式,会产生很多“误杀率”。

曲线代表逻辑回归:决策空间是曲线。Look-alike人群放大,是线性组合的边界,人群选择比较细致

等高线代表深度神经网络:决策边缘是等高线。数据智能模式,由于神经网络可以拟合任意曲线,所以可以非常精细对用户进行区分,让机器根据后台的大数据自动判断核心用户。

分享两个营销领域的真实案例:

由海量数据进行规则圈选,帮助平安科技将信用卡人群CPA降低35%,贷款人群CPA降低20%;通过人群放大,帮助汽车之家将CTR提高100%。数据结果最好的证明了看似不相关的设备行为数据在金融场景中起到了巨大作用。

【友盟+】将海量的全域数据和智能算法相结合,推出金融行业大数据解决方案,帮助金融企业实现精准营销、贷前识别、贷中监控、贷后管理的全链路方案

【友盟+】正与众多金融头部客户进行共建,持续优化风控营销和用户管理模型,以期适应更多的金融场景。他山之石可以攻玉,我们相信看似毫不相关的设备行为数据,将为互联网金融的健康发展保驾护航。