中国消费金融市场的用户大致可以划分为四种类型:1.白领和自雇人群;2.蓝领;3学生;4.农民。其中,前两者为主力消费人群,市场规模十分广阔。白领和自雇人群往往拥有央行征信报告,主要使用银行信用卡,以及BAT和京东等大型企业提供的消费金融产品。而多达2.5亿的蓝领则主要为薄文件人群(央行征信报告能够采集到的数据非常少),他们具有很强的消费冲动,是互联网金融产品的主要目标。而由于传统银行放款周期过长,无法满足他们的需求;即时高效的互联网消费金融产品也就成了他们的最佳选择。
那么,互联网消费金融企业如何才能抓住这一市场机遇,从广大薄文件人群中寻找优质客户、提高用户黏性,同时降低风险,将收益最大化呢?本期硬创公开课,雷锋网邀请到了秦苍科技数据科学家沈赟博士,为大家分享AI在消费金融产品优化以及风险控制中的应用。
内容介绍:
本次公开课包含以下内容:
1. 根据用户多维弱变量数据的综合信用评分
2. 社交网络算法应用于金融反欺诈
3.基于机器学习模型的额度策略
4 基于机器学习的金融产品设计
5.人工智能应用的前沿探索:用户生命周期管理
嘉宾介绍
沈赟博士,秦苍科技数据科学家,具有9年金融领域机器学习研究开发经验。拥有德国柏林工业大学电子信息科学与技术博士学位、上海交通大学计算机科学与技术硕士学位、德国柏林工业大学电子信息科学与技术硕士学位、上海交通大学计算机科学与技术本科学位。
曾在Journal of Machine Learning Research, Neural Computation, SIAM Journal on Control and Optimization等机器学习、神经网络以及应用数学等领域的顶级期刊和会议上发表多篇学术论文。
曾任职德国LOBSTER Data 量化分析师,分析处理高频Nasdaq数据,辅助完成产品上线。现担任秦苍科技数据科学家,率领团队构建基于机器学习的信用评分、额度策略、反欺诈以及用户生命周期内的自动化动态调频系统等。成功打造了基于用户数据1秒内完成信用评分的评分机制,相比传统模型提高了25%AUC。
(本期公开课完整视频,共51分钟)
以下为雷锋网(公众号:雷锋网)对嘉宾分享内容的实录精编。
风险控制
信用评分
风险控制是消费金融领域的一大核心问题,信用评分机制则是控制风险的有效手段。信用评分机制可以简化为分类问题,即根据用户历史上的行为,来判断他是“好人”还是“坏人”。假如一个用户逾期几个月,那么我们就认定他是“坏人”,若没有逾期行为,则为“好人”。
我们采用了机器监督学习中的经典分类算法来进行用户信用评分。评分过程可以分为以下几步:
数据导入和清洗。因为数据采集过程中可能会采集到脏数据,此外,我们还需要剔除部分不可用、不可计算的数据,以及空数据。
特征提取。采集数据时,我们通常会采集多达一万多个数据点,然后通过特征提取的方式提取几百个特征点。
模型选择。在模型中,我们会运用到一些机器学习算法,比如逻辑回归、随机森林、AdaBoost、XgBoost、神经网络等。选择模型时,我们会采取cross validation的方式,同时运用基于ROC的AUC来决策模型的好坏。
决策。决策过后,我们可以观察用户表现,重新提取数据训练模型,形成正向反馈循环。也就是说,随着收集到更多、更新的数据,我们的模型将不断迭代和进化。
从应用结果来看,AI决策相比传统手工开发的算法决策,可以把决策时间从分钟级别缩短至0.1秒,同时降低25%的坏账率,每年为企业节约高达上千万的成本。
在大家熟知的,使用深度神经网络解决图像识别和云识别的问题中,一般而言,采集的数据越多,训练出的模型就越好。但金融领域不同,金融数据具有非常强的时间效应,越靠近现在的数据越具备预测效力。并不是说拥有的数据越多,模型效果就越好。因此,不断定期更新模型至关重要。
模型是基于历史数据训练出来的,在未来不发生异常事件的前提下,可以保持预测效力;一旦出现异常事件,模型的效力就有可能下降。为了保证系统预测的稳定性,我们会同时开发多个模型彼此竞赛。
比方说,我们训练出了三个模型,分配给他们不同的流量:模型2流量最高,模型1次之;模型3最低。一段时间后,我们可以收集到各个模型的表现,根据其准确率动态调节流量。如果某个模型表现好,就多分配一些流量,反之则减少流量。如果这个模型的效力长时间内持续下降,就将逐渐被淘汰,与此同时会有新的模型加入竞争。总而言之,多模型并行,择优进化,对于保持系统的稳定性十分重要。
通过社交网络分析反欺诈
消费金融产品风险控制中,另一个非常重要的部分是反欺诈。我们反欺诈的主要手段是社交网络分析。用于社交网络分析的数据通常基于手机号码,比方说手机紧急联系人、通联纪录、通讯录等。
上面是一张社交网络关系结构示意图,图中每个点代表一个用户,通过线段连接的两个点互为手机联系人。其中某些用户可以通过一个共同的节点联系到一起,那么我们就将其看作一个团。以团为单位,可以提取到一些社交网络特征:
团内其他用户的表现,比方说逾期率、通过量等。这一特征判断的核心思想可以归纳为“近朱者赤,近墨者黑”。
团本身的特性,比方说节点数、团内用户的连接紧密程度等。
团内用户的属性,比方说团内的女性人数、地区分布、平均借款额度等。一般而言,团内女性人数占比越大,团内用户是“好人”的概率就越大。
从社交网络中提取的特征主要可应用于两大方面:
一、将特征数据加入信用评分模型,提升其准确度。根据以往的经验,加入这些数据后,AUC值可以提升3-5%。
二、通过无监督的聚类方法来预防欺诈。我们将某个地区的所有用户进行特征分析后,投影到二维平面,通常可以发现两到三个异常点,他们距离其他用户非常远。这时候就会触发我们的调查机制,调查这个用户是否真的存在欺诈行为。实践检验,这种异常值检测的方法可达到60%左右的准确率,证明对于预防欺诈,社交网络特征分析确实行之有效。
产品优化
优化金融产品参数
消费金融产品主要指分期借贷,我们可以把它想象成信用卡,其主要参数有额度、利率和期数。设计这些参数时,我们主要需要考虑两个方面:
产品的接受度。我们向用户推荐产品时,用户是否会接受?一般而言,产品额度越大、利率越低,用户接受的可能性就越大。
风险控制。随着用户接受度提高,风险也在增加。如果我们向用户提供的额度超出其偿还能力,资金就很可能收不回来。
产品的接受度和风险彼此冲突,我们需要寻找折中方案。
下面介绍一个我们开发的基于贝叶斯算法的框架。在消费金融场景中,简单来说,可以把用户划分为“好人”和“坏人”。在给定用户表现和金融产品参数的前提下,基本可以确定这款产品能够带来的受益。但同一个用户在不同时期的表现是不一样的。比方说,用户这段时间经济状况较好,能够及时还款;一段时间后他经济状况变坏了,就很有可能还不上。用户是“好人”还是“坏人”,是个概率性问题。
上面的公式中,p代表在给定某个金融产品和用户的前提下,这个用户是“好人”还是“坏人”的概率。统筹考虑所有情况后,就能得出这个用户身上的期望收益。
我们希望通过调整产品参数将收益最大化,同时也需要关注用户逾期的风险。在给定某个产品的前提下,我们希望用户是“好人”的概率大于某个值,比如0.6或者0.8。这样可以间接控制用户可能带来的损失。
上图展示了我们对“用户是‘好人’还是‘坏人’”的概率估计情况。其中x轴代表额度,y轴代表期数,z轴代表用户是“好人”的概率,每一个曲面对应一位用户。从图中可以看出,有些用户对于额度和期数不太敏感。虽然随着额度和期数增加,他们是“好人”的概率有所下降,但始终高于某个数值。有些用户则对额度和期数非常敏感。通过大量提取用户特征,我们可以不断对模型进行优化,为每个用户量身打造合适的金融产品。
那么,这个模型的效力究竟如何呢?上图进行了展示。图中x轴代表风险阈值,左端表示阈值非常低,我们可以冒巨大的风险;右端表示阈值非常高,放款策略趋于保守。y轴则代表我们针对某个用户预测的放款金额,与其历史放款金额的比例关系。若比例大于1,就说明预测的放款金额高于历史放款金额,同理反推。从图中可以看出:
在同一风险阈值下,“好人”(黑色)获得的额度总是高于“坏人”(橙色)。
随着风险阈值提高,用户获得的放款额度逐渐下降。
在给定风险阈值的前提下,“好人”获得的预期额度总是高于历史额度,“坏人”则恰恰相反。
结果和预期完全相符,这证明了我们基于贝叶斯算法的分析框架确实行之有效。
延长用户生命周期
企业总是希望用户能尽可能长时间地使用自己的产品。因此新用户借款并如期还款后,企业还会向其推荐其他金融产品。那么,如何最大限度地留住客户,延长其生命周期呢?
在用户的整个还款周期中,我们可以通过用户在每一个还款节点的表现,判断其是“好人”还是“坏人”,并作出相应调整。如果用户还款表现好,可适当提升额度或降低利息,鼓励其使用我们的其他产品。若用户表现差,则可以降低额度和提高利息,以防控风险。极端情况下,将启动调查或催收机制。
借助这些手段,企业可以提升用户黏性,并将收益最大化。
马尔科夫决策过程-增强学习
为实现这一目的,我们采用了深度学习以及运筹学中非常经典的马尔科夫决策过程进行建模。企业关注的是用户在整个生命周期中带来的累积收益,因此不同于前面提到产品参数优化。产品参数优化是单步决策,而收益最大化是多步决策问题,需要在每一步决策中不断优化我们的策略。
上图中的公式中,r是一个reward函数,它取决于st和θt两个变量。st和θt分别代表当前账期下用户的表现(逾期或提前还款等)以及企业的决策(提额或降息等)。π则代表企业在每个账期中的单步策略累计而成的整体策略。通过这个公式,我们可以得到预期的最大收益。
昨天阿尔法go再次战胜了中国著名棋手柯洁。阿尔法go用到的一个核心算法叫做增强学习,增强学习的本质其实也是马尔科夫决策过程。它用到了不断迭代的online learning算法来解决多步决策问题。
马尔科夫决策应用到消费金融场景,过程大致如下:新用户进来后,系统会抽取他的个人特征,同时根据其当前还款状态,以及在这个时间点上带来的利润或者损失,优化value function和state representation。value function和state representation是通过分析和学习用户历史数据得来的,加入新的数据后,系统会不断校正value值。如果某一步决策对我们不利,那么其value值就会降低,反之则value值提高。如此不断循环往复。
总结
前面提到,AI在消费金融风险控制以及产品优化方面,能够发挥巨大重要。但需要强调的是,现在AI概念非常热门,大家都希望学到最新的算法;但要把AI算法落地到实际生产和业务中,还是应该立足业务本身,不断挖掘数据优化模型。选择什么模型不重要,模型好坏最终还是要看它是否能够给业务带来增长。最理想的状态是,企业能够通过模型优化业务流程,获取更多数据,然后利用新的数据进一步优化模型,形成良性循环。
QA:
1.除了风险控制,未来AI还可以应用到消费金融的哪些环节,将给行业带来怎样的改变?
前面已经提到了产品结构优化。通过优化产品参数和结构,来提升用户黏性,将收益最大化,这对于企业来说非常重要。除此之外,AI还可以用于产品推广,比如通过现有的社交网络,向其他用户推荐适合他们的金融产品。
2.在目前技术条件下,AI风控相比传统风控存在哪些不足?未来如何提高?
AI技术立足于大数据。如果我们能够获取足够多、足够新的,具有表征能力的数据, AI风控一定能够打败传统风控。但很多时候,企业获取的数据往往不够充分。这时候,基于长期经验积累的传统风控往往能够提供行之有效的风险控制手段,虽然他们的方案不一定是最优的。如果未来AI能够进化到拥有学习和推理能力,那么它完全能够取代传统风控,不过短期内还很难实现。
3.随着人工智能发展趋于成熟,未来消费金融行业必然会大规模引进这项技术,这是否会带来风险评估同质化的问题?企业该如何进行产品的差异化开发?
这个问题确实存在,未来同一个行业用到的AI算法大多类似。但每个企业采集到的数据端不同。如果企业能够采集到足够新、足够可靠的数据,其风险控制能力将显著提升。因此,问题的本质在于如何获取尽可能多的优质数据。
4.人工智能能否代替个人征信的作用?
我个人认为是可以的。央行的征信系统能够做到多好,取决于大型机构,比如银行和BAT等大企业,愿意在多大程度上贡献数据。如果这些机构愿意将数据完全共享出来,那么央行的征信系统可以做到非常完善,但其中存在非常大的阻力。企业们还是更愿意基于自己采集到的数据,尽可能把风控模型做到最好。如果央行无法采集到足够多的数据,其征信系统不见得一定比企业的风险控制系统更好。
5.入门应该如何学习AI
个人认为可以分两个层面:首先可以上网搜索一些教程,比如说雷锋网硬闯公开课上的教程;另外还可以通过实现现有的、开发好的AI程序,提升自己的动手能力。总之,学习和实践相结合。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/68678.html