FICO前首席科学家:风险信用模型的技术演进与未来

 FICO前首席科学家:风险信用模型的技术演进与未来

作为金融业的基石,征信对于普惠金融发展的重要性不言而喻。而对比历经百年的美国征信市场,我国征信行业远未成熟,个人征信牌照也迟迟未落地。它山之石,可以攻玉。每当这时,美国征信巨头费埃哲(FICO)公司是一个无法绕开的典型研究案例。

在近日拍拍贷举办的2018年智慧金融高峰论坛上,FICO原首席科学家、大数据进行风险决策领域的世界级领军人物Joseph Milana博士进行了“风险信用模型的历史和展望”主题分享。

风险信用模型是借贷的前提。Joseph Milana博士表示,美国过去十五年最大的一块借贷是抵押贷款。2009年大萧条的一部分成因就是逾期贷款比例非常高,且并不重视风险建模,“那个时候有很多风险评估原则都被大家放弃了,因此当时有大量的不良贷款产生,这就是逆向选择,吸引贷款的都是信用不好的人。”在那之后,美国金融市场又开始重视,并建立了良好的风险评估机制。据雷锋网了解,目前,不良贷款又回到了可以被管理的水平。

以下是演讲原文,雷锋网作了不改变原意的编辑:

FICO公司的演进史

FICO创立于1956年,当时只是一个咨询公司,专门做运营研究。1958年,FICO发明了信用评分。在七十年代,美国国会推出了公平信用评分法案,法规要求进行贷款评估的时候必须确保信息是准确的,还有另外一个特点就是如果做出拒绝的决策,这个决策必须是可被解释的。1974年,推出了平等信用机会法案,必须要公平,给予信贷的时候必须要根据能力评估,不能根据性别或者说种族来评估。1975年,FICO开发了第一个系统来预测现有客户的信用风险。基于他们现在的行为,比如说使用信用卡的行为习惯,对人的信用风险做出评估。1987年FICO公司上市。他们想创建一种商业解决方案,利用神经网络或者说大脑的工作机制来帮助解决问题。

1989年,FICO推出了自己的FICO信用评分机制,一个通用型的信用评估机制的首次亮相。现在这个机制已经成为美国通用的为消费者提供贷款的评分机制。

2001年,myFico.com网站上线,消费者可以自有查询并管理FICO分数。MyFico可以让消费者了解信用分数的评估要素,例如信用历史、支付历史、新近贷款等。

2003年FACTA法案通过,强制让消费者了解信用部门提供的信用分数,有了更强的信用透明性,让消费者可以看到自己的信用评分。

2009年,因为FICO分的盛行,公司更名为“FICO”。目前,全球有25亿信用卡受到了FICO评级的保护。

政府法规对信用模型产生巨大影响

FICO前首席科学家:风险信用模型的技术演进与未来

在这个过程中,政府法规极大地影响了使用模型的类型。比如说七十年代通过的FCRA法案要求,任何时候做的拒绝决定,必须要给出解释。我们通过建立一种线性模型(linear model)解释为什么做出这样一个负面信用的决策。

第二个法案叫做ECOA法案,禁止使用消费者一些信息,比如性别、种族以及宗教信息等。这些因素不能植入到模型中,我们可以添加的维度有邮局邮编信息。由于不要求做欺诈检测,针对此可以用一个非线性模型(non-linear model)。

此外还有一些额外的法律要求,比如说评分必须根据年龄的变化进行变化,也就是说信贷申请人随着年龄的变化必须要及时更新评分,我们的应对方法是保序回归(Isotonic Regression)(雷锋网(公众号:雷锋网)注:保序回归属于回归算法,对一个有限的实数集合Y表示观测响应,X集合表示未知的响应值,进行拟合找到一个最小化函数。)

那么我们究竟是如何解释负面评价的呢?

FICO前首席科学家:风险信用模型的技术演进与未来

人们比较关注模型是怎么样来解释的。FICO刚开始设立了一个非常清楚的方法——线性模型,里面有输入的变量、一些相关概率值,必须要把这个函数和概率链接起来。建模的时候必须考虑到逻辑回归跟概率的关系。为什么一个人会得到不太好的分数,必须要看变量是如何产生的,什么样的变量或者说因素会贡献负的变量,或者说得分比较低的变量。

首先要去掉这个尺度,因为这是一个线性的模型,在这里不是很必要去掉尺度,但是对于要求解的神经网络来说还是非常重要的。接着减去平均值,重新评估评分。分析哪个变量给线性模型贡献的变量是最大的,这里面有可能两个变量是有相互关系的,比如说有收入和成本两个变量,那么收入减成本就得到了消费者的利润。如果只单一看收入或成本的话,评估结果可能就非常不全面。所以解决方案就是把所有有意义的、可以解释的变量都放入子集中,根据子集的总量对总模型贡献来进行排序,构建一个比较有意义的或者是可解释的子集。这是一个关于线性模式的解释。

FICO前首席科学家:风险信用模型的技术演进与未来

至于非线性模型,我们使用神经网络,这与线性模型有较大不同。神经网络并非依赖于线性的模型,这并非意味着隐藏节点有很多层,也可以是单层的。在其中输出模型,必须要决定输入量是什么,有两种方法来确定:

第一种就是把每个子集的变量全部设置为平均值。如果所有都是平均值,要把新的变量和平均值进行比较,这样的子集会对总分产生一个非常大的变化,可以根据总分变化来排名,这是我们今天用得比较多的模型;

第二种方法是应用单独的模型。每次删除一个子集,然后构建一个单独的模型,再根据单独的模型进行评分,最后看在子集中,哪个变量会对模型变化量产生最大的贡献,并进行分析。

信用模型在其他领域的应用

除了应用于信用分析,信用模型在其他领域也能发挥作用。上世纪七八十年,保险行业已经用它来分析客户风险,有一本书《醉汉走路如何影响我们的生活》非常好地描述了风险应用。再比如,电信网络方面,怎么样减少风险和故障等等。以及应用于网络安全,预防黑客攻击,必须要做一些渗透测试以及怎么从网络当中提取信息,这些都是我们做风险建模的时候可以做非常多贡献的地方。技术问题非常有意思,有的时候数据没有做标签,你不知道网络是否被入侵了,我们要做平衡,有标签和无标签(数据集),有监督和无监督必须要有一个平衡。

FICO前首席科学家:风险信用模型的技术演进与未来

雷锋网版权文章,未经授权禁止转载。详情见。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/75882.html

(0)
上一篇 2021年8月12日 03:04
下一篇 2021年8月12日 03:15

相关推荐

发表回复

登录后才能评论