在昨日由前海联控、创大资本、前海梦工场联合举办的前海国际科技创新峰会期间,全球个人信用风险评估体系的缔造者,全球领先的预测分析和决策管理公司FICO的早期创始成员,前花旗银行、汇丰银行、陆金所等国际级金融机构首席风控官William Yao(姚志平)博士分享了“人工智能、金融科技在美国银行的最佳实践”。
姚博士表示,美国的银行利用机器学习等人工智能技术用得很深,用人工做决策的已经比较少,但是,国内却停留在“talk-the-talk”层面,应用实践更多是浮于表面,并直接指出国内很多金融机构的“大数据”并非大数据。
以下是姚博士的演讲,雷锋网(公众号:雷锋网)作了不改变原意的编辑:
何谓大数据?一正一反的例子
今天我想跟大家分享一下,美国的银行是如何用大数据和人工智能来产生实效的。美国的银行在用大数据和人工智能方面,真的是用得很广泛。他们用人工做决策的比较少,而且他做得很深。比如说花旗银行,这银行请了个很有名的物理学家——混沌理论的创始人,负责做模型。这个物理学家希望用他的理论来创造银行的价值和增加预测的精准度。
此外,银行还请过专门预测地震的地震学家,用地震的方法来预测一个人会好或是坏。还有用数学家、计算机学家等,把世界各个行业的精英召集起来做预测。
大家注意,这样的机构不是科学院,而是个银行啊!那么,关于大数据,我今天讲两个(案例),一个反面,一个正面。
大数据不是“多”,分析结果也要有群体效用
大数据是一个很俗的词,哪里都可以听到大数据,但是很多人讲的却不是大数据。比如某个银行,花了几千万人民币,每天在找几个亿的数据。这就是大数据?扒完后,他说看到上午某个人9点半在星巴克喝了咖啡,下面又去干嘛干嘛了,觉得厉害。其实这不是大数据,因为大数据不是找一个人,而是找一群人。这是一个例子。
此外,还有专门研究电信大数据的人。他们认为,发现如果有人打电话进来,结果打完后时间很长的,这个人肯定打电话的是老板。他觉得这就是大数据。
对于怎么考察大数据的效用,美国的老板是这么做的——他会问:
第一,“你说的这个事(这种特性)到底有多少人?”
第二,你找到了做这个事和不做这个事的人的分辨率和预测率是多少?
做领导的要问这些问题。
如果是20人左右不是大数据;如果说100万人有这个行为,就是大数据了。
关于第二个问题,我举个例子,银行说找到了足够的人来做这个事,不能找到几个人。但除此之外,如果只找到他们去喝咖啡,也是没用的。这不是大数据。
统计上要跟别人从本质上不一样,必须满足了这两个条件才是有价值的大数据分析。
所以,应该关心的是——找到了多少人,做这个事和不做这个事的区别有多大?一定要这样做,才会往前走。
方法太浅,数据价值发挥不出
20年前的信用卡积累到,肯定是大数据了,特别是信用卡的交易数据。比如,中国的银行有1000万的信用卡,这个数字很庞大。假如银行1000万的信用卡,一个人做10条交易,一年就是12亿的数据了。这个数据量也很巨大。
那么,金融的交易数据为何有用呢?今天的银行很多做预测模型,都是总结好的数据来做预测,用1万元来做预测,预测出赌博、买酒,去饭店吃饭、买书等行为。信用卡交易可以做这些方面的预测。
当然了,光是这个也不叫大数据,因为太浅了。所以美国在几十年前做这个东西就有套理论——他们认为,银行的任务是了解客户的状态空间,所以要知道客户的创造空间。
但是,实际上任何一个国家,不可能了解每个人的所有状态面,这是做不到的,也很难做到。于是有个人创造了这么个理论——这个理论是指,我应该是了解这个人的创造空间,知道他的XYZ,但跟真实的状态空间并不关联。这个理论有套东西可以证明——只要变量观察得足够长,就是XI+和XI+,就可以跟真的需要找的人的状态空间有点重合。
我们讲大数据啊,如果你光是用来做这些,这不是大数据,因为太简单了。但是知道这个的人就已不多了,相信在坐也没多少人知道这个理论,比如用一个变量的离散空间,构造出来的空间。反正按照目前的样子,老板听起来,就觉得这个东西是值钱的。
美国怎么做呢?他们是拿了千万人的信用卡数据,比如我们曾经试了3000多的变量,就找到了250个变量。我们分析这250个变量,“做这个事”和“不做这个事”有足够的预测率,最后变成的模型。
所以,技术的核心是:
如何对这些变量进行构造?
人工智能:擅长于多因子分析
人工智能,美国银行用得比较狭义,就是机器学习,用计算机来学习一样东西,让机器帮我们做更好的决策。
40年前,美国的MIT管理学院做了研究:尽管智商很高的人,其大脑就是擅长于做单因子的分析。100万人在我们面前,要识别出好的还是坏的,人很擅长做这样的分析——学历好和学历低的风险、有房子和没房子的人的风险(当然了,现在我们的房价高)、收入高和收入低的风险、女生和男生、年龄大和年龄小的风险的对比……这些都是人的单因子的分析。
但是如果我给你个问题,站在你面前是100人,都是男生,都是收入10万元一年,都是一套房子,三张信用卡……什么情况都一样,这几个变量都有了,如何谁在将来12个月中的坏帐比例?想象一下,在坐的各位任何人都无法回答这个问题,让爱因斯坦来回答也回答不了。
人的大脑擅长做单因子的分析,不擅长于做综合因子的判断,而擅长在几十个、几百个概念中做综合判断的,是计算机——只要给它数据,它都可以帮你计算出来。这是人工智能值得我们学习的地方。他们没有感情偏差,能够通过大量数据和权重计算出评分。
美国几乎各大银行都在用机器学习做决策,这是机器学习一个很好的方面。各位如果有足够的数据、大数据,去造一些预测模型,你做的决策会比人类做的决策精准度要高很多,结果要好。
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/65434.html