平安银行零售科技CTO：AI研发之路的「二三五」原则

雷锋网(公众号：雷锋网)AI金融评论按：银行的业务领导看不懂数据报表，用户的照片和声纹注册难以通过，人工智能的运用到底谁是基础和关键，对于这些新技术的应用问题，平安银行零售科技CTO储量通过分享其团队的研发经验给出了答案。正如他所言，很多技术“还在路上”，那么在传统银行的技术化道路上，有哪些问题值得从业者们关注和深思呢？

在12月8日第一届“平安集团SMART科技大会—科技金融Fin Tech论坛”上，储量分享了平安银行在新技术方面的经验，为我们细述了从数据基础、关键技术再到实际应用的环环相扣。

以下为储量演讲全文，雷锋网AI金融评论做了不改变原意的编辑：

大数据：算力、基础设施、数据、场景、产品和渠道端的闭环

建立整个银行的大数据平台，过程相当痛苦——尽管绝大多数金融机构，很早就会建立自己的数据平台，但大数据+金融应用的细分领域相当复杂，每一类业务场景中会有很多不同的子项目要研究。平安银行在此方面已建设12种主要应用场景，譬如风险控制，有与欺诈相关的，有确认客户身份的，还有很多真正意义上研究市场态势和风险变化的部分。

在平安银行的大数据应用上，储量举例了几个典型应用场景：

（从上至下、从左至右分别为：B+报表平台、指标平台、风险侦测平台和数据探索）

B+报表平台

一些会议经常出现如下情况：在讨论未来的业务发展设想和规划时，一旦试图以历史经验来预测事件走向和客群规模，却卡死在数据一环，命题缺乏支撑。传统金融行业原有的数据工具和平台，普及不够、自动化不够、时效性不够。

在数据指标应用方面，比如传统金融组织会把工作交给一个单独的数据团队同事来做。数据团队可能很熟悉业务的指标定义和理解，但大部分业务领导对细节并不清楚，导致上下沟通时脱节，只好让下属以需求的形式实现报表再做决策。

B+报表最重要是解放实际上业务高层领导的生产力，让他们自己通过手工自助工具直接看到他需要的数据，决策更加高效。储量称，从今年年初到8月份，他们一直致力于研究B+报表，目前已在行内有所推广。如果要做到更高的时效性，T+1甚至T+0，并且随时组合不同的条件，把数据带出来，需要花更多精力打磨。

指标平台

这一平台主要是市场营销。现在平安主推线上，这部分营销对于传统业务而言，需要一套成体系的营销平台支持。其中很重要的是，如何通过指标体系将不同的客户实时筛选出来。而这些指标体系的建设需要花时间把基础能力和指标定义出来：客群画像、客户类型，做到基本以秒级筛选出几万、几十万甚至几百万客户的列表。这需要大数据作支撑的，传统数据库架构系统无法完成这一点。

风险侦测平台

每天系统处理的客户交易有几百万甚至上千万，所有的刷卡、转帐记录、登陆记录，会变成可能存在风险的点，需要非常强的实时运算能力，建立风险侦测体系平台。这一平台是毫秒级全天后监控，累计做了八亿笔交易记录风险决策，以及6500万的比对。这些东西的业务价值，背后需要非常强的实时的风险决策引擎来实现。

目前平安银行的引擎还不算最高效的——美国运通公司的风险模型和引擎，可以在两毫秒之内完成12000个决策数的模型运算。其单个服务器节点，每秒可以接受64000笔这样的请求，这对基础平台及其应用架构能力要求极高。平安银行目前风险侦测还不够强，基础开源框架在风险高维运算能力方面是偏弱的。尽管当前业务尚无如此复杂的规则需求，但未来用AI、机器学习训练算法，真正实时运行时，最终产生的引擎对运行资源的消耗会越来越大，没有基础平台支撑是做不到的。

数据探索

我们正在做知识图谱，金融的结构化以及非结构化数据怎么形成图片，以高纬度方式关联查找。

现在金融行业许多欺诈均为团伙作案，业内有灰色产业和黑色产业链条。他举例北京分行的盗刷团伙，作案时会把好几个不同的被盗客户信息输入到系统里，看他的资金被盗在行内甚至到行外其他行的帐户链路，会发现几个关键任务，它可能就是被拿来洗脏钱的黑色帐户。找到这个帐户，再让公安介入调查，顺藤摸瓜把人抓到。我们利用数据探索知识图谱，快速定位可疑行为较为密集的帐户。

平安银行零售的大数据应用体系架构，是从最基础的大数据运算能力开始，从下往上是基础设施、基础数据汇聚、数据产品，再往上是应用场景和应用产品，最终到渠道端可以真正实现闭环。

经验分享：技术+业务双管齐下，平台支撑和数据治理并行

第一，战略清晰。对于一家组织来说，到底需要投入多大的资源来完成大数据平台建设。比如平安团队年初开始建立平台时，团队至少要100人，运算节点服务器资源需要上千万投入，当时一次性采购接近5000、6000万。其中牵扯之多需要上层领导决策，所以要有清晰战略。团队内部会按能力相应细分，每一个小组会专注负责一个领域的产品或者技术的孵化。大数据要在业务领域发挥价值，如果光靠技术是不够的，还需要有人对业务的基础数据比较了解。大数据技术团队可以通过招聘很快获取，但需要有传统团队加入进去帮助一起做孵化。我们把传统零售报表团队并到大数据团队，快速让新招聘的同事对业务有所了解，把基础数据治理做起来。

第二，较强平台能力支撑。这方面投入一开始可能会比较巨大，储量团队所构建的开源Hadoop基本上是全战术的基础框架。每日新增数据量大概100T，包括金融数据、非金融数据、客户行为数据还有生产环境的各种日志。每日任务数大概7万多，有300多个用户，进行相关数据探索工作。每秒钟有20万笔日志汇集到系统里，把所有客户行为日志加上所有系统日志都进入到数据平台以备分析。这一能力建设对基础架构压力较大，目前团队仍在扩容。

第三，元数据治理。一家金融机构的所有历史数据结果，在建立之初，对于里面指标的定义、每一个记录怎么产生的，基本逻辑是不清晰的。那时大数据无法直接帮助业务，必须有一个团队专门把数据清理出来。企业数据治理的一致性、准确性、完整性都需要有人管，这样大数据团队深度参与业务才能清楚了解。像华为很早以前开始做全世界范围内的各种文档、数据治理，就做得很好。

AI：50%数据准备/业务场景+30%算法研发+20%工程化

储量主要从图像、语音、文本、图谱几部分进行介绍。图谱在风险和精准营销上，分成客群推荐和产品推荐两方面。这是我们认为未来，像智能算法实践方面会经历的三个过程，是闭环的迭代的。

业务场景和数据准备

这个50%实际上是以今天在这个时间过程中理解要做好这件事情，成功的基础可能50%是来自于这个环节的。基础数据和应用场景的发现，对做智能算法实践，有50%是靠这个成功的。如果没有好的数据治理，没有找到好的业务场景，光有技术或者算法是做不出结果的。

第一，AI的算法和东西要解决业务问题，需要业务深度参与。

第二，训练算法不能没有基础数据。后文将举例说明声纹的数据样本对算法训练的影响。现在所谓AI算法，大部分是针对某一个具体场景和具体问题建立算法。这种算法建立的能力是非常工程化的事情，需要专家参与，构建真正具备能力的队伍。

第三，工程化。工程化能力之重要，体现在算法能不能快速上线，上线之后能否快速跟运行中的业务并行，并行之后能不能把生产结果跟实际结果拿回数据源，进行下一步训练。如果没有好的工程化过程，业务是不敢上这些算法的。因为这些算法都是代替原来人工流程，凭人的经验总结出来的业务规则。业务是会担心出错的，尤其是风控，算法一旦产生波动，可能产生的（误差）是几亿、几十亿的。如果好的工程化能力并行，维持传统部分，算法路径也同步进行，两边并行进行灰度认证，把两边不一致的东西拿出来让业务再做第三轮判断到底哪边是对的。这样可以让整个算法上线试运行加快。

当你的算法越来越复杂，算法维度越来越高，条件越来越复杂时，工程化能力决定结果能不能跑出来。比如设置出12000个决策数的规则，如果在系统上要跑30秒，从线上化角度这个东西就不可用了。运通把工程化用到极致，他们在AI方面还在探索，但工程化能力太强，强到2毫秒120000的模型可以算出来。

储量总结他在AI建设方面的经验，表示：

业务场景是AI的基础和起点：一定要找业务谈清楚这个场景到底是什么，解决什么问题；
强大的数据平台能力是支撑AI训练的关键：需要用到海量、跨多业务线的数据，以及强大的运算能力来构建复杂模型；
专业的队伍密切合作推进AI在业务中的应用和迭代；
工程化能力不可缺失：业务场景的选择，快速开发、测试和上线的能力，以及模型的持续学习和优化。

人脸识别技术应用的“那些坑”

基本所有的APP都在用人脸进行相应识别。目前每月有1600万的调用量，基本上每天有几十万次，包括开户、贷款客户核申，阈值大概在62.24。

对于金融行业，最担心的是不该开户时给人家开了户，引狼入室。平安的线上通过率在85%。大部分的算法都是96.8%。

大家以为身份证照片都应该跟自己身份证长得一样，但实际上所调用的公安部身份证照片是我大学时候申请的照片，差距比较大肯定不容易通过。后来再调用人行的版本，两边数据源一起做对比，两种算法一起用，才能提升线上的比对成功率。

在人脸识别方面，分享如下几点：

活体SDK的重要性：业务方最怕的是别人可以伪冒。生物识别技术的出现也催生了生物仿生这个对立学科，该学科的发展一定会对生物识别产生冲击。对于使用生物识别的组织来说，要建立相应的科学算法去解决，对立的对立是什么，要不要再训练下一代，判断生物仿生算法与否，如何识别出所有业内能仿生的技术，以及合成解决方案的本身特征并加以排除。

客户拍照本身的影响很大，在客户端怎么引导客户合理使用光线进行拍照，对成功率要求会提升很大。

合理阈值：这应该由业务决定。到底误时率达到什么样的水平，接受什么样的水平，接受什么样的风险。以前靠人工肉眼识别做生物判断也是有误差的，只是不曾数据化，风险团队因此认为人工方法没有问题，这判断是不对的。风险团队要接受误差是永远存在的，但控制在一定范围内，符合业务需要即可。识别不成功的流程，需要有弥补机制。就算实际上成功率只有85%，剩下15%的客户不能丢掉，尤其是银行，要有其他应对办法。比如可能接到音视频做二次弥补

需要有团队专注在人脸的应用团队，将其工程化。

声纹识别落地的困难与解决方案

目前平安在做相应的信用卡孵化场景训练，正在考虑是否需要从800席扩到2000、3000席。该应用8月底上线，真正通过声纹注册成功的客户有157万，验证成功的40万。

跟其他传统声纹供应商不一样的是，平安不是让客户念一串数字或者标准文本，而是在对话过程中采集声纹，进行声纹注册。声纹注册受制于打电话进来时背景音的嘈杂程度决定能不能成功，如果是APP注册过程，会建议顾客站在安静的环境，直接采集客户打电话进来的声音。该服务的线上灰度并行测试（通过率）大概83%。如果是质量达标的语音验证，通过率是92%。客户的说话时长和背景音也会影响通过率。

最开始做声纹识别，受制于集团大部分语音样本没有做语音分离，为此做了额外的算法。语音分离对于未来电话平台录音，乃至所有使用语音应用的场景十分重要——客户和客服的声音不要混在一起录，分成两个文件。

以前无论是录音还是日志，大部分组织是出于合规性要求，用最简单最低成本的方法做最好。但现在是大数据和算法时代，未来业务发展需要对它进行合规规划。人脸有人民银行公开的数据库，声纹没有官方比对库。注册本身需要业务自己在场景里把客户引导注册进来，没有比对库很成问题。

考虑攻克的问题之一是，声纹跨渠道的衰减比较大，现在的声纹用在APP上不一定能用，电话语言的传输和APP文件传输保真程度不一样。电话语音本身让语音失真了，建立的语音模型没法用。

另外，雷锋网AI金融评论了解到，之所以平安会把音视频作为重点场景，是因为它未来的发挥价值很大。社交直播越来越热，未来很多社交，SAT可能真的会往音视频社交转移。

在这方面的尝试，音视频本身的应用场景里出现的问题有：

掉线，跟通话时长、环境，密切相关；

平台上待处理任务排队，如果处理不好音视频能力会受影响。

未来要建立一个公共网关平台，以便跟媒体第三方，尤其是做直播的客户需要使用的APP进行合作。大家现在的音视频技术方案都不太一样，如果没有公共平台把不同音视频接入，最终转换成统一的方案，后台的座席系统开发非常痛苦。储量表示，现在已经做到集团APP音视频解决方案，和原来银行引入另外一个厂商的解决方案，从客户端、服务端不用变更，在中间做自己编解码的转换。

机器人“听说看动”四难点

这部分在银行内部没有真正大规模使用。业务认为的机器人可以代替简单的人工劳动，比如大堂经理，可以做服务引导。可以用标准化方式接触客户，批量方式降低人力支持，通过软件部署代替人员培训。这都是业务认为真正意义上机器人可以达到的效果。但从实际技术角度出发，目前机器人在能力方面还远达不到真正代替人的场景，它的体验并不能真正做到我们希望业务做到的事。

这里面有几个问题：

“听”：人听话知道谁在说什么，可以自己定位要跟谁说话，但机器人不一样，它听到各种各样的声音，所有的信号输入进去，不知道谁在说什么。对于机器人来说怎么处理一对多的对话，是大的难题。
“说”：机器人要说什么或者需要表达什么东西，是需要在背后有一套很强的知识库或者智能算法支持，但目前这个做得不是很好，我们还在做训练。
“看”：机器人有一个感知，看的能力也会受到环境的影响。
“动”：机器人现在越来越大，一不小心撞到凳子桌子就算了，万一撞到人，安全上是很大的问题。因为工程化的问题，机器人的迭代会很慢。

最后总结几点：

一，业务和IT团队要共同协商，新技术引入时需要给到团队一些灵活度，一旦限制很多KPI，大家的动作就走样了，不一定能做出好的结果。
二，需要投入专属团队，投入多少，研究结果就有多深。
三，新技术本身不是一成不变的，需要花时间慢慢积累。不要想着今天什么东西用了，明天业务问题都解决了。新技术应用不是一个IT的问题，是业务问题，一定要通过业务合作的方式完成。

。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/74005.html

平安银行零售科技CTO：AI研发之路的「二三五」原则

相关推荐

发表回复