应对金融大数据挑战从个人到集体风险预测:氪信技术干货全析-量子比特
- 时间:
- 浏览:0
近日,上海交通大学上海高级金融学院与世界知名大学和科研院所联合召开2019国际金融科技会议,氪信科技创立者兼CEO朱明杰博士代表年轻AI创业公司向与会者讲述氪信深耕金融领域头部机构的“秘密武器”。这不仅是氪信,【100012】也首次公开了
以下是演讲实录:
谢谢,谢谢。很高兴你又来黄金了。我们公司成立第一年就在这附近的番禺路,技术合作伙伴都是交大,所以我们经常来吃午饭,吃完饭就闲逛。
今天讲这个题目很有道理。两个素地,首先我做了十几年AI。以前在互联网行业使用算法和AI来解决问题,我认为这是理所当然的。当时金融界的朋友谈到了大数据给他们带来的挑战,所以他们认为算法可能可以使用,于是进入金融行业开始实践。从15年末开始做这件事,不小心做了将近4年。另一个基础是,氪信刚成立就与民生银行合作,解决小微企业信用难的问题。
我想在座的各位都很清楚,贷款给小微企业的风险压力非常大,我们当时启动了以民生银行和大数据为特色的微3.0项目,试图用大数据解决风险上升的问题,效果很好,去年6月底民生银行小微企业贷款余额达6500多亿元。
从16年开始,我们与招商银行合作。那时,招商银行想用智能的方法扩大网上零售业务。我们开始同行招商银行的智能升级。从风控、防欺诈到营销、督促等,合作主体也从信用卡中心扩大到零售信贷。从去年开始,我们又与四大银行合作,解决了数亿账户容量带来的智能金融业务挑战和公共业务等,所以我们从最初成立到现在,其实是一家经过发展理念最先进、要求也最高的银行考验的AI公司。
我们在国际顶级学术会议上也发表了一些论文。有的创业公司还有时间发论文,感觉有点不称职,其实我们有很多实践和数据处理经验,所以顺便发了一篇论文。昨天,我和几位教授和同行一起吃饭,他们说我们公司的论文已经变成了几家公司的面试问题,我感到很有压力。
今天,大家谈论金融大数据,主要是强金融数据以外的“替代数据”。我们从事计算机工作,风控专家最为痛苦的是,他们愿意根据以前规定的规则,将这些数据编码成以前的评分体系。例如,以前可以根据工资的多寡、纳税的多寡来制作记分卡。因此,对于一个人一天和多少人通电话、互联网行为、社会状况等金融概念之外的数据,风电专家从一开始就想根据传统经验将这些数据作为特征变量我们发现它远远超出了记分卡可以处理的范围。
我们正好擅长这件事。因为以前我们在互联网中处理这些数据,所以我们训练机器识别很多照片中谁是章子怡,而不是告诉你谁是美丽和白色或者章子怡。但是,我们仍然可以做出识别率非常高的模型。这里面没有魔法的个别技术。那是一系列的技术。
同样,我们今天使用AI技术来处理金融领域的替代数据,也不是围绕着一种非常神奇的技术,而是首先出发去获取实际效果,而不是转移到人的理解范畴。所以我们发表的学术论文也有非常好的实践效果来支持。今天我们来谈谈氪信的学术成果。
首先,我将为大家介绍一系列使用氪信替代数据构建强风控制系统的工作的概要文章。
一般来说,难以制作记分卡的替代数据有动态时序系统、文本系统、网络系统3种,这些使风控专家无力的数据问题可以通过机器来解决。综合思路是,在金融场景中,把专家经验变成机器可以理解的数据,不断训练机器,提高机器的学习能力,最后让机器处理人力无法解决的问题。
时序数据是基于时间的一系列数据,风电场管理人员使用记分卡将这些数据归类为一个个特征变量是非常痛苦的,但与机器不同,它是一种能够存储和处理大量时序数据,关注整体而不是个别节点的方式。这是我们与京东金融合作的成果,相关论文发表在2018年KDD上,主要处理应用程序上发生的序列化行为,比如个人登录页面,输入一些信息,点击速度,从左滑还是从右滑……给出数据然后从中找出涉嫌诈骗的人的特点,提出了一系列行为事件流程的时序模型框架。
该框架的提出基于自然的考虑:近几年大家都多采用深度学习,特别是LSTM(基于深度循环网络的特征提取框架),特别适合处理时序数据。于是我们把这种排列行为编码成我们的LSTM模型。
同时,我们是一家非常注重实际使用效果的公司,不足以做到这一点。也有使用CNN的模型使序列行动派生特征的框架。在这个过程中我们会得到额外的信息量,但是今天也很难解释这两个组合起来为什么效果会更好。对具体结果感兴趣的人,请看KDD2018上面的帕帕。
这是文本类数据的处理方法。在金融行业,以前可能对文本数据感到棘手。因为很难将一系列对话文本转换成数字化变量并向计算机说明,最终输出结果。在文本信息处理方面,全球资源最多、最先进的AI公司,如谷歌和微软,也无法完全解决人类自然对话的难题。
但是我们能做什么呢?我们可以在有限的场景中,取得好的结果。因为每次对其加以限制时,计算的复杂性都会大大降低,有限的计算资源和技术条件会产生足够的效果。举一个最极端的例子,如果能简化成一个问题,其实应用规则就能解决。这个领域的学术成就,我们也有一些论文。
在第一篇论文中,主要阐述了构建QA问答体系的特点,从一篇文本到最后变成一个数值化的向量,但实际上有一种标准的做法。然而,我们发现,某些限制性的场景,例如顾客应对的场景是一问一答的方式,仅X-Encoder(基于无监督深度学习的特征提取框架)是没有效率的。因此,制作了专门针对金融领域的一问一答的面向QA的基于X-Encoder的督促风险模型对话型特征提取框架。
第二篇论文是关于抽取客户标签的,通过对话将你的context抽取为标准事件。这件事的关键是,今天金融机构的客服人员被训练成像机器一样工作。新人被录用后,用标准化的培训模板来教他,比如顾客说这句话后,会说什么样的话,如何给顾客打标签等。因此我们的工作是建立知识库,建立标准的会话过程预测体系,让这对新人能更快地得手。我们更长远的计划是希望机器训练机器,而不是机器训练人。今天,我们和一些合作伙伴一起,进行这方面的探索。之后,应该会出现更有趣的工作。
第三类互联网数据,由于个人数据非常有限,特别是在金融领域,我们大家都在谈论大数据的声誉损害。实际上需要大量的训练样本,而金融场景中的训练样本是非常珍贵的。例如,如果一个人想要得到坏人的样本数据,至少需要数万美元的坏账摊销,这成本会非常高。这与我们以前对互联网的预测分析不同,用户不喜欢电影、广告和手机案例。这件事的成本不是很高。我们的做法是找到类似的人,从他的申请资料和社会关系上提取知识,进行聚类。当发现坏人时,与他相似的群体是坏人的几率非常高。也就是说,在找到有效组之间类似的关系后,它有助于识别个人风险。当然,仅靠个人大数据是不够的,我们需要借助更多的大数据,最后用集成模型将个人风险特征与局域网、全球网络上建立的风险特征相结合,以提高风险预测效果。
刚才我们谈到了几种不同类型的另一种数据处理方法,在这个过程中我们总是在挑战。那就是你做的模型是一个黑匣子,无法解释。我不能告诉金融机构。谁用了这个方法,效果好,这对金融机构来说是不可接受的,你一定要告诉他为什么。这其实也是整个AI领域最头疼的事情,业务场景特别显著的地方,比如医疗领域,困难更为显著。例如,AI诊断说要断腿,为什么。不能说模型预测到了,最后说模型错了,这家医院肯定会关门。
所以模型的可解释性是深学习突破后AI面临的新挑战,通用模型目前还没有看到特别好的解决方案。但在具体的金融场景中,你可以在一定程度上加以解释。有两种方法:一是局部近似,用低维模型拟合高维模型,它参考博弈论中的东西,最后得到最优决策,在逆推博弈论的过程中,这个我们有成型的产品在我们的风险解决方案中使用了;二是找出AI模型中最重要的几个特征变量,并向业务专家解释。
刚才我们谈到了技术,现在我们可以看到实践的结果。左边的第一个是具有时间优先级特征的结果。指标主要为模型区分度、KS值、AUC。按照KNN的常规做法,KS值为0.142,用另一个神经网络进行MLP,KS值达到0167。加上这些特征,进一步提高到0.203,在典型场景中加上行为数据,KS值为0.216,差异没有上升50%以上。
二是短文本信息提取模型的效果,传统的做法和利用AI模型的做法在数值表达上效果不大,但后者的扩展性更强。本来人就非常需要经验,经常想对策,有了这个框架就不必费力调整,机器会取代一部分人力作业。
三是社交网络数据的使用效果,单纯使用个人风险数据,KS值为0.3,加上我们基于图的特点,有类似人群的特点,明显提高到0.38。这是一个非常有趣的结果。
右边是加了上述三种数据的综合表现,也可以看到KS值在增加。
刚才我们谈到了个别风险的数据处理经验,现在我们来谈谈小组的风险和解决方案。近两年监管对反洗钱和监控可疑交易有严格要求,以前在国内监控个人欺诈风险,主要是基于规则和个人报告,风险运营部门可以多人手去找,效率低,目前欺诈手段层出不穷需要用人的规则和以前发生的诈骗案的训练机器来抓。为了抓住可疑的交易,我们曾假设雇了100个人去看,现在100个风险运营商先看机器提供的样本是否正确,然后再反馈给机器,这样就可以使机器训练更精准。
这里重要的是使用图算法。互联网行业有一家专门从事图算法、图解解决方案的公司,一直在提出解决方案,但发现没有成功。总结为两点,要根据行业知识降维。还需要有效的计算系统。我们的列计算引擎可以在15分钟内处理上百亿级的数据,这在以前是无法想象的。
再过5分钟,我就来说明处理方法。最下面是原资交易流程。我们知道银行的交易流量非常大,如果不是很大,可以人工解决。交易流程形成两种:
首先相互帐户往来构建一个大的Graph,我们给以前的可疑物种结节点,经过局部社区算法找到与之相关的可疑子社区,比如放入10万个可疑物种,找到10万个与之相关的社区。这10万个社区中总共有1亿多个账号。那90%以上都是好人,重点控制剩下10%的人群。
它还根据风险专家的经验形成了风险知识图。这是一般风险专家考虑交易的特点,从金额、模式、速度和场景方面考虑。
将这两个模型结合起来创建图的深度学习预测模型。有了此模型指南后,将由单个种子触发。利用ACL优化的PPR算法,加入Sweep-cut算法,实现大规模挖掘。最后,你可以通过物种节点寻找密切的社区,学习图的结构,找到更可疑的人。
说明原理之后,举个例子。例如,在大银行的房贷系统中,发现数十个账户与一个叫“X琴”的人有关,与她的资金往来非常多,X琴可能是中间人,或者是专职人员给人提供首付,中途过桥,这肯定不正常。单靠人工搜寻,很难从几十亿的交易流水数据中找到这样的东西,但图挖掘让X琴的账户有问题一目了然。
这是我们今天的分享,最后我想谈谈“AI+金融”的实践。我们作为外行,与金融专家合作,既能得到,又能得到