大数据微课 张云松融360直播课全内容

 

▲点击上方关注我们!昨晚大数据讲堂直播群里的微课听得可还过瘾?爱钱帮首席风控官刘忠奎对于场景化金融的风险...



▲ 点击上方关注我们! 

昨晚大数据讲堂直播群里的微课听得可还过瘾?融360风控总监张云松对于互联网金融风控技术与艺术是不是超级精彩。有很多朋友遗憾错过了直播。没关系!万能的小编来啦!小编特地精心整理的昨天直播课的全部对话内容!

讲座信息


▣ 时间:2月3日 21:00-22:30

▣ 地点:大数据微课2期直播群
▣ 嘉宾:融360风控总监张云松
➤➤➤讲座环节:

大家好,很高兴在新年前跟大家在群里分享我在互联网金融风控领域的一些见解。

简单做一下自我介绍,我目前在融360任风控总监,之前在多家咨询公司及互联网公司负责风险管理及数据挖掘的工作。

可以说我自工作以来一直围绕着数据开展相关工作,包括策略分析、模型、数据产品、风控等。目前在融360也是在更深入的将大数据的技术应用于零售金融的业务流程,通过数据化决策流程辅助信贷业务中获客、转化、反欺诈、审批授信、贷后催收等。

小象工作人员提前收集了一些大家关注的问题,有针对性的我今天会介绍一些在线放款产品目前的挑战和我们一些风控解决方案的案例。另外本群是大数据技术群,所以今天我会介绍一些数据科学家在互联网金融领域做好大数据风控。

目前在线放款产品已经,创业的技术公司在做,BAT在做,传统p2p也在从线下转到线上,银行也在做。对于五花八门的在线放款产品,都是利用互联网降低贷款产品的线下获客运营成本,通过大数据风控作为传统审批的有益补充,但随之而来的欺诈风险在线上环节成倍增加,很多中介及欺诈团伙通过各种方式逐个攻击在线放款产品

而同时所谓的大数据风控能获取的与信用风险强相关的数据又少之又少,大量的弱相关特征没有强大的策略模型团队更无法发挥作用。同时,不使用人行征信数据在线放款产品也只能是做小额,或人行征信无法覆盖的new to credit人群。加上BAT依靠自身用户和数据的优势纷纷切入金融领域,对创业公司形成无法抗衡的压迫

在这种情况下如何找到自身的核心竞争优势,利用数据,完成互联网金融中最核心的风控就是大家最关心的问题。

首先谈谈用户画像,互联网有天然的基础可以获取用户多维度及历史的行为数据,可以通过三方数据接入,抓取,用户授权等方式获取数据。从我们实际的经验来看,这些多维度数据能有效在near prime及sub prime人群的授信中发挥作用

个人认为数据价值从高到低排序,运营商,三方征信数据,信用卡账单、电商,网银,社保等。在这排序里不止要考虑数据对风险用户的区分能力,还要考虑数据的获取成本,用户在授权数据中的流失转化。所以在构建用户画像时就要考虑使用画像数据进行风控建模和产品运营的成本及收益平衡

为什么运营商数据最重要后面谈,对于目前征信平台,确实能在黑名单及身份验证中提供非常重要的价值,同时很多机构也根据自身的数据能力,提供评分服务

有些征信机构也可以提供非常多的用户特征,甚至包括用户的互联网历史行为数据。对这些数据的使用需要有非常好的评测方法和流程,即使是黑名单数据,通过我们的测试最好的准确率也只有40%的水平。如果想有效利用三方征信数据,那么必须修炼放款机构自身的数据分析能力。举例来说,对黑名单数据,如何验证其有效性?至少需要对放款机构自身的审批拒绝、审批通过、正常用户、逾期用户都进行分层抽样,并定义评估指标,对黑名单的触发、准确率、召回率做全面的分析,才能决定一个黑名单接口是否符合上线标准

而往往一家征信机构能提高上百个类似特征,验证这些特征需要更多时间成本,另外上面说的验证只是单特征验证,不管是黑名单数据还是其他特征,还需要在当前线上运行的模型之上进行incremental value的分析。或许某家征信提供的黑名单已经被你自身的反欺诈模型覆盖80%了,这样新增数据就没有更多的价值

前面提到的运营商之所以被我排在第一位是因为其对反欺诈作用很大,而反欺诈又是互金风险管理中最重要的环节。对于欺诈,需要对不同欺诈模式进行细分,再对不同欺诈模式单独找出防控方式,比如对团伙就适合用查重系统和复杂网络分析,对老赖就适合用黑名单多头授信数据,对虚假申请就要做好产品的身份验证及交叉检验。

这些反欺诈方法既有传统风控模式,又有技术创新方法及工具辅助信审识别监控风险用户。

举个例子,这是我们一套校验用户地理位置的系统,审批人员可以获取用户画像中全部的位置信息,包括行为轨迹,单位、家庭、电商交易地址、手机定位等。一些异常的位置行为模式审批可以在电调时进行针对性的问题。

通过类似的数据产品,有效的辅助欺诈识别,在综合运用技术和业务结合的手段发挥互联网金融风控的优势达到产品目标。做个小广告,大家可以关注我厂上线的风控数据产品天机:tianji.rong360.com

这个topic比较大,大家有问题一会可以问答。我再谈谈数据从业者(目前时髦名叫数据科学家[微笑]),如何在互联网金融中发挥价值

对于一个数据科学家来说,领域知识、统计知识、工程能力三者是不可或缺的,三方面能力的培养可以让数据科学家在各个领域中发挥核心作用,在互联网金融中,尤其是从事风控业务的数据科学家,最重要的是对信贷产品和业务问题的理解,以及如何将一个产品业务问题转化为一个数据模型问题,这部分我称之为业务建模能力。

一个合格的数据科学家应该能成功将业务问题转化为数据问题,并综合运用统计技能和计算机能力,可以独立完成策略模型构建以及模型的部署上线。对业务问题的全面思考以及对数据的理解是构建模型的成败关键。

举例来说,在一个在线授信场景中,我们抓取用户的信用卡账单流水数据,账单流水数据中仅有用户的消费时间、消费描述、消费金额,以此信息决定对用户是否审批通过,额度多少,利率多少。

在这个场景中非常重要的一点假设就是通过信用卡交易流水可以体现一个用户的信用价值,构建的模型也是非常标准的申请评分,只是在对消费流水需要进行较复杂的特征工程提炼有价值的信息。我们一个优秀的分析师上来就进行样本筛选、模型设计、数据清洗、特征工程、模型调参等,做了很多次效果一般。这其中就忽略了一个业务问题,分析师仅从消费描述中提炼出逾期、分期、取现、还款等分类,而且仅通过生硬的关键词匹配。

其实不同银行对上述分类的文本描述是差异很大的,后来通过深入业务分析将对不同场景和不同银行的消费描述都进行了映射,并把历史用户的消费描述先构建一个分类模型分成20类,再进行特征工程,模型精度有了很大提升。

机器学习如何在互联网金融中应用?在这个问题之前我觉得首先应该明确一个金融领域模型的观点。Data always beatmodel!选择更好的数据,投放更好的渠道流量永远比模型更重要。

比如消费金融产品中人行的征信信息远远比电商、运营商、账单等数据有效的多,模型的选择对产品价值的贡献已经是很靠后的矛盾点了。

在当前金融领域的策略模型,长时间看一直会存在非常大的技术难点,比如坏样本过少,类严重不平衡,验证周期长,强相关数据不足,可解释性要求高,上线初期冷启动时依赖经验等。同时,由于高额的用户成本,对风控模型要求稳定行和泛化能力,在样本过少的情况下tree base的预测模型更容易不稳定,无法有效在产品中上线。可能简单的积分卡或层次分析等专家经验短时间已经足够,无需养一个成本很高的数据挖掘团队

但机器学习模型同样是不可或缺的,比如上面例子提到的文本分类,比如通过无监督或半监督的模型识别欺诈,通过network analysis识别团伙欺诈,比如通过GBDT发现复杂的高风险特征进行测量拒绝,比如通过关联规则发现访问行为中的异常模式等。这些方面都可以有效的利用好已知数据更好的辅助风控。

总的来说,想要在互联网金融中做风控,既是一门技术活也是一门艺术,和大家共勉。

➤➤➤问答环节:

:有没有结合非结构化数据来搞?比如图像文本这些非结构数据现在用的比较多的是文本,图像也有用mxnet等玩玩,但对风控没有明确业务点,倒是破码时会用到。之前我们尝试过语音解析在审批中的使用

:外部数据提供服务稳定性上都有一定的不可控因素,在技术架构设计上有没有特殊安排?外部数据服务是很坑的一件事,要做好服务的日志监控,同时最担心的是外部数据的更新逻辑和有效性发生迁移,很可能出现花了钱确没用,还把好客户给拒绝了

:互金公司在第三方数据获取方面基本是对等的,那风控这块相互之间比拼的是对数据的理解和建模能力么?
DV张云松融360:
我理解是综合的产品能力,同样一个团队在不同公司用同样的数据可能效果都不一样,每家都有不同的核心竞争力,数据、产品、渠道、流量、技术、团队甚至资金

 

问:是直接与相应公司合作还是有专门的数据供应商?央行首批准入了8家个人征信机构,市场上还有很多类征信机构都提供数据服务

问:文本挖掘现在用的什么工具
text mining有很多算法,主要时间还是话费在词和标注上

问:老师请说一下network ananlysis在数据比较有限情况下怎么操作吧只有申请信息和人行信息没有交易信息哪些联系在反欺诈时候有显著作用?
申请信息和人行信息已经能非常有效的交叉检验了,很多卡中心的申请欺诈模型就是通过模糊匹配挖掘特征,对比的就是申请 jian上的信息和人行信息,目前人行信息的采集准确度和覆盖度比之前都强大许多

问:请问你们如何获取的位置数据?
运营商数据可以接我厂的,覆盖电信、联通及部分移动:)商务注明后私聊

问:比如一个很简单的刷单场景用户购买大量阿里通信小号但是确实存在很多正常的用户也是使用阿里小号的?

刷单反欺诈是一个综合业务场景,和信贷不一样,要考虑用户体验,所以在准确和召回的阈值上就要进行不同标准的选择,在刷单场景下,外部特殊名单和设备指纹会有效辅助异常账号识别。三方数据很重要

问:但是安卓苹果手机存在一个问题就是设备id用户是可以修改的. 这个怎么办呢?比如用户可以修改imei信息不只修改imei,还有五花八门的安卓模拟器,这种就需要有完善的数据监控可视化,对异常数据通过关联分析研究模式再制定策略,或分析欺诈行为模式

问:Mr.yu:
对于用户修改设备信息的有什么好的手段呢老Qu:
例子应该不太方便说吧
Mr.yu:
而且这种刷单的用户还有一个特点一个手机账户他基本只用一次,获得了新人优惠后他就把这个号丢弃了真真:
修改设备信息要识别是要从设备指纹的维度去做如果现阶段在技术无法实现建议去找三方专业的设备指纹识别技术
STEVEN_LEE:
这个是两个概念吧
Mr.yu:
如果依靠人工审核,有可能人工还没审核完,他已经完成线上下单的操作了在app里置入设备指纹,有专门的技术提供商,在pc和mobile上设备指纹方法不一样。当然我们的目标是干掉初级骗子,争取挡住中级骗子,提高高级骗子的成本到他不愿意跟你玩

问:目前的数据很多都是非常不平衡的,这种要怎么解决?技术选择应该根据业务规划走,有些场景可能就不是一套数据规划,同时多种存储和数据流数据都并存

谢磊 22:22
刷单这种可以电话呼叫播放验证码,很多刷单的号码都是进入冷冻期不能打电话但可以接短信的

问:目前国内市场利用数据来判断识别信用贷款类识别准确率大概是什么样的情况?张老师有相关的数据吗?或者张老师的公司目前是什么样的情况?还是我分享的观点,业务是最重要的,所以单一某个模型准确率没有任何意义,在不同人群不同产品上策略模型评估的阈值是不一样的

问:老师您们实现模糊地址匹配的工具是啥呀需要有非常大的基础库,偷懒的方式可以通过baidu api转换

问:风控系统会侵入代码到业务系统中吗?不会,风控服务一般都独立的

➤➤➤下期预告:我们将在年后邀请hulu的大数据技术专家董西成先生与大家分享求职面试方面的话题,敬请关注。


    关注 大数据分析挖掘


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册