大数据微课  刘忠奎爱财帮直播课全内容

 

100%纯纯的干货点我点我点我...



▲ 点击上方关注我们! 

昨晚大数据讲堂直播群里的微课听得可还过瘾?爱钱帮首席风控官刘忠奎对于场景化金融的风险管理建模的深入讲解分析是不是超级精彩。有很多朋友遗憾错过了直播。没关系!万能的小编来啦!小编特地精心整理的昨天直播课的全部对话内容!赶紧马起来。先分享,再往下看!!!

大家好,我是互联网金融平台“爱钱帮”的风险管理部总监刘忠奎,非常高兴有机会能和大家分享风险管理实践中的一点经验和心得。

首先介绍一下“爱钱帮”,平台是在2014年初上线,盛大资本参与投资,截至目前,开发运营了多个基于清晰场景的创新金融产品和服务,其中包括供应链金融产品“海鲜帮”,游戏分期产品“闪垫侠”,房租分期产品“房租融“,影视娱乐产品“娱乐帮”,及基于房产抵押交易和汽车质押租赁等场景的“爱房贷”和“爱车贷”等产品。

谈到场景化金融的风险管理,那么首先应该聊一下所谓的“场景”。任何一个基本的场景中都包括借款人、用款方向(实物产品或服务)、资金流和物流这几个基本要素。其中,借款人可能是自然人或法人单位的形态;用款方向是用来购买实物产品或服务;资金流和物流是否能形成闭环或半闭环。

在一个完整的风险管理体系中,第一步是要明确准入和禁入政策,而一个清晰的场景,天然就起到了反欺诈的效果,从而明确了哪些借款人是我们要的。此外,一个明确的消费场景,也在一定程度上核实了真实的用款方向。同时,通过代收代付等方式,使借款人拿不到现金,通过物流配送(实物产品),拉长(服务)期限等手段,使产品的原生性风险降到最低。

在选择建模的维度时,我们主要从六个大的维度来选取数据,首先是借款人的自然(人口)属性,这部分的数据维度相对固定,原始数据也比较容易获取;第二个维度是信用属性,会需要一些外部数据源;第三个维度是消费特征,是一个与还款能力和还款来源强关联的维度;第四个维度是通讯数据。以上四个维度中的数据都是强关联变量。同时辅以社交属性和场景特征维度两部分弱关联变量。这六个大的维度构成打分评分模型的全部变量。

原始数据的获取有两种方式,内生数据和外部购买。场景化金融的好处在于,一些强关联变量数据可以低成本的得到。如借款人的信用属性类的数据包括历史成交记录,支付记录、业内评价等。同时在数据的选取、检测、清洗、合并的过程中会衍生出一些与还款意愿产生关联的派生数据。在外购数据层面,我们更看重数据源的稳定性和获取条件,毕竟要兼顾到反应速度和响应时间,同时,也不能影响打分模型的稳定性。

打分模型我们采用逻辑回归技术建模,将模型转化为评分卡形式,对于统计学背景的数据人员在熟悉不过了。但我们在不同的场景下,评分卡会用于解决不同的商业目的。举例来说,在车辆质押产品方面,主要用来做风险定价。而在房租分期产品中,则用来做是否放款的依据。

对于借贷生意来讲,放款只是流程的第一步,在正常还款前,如何动态监控并预警,则需要建立一个稳定性(惯性)模型,这其中和打分模型中的变量有些相同,有些会有变化。爱钱帮整个风险管理体系主要由反欺诈数据比对,评分授信模型、稳定性模型、不良资产处置模型构成。

催收模型本质上是个不良资产处置计划的数据模型呈现,主要是在产品出现逾期和坏账阶段时通过数据分析和预测来精确计算处置成本和可能的损失,进行现金流管理。在我们的模型中,坏账和逾期等级的认定规则可根据场景和产品的不同进行调整,并向第三方催收机构开放接口。



听众: 你们的大数据架构是怎样的,技术选型呢?在刚开始缺少数据的情况下,怎么建立风控模型呢?

刘忠奎爱财帮:有些维度要主观选择。然后再用后续数据做经验型验证 

听众:请问你们大数据架构是如何选型的? 国内现在互金在机器学习建模方面是还处于摸索阶段吧?有什么成功案例可以参考吗?或者建议?

刘忠奎爱财帮:相对成熟的还是用SAS或R。机器学习在实际应用中没听到有成熟的例子。我指在风险管理领域。 

听众:但是R建模怎么与开发沟通呢,要把R中建好的模型在系统设计中体现出来还是有一定难度吧,比如神经网络?可以给一点建议吗

听众2:最关键还是数据获取吧

听众3:请问怎么抓取数据啊,比如我想获取工商局的企业信息,现在网上能提供查询,但是我想全量抓取

听众4:用爬虫吧

刘忠奎爱财帮:是的,我们目前建模用的工具是SAS 

听众: 用R或者SAS,如果只是简单的回归,或者决策树,kmeans我觉得还是很好处理的,但是复杂的模型就需要开发配合建模,难道要把数学公式推到过程都用java表示出来吗?

刘忠奎爱财帮:打分表出来后只把结果给程序 

听众:能透露一下是那种类型的模型吗[偷笑]

刘忠奎爱财帮:我们还是用回归 

听众: 哦哦那我就理解了,这样的话确实可以做

刘忠奎爱财帮:工商的数据目前是外采 

听众:我们在风险管理中会考虑信用风险的问题吗?如果考虑具体会采用哪些方法进行度量?

听众:前面列举的那些问题能先回答了吗

刘忠奎爱财帮:请问信用属性是从哪里购买? 打分模型和维度怎么关联?用打分来权重维度? 社交属性是通过采集获取吗? 打分模型是针对借贷前进行信用评分吗?在使用逻辑回归时,要考虑哪些关键属性? 通讯数据怎么获取?不涉及隐私吗 请问爱钱帮的主要评分指标有哪些?不同的应用场景指标都一样吗?谢谢 什么是供应链金融产品 逻辑回归是监督学习方法,带标签的训练集怎么获取的? 用户借款的时候需要提供哪些信息?因为你们毕竟不像淘宝,用户数据已经沉淀了很多年。 另外你们比蚂蚁花呗的优势何在 我们在风险管理中会考虑信用风险的问题吗?如果考虑具体会采用哪些方法进行度量? 请问,逾期罚息上有什么讲究吗?罚息会不会一定程度上加大了坏账率呢? 

听众:老师能具体点麽,怎么外采啊

刘忠奎爱财帮:我们目前外接了20多个数据源 。一部分是付费的 

听众:20多个数据源是指的征信吗?

刘忠奎爱财帮:比如信用属性中的司法涉诉部分就是付费购买的数据源。我们只购买原始数据 

听众:这些原始数据去哪儿买呢

刘忠奎爱财帮:加工过的数据目前不外采 

听众:我想问一下,sas做出模型后,这个模型怎么工程化的?有用其它程序来写吗? 还有老师能讲一下如果是识别用户身份,你们采用的原始数据大概考虑那几个方面呢?

刘忠奎爱财帮:简单的话把结果做成打分表由,程序写一下就行。

听众:数据源不自己采集或者用网络爬虫爬取吗?

刘忠奎爱财帮:用户身份验证涉及到反欺诈和黑名单数据库验证和设备标记技术 

听众:那这些是征信还是原始数据呢,黑名单只有靠征信吧?

刘忠奎爱财帮:数据源我们自己业务会采集一部分。爬虫爬不太稳定 

听众:不太稳定是指准确度吗

刘忠奎爱财帮:对,准确度不稳定或被封IP。目前数据获取主要有自采、购买和交换三部分。

刘忠奎爱财帮:打分模型和维度怎么关联?用打分来权重维度? 社交属性是通过采集获取吗? 

刘忠奎爱财帮:初期模型的权重要经验来拍,之后再用数据不断做验证 

刘忠奎爱财帮:同样,社交属性的数据也是以上三种获取途径都有 

刘忠奎爱财帮:打分模型是针对借贷前进行信用评分吗?在使用逻辑回归时,要考虑哪些关键属性? 通讯数据怎么获取?不涉及隐私吗 请问爱钱帮的主要评分指标有哪些?不同的应用场景指标都一样吗?谢谢。什么是供应链金融产品?

听众:老师问一下,你们在数据源获取或者征信方面的成本高吗?

刘忠奎爱财帮:还行,利润目前能覆盖。如果不在场景下做成本就比较高 

听众:能量化一下吗,大概占总成本的多少呢[偷笑]

刘忠奎爱财帮:打分卡主要应用在贷前决策和风险定价方面

听众:请教如果面对没有信用记录的对象做信贷评估呢?

听众2: 打分卡是什么?Z值模型吗?

听众3:如何对没有信用记录的对象做信贷评估呢?

听众4:都有。分别怎么处理?

刘忠奎爱财帮:您指的没有信用记录是在我们平台上还是人行征信 

听众22:23 主要是后者

刘忠奎爱财帮:没有人行征信的用户通常是没有贷款或信用卡是吗? 

听众:是

刘忠奎爱财帮:这种情况很少 

听众:那如果遇到这种用户会放弃吗?

刘忠奎爱财帮:通常我们会拿到他的其他弱相关数据维度。来做补充验证 

听众:比方说?

刘忠奎爱财帮:消费类数据 

听众:你们从购买过的数据里主要用什么算法

刘忠奎爱财帮:电商的 

刘忠奎爱财帮:目前谈不到算法,主要是定规则

听众:靠谱,,,社交的算嘛

刘忠奎爱财帮:要看什么类型的社交数据。太弱相关的变量没意义 

听众:电商的数据也可以买吗

刘忠奎爱财帮:需要借款人授权查询 

刘忠奎爱财帮:合法的 

刘忠奎爱财帮:



听众:那你们借款,借款人需要提供什么材料?跟电商先谈好查询接口么 ?

听众2:假设一种场景,一个未成年的初中生用妈妈的信用卡消费,并产生了借贷行为,系统能识别这种情况吗?是否规避?或者就把这个初中生当妈妈来判定?

刘忠奎爱财帮:不同场景下的借款人会提供不同的材料 

刘忠奎爱财帮:借款人实名验证时就可规避 

听众:但是怎么知道实名验证是否准确呢 ?通过手机短信验证?

听众2:网上的实名验证很好作假吧

听众3:外部数据能起到多大作用

刘忠奎爱财帮:我们目前都做场景下的借贷,借款人拿不到现金 

听众 :什么是场景下的借款? 比如买车?租房?

听众2:你们分期支付给商户来规避风险么

听众:3:拿到的是?实物,服务?

刘忠奎爱财帮:举例来说,闪垫侠应用在手游支付的场景 

刘忠奎爱财帮:购买道具。就是不直接打款给借款人,就帮他开通服务或者买东西对吧 

听众:那一个痴迷游戏的是不是风险比较高呀

刘忠奎爱财帮:可以理解为待收代付 

听众:手游能消费几个钱

刘忠奎爱财帮:他的服务会选择在某个时点开通 

听众:难道没有几百块钱买点卡

刘忠奎爱财帮:端游风险太大 

听众:主要可能游戏痴迷没有正常工作

听众2:感觉市场容量极小

听众3:现在p2p是都在向场景下借款发展的趋势吗

刘忠奎爱财帮:用户比较多 

刘忠奎爱财帮:主要是支付便捷 

听众:靠基数呀

听众2:是不是小额信贷验证比大额信贷验证要宽松?

刘忠奎爱财帮:游戏已经是85后人群账单的常规支出项。也不一定,但不能做的太重 

听众:那你们的产品和信用卡分期比,相同账期哪个优惠呀?

听众2:我觉得实名验证是互联网小贷业务的硬伤,很多平台根本验证不了啊

刘忠奎爱财帮:利率差不多,但这个是嵌在场景中的,支付体验较好 

刘忠奎爱财帮:实名验证很容易,但欺诈风险的确较大 

听众:嗯就是防欺诈太难

刘忠奎爱财帮:如冒用身份 

刘忠奎爱财帮:因此要几个维度交叉验证 

听众:比如说呢?现在85后的小额融资渠道渠道好像蛮多的,买零食买衣服租房买车买游戏道具都是债,还都是不同公司做的,比如老师您贵司,现在有办法了解客户在其他公司的负债和偿还情况吗?

刘忠奎爱财帮:身份证号、手机、绑定银行卡、 

听众:那这系统准确率多少呀

刘忠奎爱财帮:您说的是多头授信 

听众:恩 综合起来

刘忠奎爱财帮:尤其其他借款不是通过银行借款 

听众:计算机判定的

刘忠奎爱财帮:目前业内有一些解决方案,我们也在参与在用。我们的模型中通讯数据中也可交叉验证 

刘忠奎爱财帮:





听众:嗯,对的,这个叫多头授信啊,学习了。你们应该有一定的内部信息共享平台吧?像房产中介公司那样。还有每个用户的平均成本大概多少呀

刘忠奎爱财帮:您指的是风控成本? 

听众:银行,电商,教育,通讯……征信成本

END
分享到朋友圈,和小伙伴们一起分析吐槽
大数据分析挖掘原创作品,欢迎大家疯狂转发
 机构、自媒体平台转载务必至后台留言,申请版权


    关注 大数据分析挖掘


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册