手把手教你如何帮皇上选妃

 

一般来讲, 咨询公司为商业银行搭建统计评分卡模型,选取的编程语言大多是SAS语言。虽然SAS语言上手较难,但仍然成为了广为接受的行业标准。这很大程度归功于SAS语言背后,有SAS公司提供很完备的产品方案和售后服务。...



转自公众号:Frank和风险模型们

回复「朝阳35处」可查看「说人话的大数据」系列合辑

选妃前必知必会!
一般来讲, 咨询公司为商业银行搭建统计评分卡模型,选取的编程语言大多是SAS语言。虽然SAS语言上手较难,但仍然成为了广为接受的行业标准。这很大程度归功于SAS语言背后,有SAS公司 (SAS Institute)提供很完备的产品方案和售后服务。

而对于个人用户, 要想搭建一个评分卡模型,会更多考虑搭建开发环境的容易度、统计包或库的获取的容易程度(accessablity)、代码风格等。开源易懂的R语言自然会成为个人用户小试牛刀的首选。大家可以去官方网站 https://www.r-project.org/ 下载最新版的R语言。在下载完成后,我推荐大家再下载一下同一非常好用而且对个人用户免费的R语言的IDE—Rstudio进行编程。在这篇文章中,数据可视化主要用的是R中的ggplot2包, ggplot2是是一个强大的作图工具,按图层作图的理念可以让你不受现有图形类型的限制。其他在数据清理、模型建构的过程中也使用了caret、smbinning、WOE等包。这些由大牛们开发的统计包,简单易用,文档详细,让数据分析门槛大幅降低;这也是R语言风靡世界的原因。

另外,根据老司机深厚建模经验,发现评分卡建模和古代皇帝选妃非常相似,这篇文章我会试着双线并行,在和大家讨论圣上如何选妃的过程中,顺便建一下模型。

选谁做妃子?
在很久很久以前,有一个刚刚即位后的皇上,他想扩充后宫的规模,但对怎么开始这个浩大的工程并没有什么头绪,于是皇上就告诉了身边的小李子。
机灵的小李子马上问到 :“皇上,你喜欢什么样子的女子?”。

皇上想了许久,回答说:

“我喜欢德国的”。

“。。。”

哈哈,我们用来练手的数据就是打分卡建模中大名鼎鼎的德国信贷数据(German credit dataset)。德国信贷数据下载源请见文末的reference。

德国信贷数据共有1000条数据,每条数据20个特征。这些特征包括AccountBalance(Checking账户余额)、Duration (Duration of Credit in month 借款期限)、Paymentstatus(还款记录)等。 其中比较难以理解的指标是Instalmentpercent,其代表着 Installment rate in percentage of disposable income (分期付款占可支配收入的百分比)。我推荐大家去访问UCI的网站(见文末)详细了解一下具体变量的经济意义;因为打分卡模型最重要的就是其 “白箱模型” 的性质,可以让人们直观了解各种变量对于评分人的影响程度。
模型指标汇总


数据集中需要预测的指标是(response variable)Creditability变量, 其中 1代表会还本付息的好客户,0 则是代表违约的坏客户。

以下是载入数据及训练集划分部分的R代码,我们调取了caret包,不要忘记要先下载后调用:

library(caret)

train1


    关注 SAS中文论坛


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册