漫话申请评分卡开发样本量

样本量的确定是评分卡开发非常重要的一步。笔者过去从事宏观经济模型开发时,由于受到时间限制,~个样本是最常见的(10年到20年的月度数据),而能达到~个样本(30~40年的月度数据)的场景,那几乎是模型开发者的最大福利了。那么,申请评分卡建模,采集多大的样本量最为适当?有的人说~就可以了,也有的人说至少1万的样本量才能保证稳定性?作为咨询顾问,当面对客户针对样本量提问时,如果不能说出一个相对准确的样本量,就好像你的模型开发经验不足,而可能受到客户的质疑。今天,我们就来聊聊样本量确定的问题。

评分卡开发所需的样本量不能一概而论,根据评分卡所针对的业务场景、产品属性、客群特征、风险偏好的不同,需要样本量也会不同。从统计学的理论角度看,影响评分卡建模样本量的因素可以分为三个方面:一是,样本的代表性;二是,样本变异程度;三是,模型估计想要达到精度。下面我们具体说明上述三个方面如何影响建模的样本量。

样本代表性:白天鹅与黑天鹅

如大家所熟知的“黑天鹅事件”,17世纪之前的欧洲人认为天鹅都是白色的。彼时,在欧洲没有人见过黑天鹅,“所有的天鹅都是白的”就成了一个没有人怀疑的事实;一直到欧洲人在澳大利亚发现黑天鹅,欧洲人的看法因此一百八十度翻转,黑天鹅也变成了不吉利的象征。如果用统计语言描述上面的故事,我们可以这样说,17世纪之前天鹅是白色的概率恒等于1,但是在澳大利亚发现黑天鹅之后,天鹅是白色的概率就要小于1,或者更具体一点我们假设黑天鹅大致占到人类所发现天鹅总数的20%,那么天鹅是白色的概率就降低到了0.8。

反过来,如果我们想要估计白天鹅占所有天鹅的比例,首要的问题就是要选定总体,即样本从哪里来。显然,如果我们和17世纪之前的欧洲人一样,将总体限定在了欧洲范围内,那么没有人会怀疑,无论我们怎样进行抽样方案的设计,我们最终估计的结果都是白天鹅占所有天鹅的比例为%。这个结果显然高估了白天鹅的比例,一旦我们考虑了澳大利亚的黑天鹅,我们对白天鹅比例估计结果势必会远低于初始的%。我们的模型估计方法有变化吗?没有变化,仅仅是样本的代表性就严重影响到了模型泛化能力。因此,模型开发的样本是否有代表性,对我们最终模型的泛化能力有着重要的影响,而不是仅仅模型训练、调参的技能影响模型泛化能力。在确保样本代表性的情况下,模型开发所需要的样本量将大幅降低,而并不会影响模型开发的效果;相反如果不能确定样本代表性的情况下,只能寄希望于增加样本量来保证模型开发的效果,但“黑天鹅事件”告诉我们,单纯的增加样本量可能是徒劳的。

在模型开发实践中,缺乏经验的模型开发人员往往会认为拿到了全部样本,就具有代表性。这种简单粗暴的样本设计,往往并不能保证样本的代表性,我们还需要对样本进行进一步的分析和挑选:比如,信用卡场景的申请评分卡开发中,最简单的样本设计逻辑会剔除未来不会经过评分卡评估的VIP客户群体;而更复杂的样本设计,会详细分析各个历史时期不同的营销策略、风险偏好、审批条件下的进件及其贷后表现,以确定将哪些样本为模型开发样本。

样本变异程度:质量一致的大米更容易挑选

日常生活中,我们经常自觉不自觉地用到抽样思想。举个例子,我们去购买大米时,怎么确定大米的品质?我相信没有人会闲来无事把所有的米粒都评估一遍,一般都是抓一把米粒,看看这一把米粒的大小、光泽度、饱和度(特征),很少有人再抓第二把。基本上我们会认为抓的这一把米粒(样本)的质量就代表了全部大米(总体)的质量。之所以我们能够对总体做出这样的推断,这里暗含着两个假设:一是,不同的米粒呈现随机分布,即“好”米粒、“坏”米粒是均匀的混杂在一起的,不会出现“黑天鹅”现象。二是,米粒的变异程度很低,即每个米粒的大小、光泽度等特征都几乎都一样。

第一个假设我们在前面已经讨论过。这里讨论第二个假设,若第二个假设不满足,即是本部分所强调的样本变异性。如果抓一把米粒的特征差异较大,那我们会认为一把米粒提供的信息还不足以使我们做出准确的判断,往往会尝试再多抓几把(增加样本量),进一步确定大米的整体质量情况。因此,样本的变异程度越大,需要的样本量就越多。

根据行业申请评分卡模型开发经验,信用卡场景的客群样本变异程度相对较低,各类消费分期场景的客群次之,现金贷场景客群的样本变异程度是最大的。按照前述的逻辑,信用卡场景的申请评分卡相对来讲需要的样本量应该是最少的,现金贷场景的申请评分卡需要的样本量最大。但在我们的项目实践中,常常会发现,若以信用卡和现金贷两类业务举例,受各自发展成熟度、受众覆盖面、样本累积程度、风险表现、不同机构业务战略战术不同,甚至时机的选择,信用卡场景的开发样本量通常远远超过保证模型效果的最低样本量;而现金贷场景的样本量样本不足的情况比较常见,这很大程度上导致信用卡场景的申请评分卡开发效果通常比现金贷场景的稳定的多。因此,从这个角度来看,针对现金贷场景,如果历史样本积累有限的情况下,我们更愿意推荐使用通用评分模型作为申请评分卡,因为通用评分模型的开发通常基于更大的样本量;而信用卡场景由于样本充足,更适合开发定制化模型;消费分期场景须要基于业务场景和样本情况的评估有针对性的确定。

模型估计想要达到的精度:

判断得越准,所需样本量越多

目前,模型开发的逻辑都是以样本(历史)来推断总体(未来)。根据统计学的基本理论,样本越多抽样误差就越小,模型估计也就越准确。但是,样本增加到一定水平之后,对模型估计准确性的提升也就变得相当有限了。在均值估计中,这个数量大致在30个样本左右,这也是统计学背景的同学很熟悉的大样本标准。在信用风险模型开发实践中,我们很少基于模型准确性去评估所需样本的数量,这是因为我们的建模样本在满足了样本代表性和样本变异性的前提下所确定的样本,都会远远高于模型精度所需要的样本量。

回到最开始的问题,在实践中多少样本量适合开发模型呢?根据上述介绍,我们不难发现,模型开发样本的代表性、模型开发业务场景中借款人特征的变异程度,都会影响模型开发所必须的样本量。美国学者Altman在最初发表z-score模型时,所用样本也仅为66个样本。因此,几百个样本,0个样本,1万个样本都可能满足模型开发所需,具体需要多少样本能保证开发质量,需要根据业务场景、客群特点、风险属性、数据情况有针对性的确定,而不能一概而论。

讲到这里,各位看官如果还是希望估算一个大致的建模样本量,这里借用一个在医学统计领域常用的经验法则,即保证EPV至少大于10。其中,EPV是指每个自变量所需要的事件数,在风险管理领域,就是违约样本的数量除以自变量的个数。比如,对于违约概率2%的一个建模场景,如果最终我们希望模型变量在10个以内,那么我们需要违约样本数量为10*EPV,即个违约样本,再按照违约概率折算我们总计需要0个样本。此外,如果采用机器学习进行模型开发,那么由于最终入模的变量较多,从而会需要更多的样本量,来保证模型开发的质量。

作者简介:

姚雪丹同盾科技分析咨询总监

(曾在中国人民银行任职11年)

预览时标签不可点收录于合集#个上一篇下一篇
转载请注明地址:http://www.1xbbk.net/jwbrc/737.html


  • 上一篇文章:
  • 下一篇文章:
  • 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权声明
    冀ICP备19027023号-7