如何谨慎地评估一个数据源

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

并步跳步交叉步

2022-11-23

0 评论 3520 浏览 8 收藏

12 分钟

对于金融机构而言，流量和风控决定利润，而数据质量是风控核心。为提升风控水平，会引入第三方数据源。本文从线下数据测试与线上模拟测试两个流程，介绍如何谨慎地评估一个数据源，一起来看一下吧。

一、概述：

对于金融机构而言，流量和风控决定利润，而数据质量是风控核心。为提升风控水平，会引入三方数据源，一般都会思考两个方面：数据能否用，数据如何用。本篇文章会从线下数据测试与线上模拟测试两个流程介绍如何谨慎地评估一个数据源。通常情况下：

优化现有的模型，一般会考虑接入变量类和原始数据类；
用来设计策略，一般会接入黑名单类，评分类的数据或者变量类；
丰富用户画像的维度，这种数据能反映用户的某些属性，一般考虑原始数据类。

二、常用指标说明

1. 覆盖率

覆盖率是考量数据覆盖程度的指标，又叫查得率。根据业务情况和数据的应用场景，确定数据覆盖程度的需求，覆盖率越高越好。

2. 有效性

分析单变量的KS 、GINI、IV 值、趋势。同时，还要考量数据的可解释性和趋势的稳定性。

1）KS

用以评估对好、坏客户的判别区分能力，计算累计坏客户与累计好客户百分比的最大差距。KS值范围在0%-100%，评分类的变量，一般要求ks>20%，变量类的数据一般要求ks>10%。

2）GINI系数

也是用于模型风险区分能力进行评估。GINI统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积，好账户与坏账户分布之间的差异越大，GINI指标越高，表明风险区分能力越强。

3）IV 值

信息价值，用来表示特征对目标预测的贡献程度，即特征的预测能力，一般来说，IV值越高，该特征的预测能力越强，信息贡献程度越高。

3. 稳定性

无论是评分类还是变量类的数据源，都需要评估稳定性。稳定性的评估是需要参照了，一般使用PSI指标，对比预期分布与实际分布的差异。

当特征变化过于剧烈时，并不是一定确定该数据源/特征不使用，而是要先去了解变化产生的原因。

4. 共线性

共线性又叫做多重共线性，是指自变量之间存在较强的，甚至完全的线性相关关系。当自变量之间存在共线性时，模型的参数会变得极其不稳定，模型的预测能力会下降。

许多第三方的数据衍生逻辑都是笛卡尔积遍历所有组合的可能。因此，在建模前期变量的筛选环节，就需要采取有效措施避免共线性问题。容忍度（Tolerance）、方差膨胀因子（Variance inflation factor, VIF）、特征根（Eigenvalue）、条件指数（Condition Idex）等，都是考察手段。