如何学习风控?我的知识架构
不少初入门风控的人可能会有些疑惑,如果想更深层地学习风控的相关知识,应该怎么做?如何才能更好地理解风控的底层逻辑?本篇文章里,作者尝试结合自身经验,分享了他有关风控学习知识体系搭建的部分经验,一起来看一下。
写这篇文章是因为一直以来都有一些朋友问我,怎么学风控。
- “最近刚开始学习下风控方面的知识,但是对其中的一些原理不是特别懂,请问有什么好的建议?”
- “我是商科背景的,想转行做数据风控,想咨询一些入行经验?”
- “我是运营岗,一直想转去做大数据风控,但是找那些资料看总不知道到底在干嘛,无法入门怎么办?”
这种问题每次都让我敲字无力,不知道怎么回答。
我知道我写的这些文章从来不是为了风控入门服务的,想入门风控的朋友最需要的是现成的工具,是标准化的流程和代码,我都没有展开写。
我的目标从来不是写一些东西,供读者朋友们 ctrl+c、ctrl+v,而是希望有人阅读的过程中发现自己在思考,哪怕就那么一会儿。
我觉得学习最有效的阶段是,建立了基础认知之后,往知识架构里添砖加瓦查漏补缺的时候。从 0 到 1 太难了,从 1 到 10 没那么难。
对风控感兴趣,想从 0 开始学的人,我的经验文章可能并没有什么用,那我试试写一篇基础逻辑,看看能不能让这些朋友们看到骨架。
一、风控的范围很大
只要有交易就有风险。想想别人找你借钱时你的心路历程吧,可太怕了。人都不喜欢和自己不了解的人交朋友,更不喜欢和不知道的人做交易。
“有内鬼,终止交易”。内部人尚且如此,陌生人不能不防。
互联网业务中你从来不知道你服务的对象是什么人,它天然就需要做风控。ToB 的业务如果是大客户,你可能还会线下有过往来接触,ToC 的根本就不可能。
可以说互联网的业务有多大,风控的范围就有多大。
以我在的互联网金融业务为例,业务上肯定希望吸引更多的用户,给更多的人授信,提供更高的额度,最后又能有更低的逾期,从而有最大的收益。但规模要大,就要下沉,额度高的,风险又更高。风控就是要在各个环节上,例如,市场营销—>申请审批—>账户管理—>催收处置等,把高风险用户识别出来特殊对待。
不仅信贷,营销活动要拦截“羊毛党”,刷单控评的行为要拦截,黄牛党也要防控,垃圾注册刷访问、关注的要防控,就现在这篇文章,也要被检测看看符不符合原创,有没有涉政、涉黑、涉黄。无所不包。
二、个体不重要,群体才重要
做风控的目标不是为了 0 风险。你不能把所有存在风险的客户都拒绝掉,你也做不到这一点,因为每个人每笔交易都存在风险,程度问题。
你不能说一个芝麻分 600 分的人,比一个 800 分的人差,个体符合测不准原理。但是你可以说,六百多分的这群人没有八百多分的那群人好,这是对的,群体是测得准的。
风控不关注个体,1w 个人申请,你通过了 3k 人,不是说这 3k 里的每个人都是会准时还款的。实际上是,你把这 1w 人按风险排序分成 10 组,每个群组里计算收益率,风险排序足够好的话,这 10 组的收益率是单调的,收益率为 0 作为分界线,你取出了其中前 3 组。实操中,不必真的算收益率,逾期率好算的多,也不必用 0 作为分界线,取一个业务上合理的阈值就可以了。
你从来没有关注过个体,而这却是对的。
所以你常常会见过,风控把一些正常行为拦截了,例如反复让你校验验证码、刷脸失败、交易被拒绝、投保被拒等。
三、最重要的是数据
主流银行贷款是需要提供很多很多信息的,在哪工作、收入、学历、家庭情况、征信记录等等,银行对你的了解比你的亲朋好友还多得多。如果你有贷款买房经历就知道了。
移动互联网改变了世界。你的客户是不是人你都说不准,你的客户就是数据。y=f(x),你只有 x,没有 y。
那么你需要什么数据呢?你想知道一个人会不会还钱,显然需要知道他想不想还钱,需要知道他有没有能力还钱。
离这些信息越近的数据越有效。而几乎所有的数据都是有效的,又一个程度问题。收入高不高、学历怎么样、安装了哪些 app、跟什么人通话,等等,几乎一切都有用。
我们不需要 y 标识每个人,我们不是用 X 来预测用户的身份证号,我们只需要评估一个人会不会还钱。
四、因果关系很难,但相关关系很容易
上面随意列出的数据,你都不敢说因为怎么样所以怎么样。这个人收入很高,所以不会逾期,这个逻辑如果是对的,那高收的人都要通过,低收的人都要拒绝。是收入高的这群人,整体风险偏低。
前者说的是因果关系,后者是相关关系。我们从来不能很好地解释,这群人逾期的原因是什么。我们擅长计算,这群人具备这些特性,他们的逾期水平比较高。
用数据去定义一个人,尤其是移动互联网时代,用海量的数据去定义一个人,我们找的是相关关系。数据维度非常多,数据分布非常稀疏,但因为你找的是一个相关关系,问题就变得可解,或者说容易解。
1000 个相关变量找出来的风险度量,就很可靠,不容易被攻击。而不是捏造一个高收数据,就可以获得一笔贷款。
世界上不是所有有道理的事情都是因果关系的。
五、策略模型的工作其实很简单
选择一批样本,也就是历史用户,定义出他们的好坏标签,也就是打上 label,关联到他们的数据信息,也就是匹配特征,选用一个成熟的算法,也就是 xgb,训练一个模型,输出一个概率对用户进行排序。建模工作就完成了。
图像分类的经典问题猫狗识别,是识别一张图片是猫是狗,我们也是用一个人的数据信息,识别一些东西。当然,我们不是识别是人非人,而是识别是不是一个“好人”。
应用时,获取用户申请时的那些数据信息,用训练得到的模型,计算出用户的风险概率,参考历史用户的风险水平,做出拒绝还是通过的决策。这就是策略应用了。
模型开发时我们总在关心模型效果,但当模型开发完后,最重要的是稳定性。没有策略会盯着模型分的变动反复调整阈值的。有问题的信息千万不要用。监控一切容易,响应一切难。
简而言之,言而简之,风控就是用你能拿到的信息综合计算出一个风险度量。
所以风控的这些工作,无非是去拿信息、去加工信息、去计算风险、去找到一个尽可能优的方程式。
六、结语
最好情况是到这儿时,你发现风控就是这么回事了,然后你会去想:
- y 需要怎么定义呢;
- 能接入哪些数据呢;
- 风控模型怎么建呢;
- 有哪些模型要建呢;
- 策略又怎么制定呢;
- 什么时候做风控呢;
- ……
等等。而这些,其实,我都已经写过了。
知识体系的构建,就跟盖房子是一样的,框架形成后,往里面填充必备的组件,忽然就变得容易又可控。
希望上面的一些逻辑思考,能给一些朋友一点启发。当然了,我自己也是小白,认知不可能全面,互相学习而已。
专栏作家
雷帅,微信公众号:雷帅快与慢,人人都是产品经理专栏作家。风控算法工程师,懂点风控、懂点业务、懂点人生。始终相信经验让工作更简单,继而发现风控让人生更自由。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!