从事大数据征信行业,你必须知道这些

7 评论 25323 浏览 105 收藏 11 分钟

如题,若你从事大数据征信行业,这些是必须知道的。

征信行业历史起源

征信机构始于19世纪30年代的美国。雏形是一些商业调研机构,服务民间或银行借贷业务,获取信息途径通过招募些调研人员去街巷走访,然后逐渐形成规模及规范化。

作为起源之地,美国有3大征信机构都有百年历史,例如全国性3大个人征信机构益博睿、艾荃法克斯、环联。3大征信机构数据源95%相同、覆盖90%美国人。可以看出美国的征信数据覆盖率是非常广的。其征信服务覆盖行业也非常多。在美国个人征信收到严格的监管,监管法律也非常健全,目前企业征信基本不受监管。

中国征信行业历史起源

在中国,最早的专职征信机构是中华征信所,于1932年6月6日创办。国内征信行业快速发展基本是2003年后开始。在这一年中国人民银行征信管理局也成立了。2017年6月个人信息安全法出台,整个征信行业对数据的敏感性输出做了很大调整,很多敏感信息接口都主动关停。

中国央行征信覆盖情况

国内,央行征信数据其实只覆盖了3.8亿左右的自然人,覆盖率非常低,还有几亿人只有简单的身份数据。美国已达90%以上,因此在国内单靠央行数据已经不太符合创新型的互金行业信贷产品。从而催生了各式各样的数据公司(包括备案的征信机构)尝试将非央行征信的电商、社交等数据应用于信贷风控,例如京东白条。

中国个人征信行业查询规模情况

无论国外还是国内,企业征信的发展都不如个人征信。从国内央行征信查询数据来看,2015年已达6.3亿,这还只是央行体系内的数据查询量,可见征信行业市场可见还是非常巨大。以此类推,央行外的类征信数据市场规模应该也是非常客观。

中国个人征信行业备案情况

在国内还没有一家征信机构获得正式牌照。之前沸沸扬扬的8大征信机构也只是属于备案阶段。国内2016年底备案有134家机构,最新公布的数据其实只有133家征信机构还在备案,经过全面的初步调研,仅有20%不到的征信机构是属于有业务开展,其他的大多还在筹备和摸索阶段。这些备案机构属于正规军,市场上还有很多数据科技公司也在做征信业务,但为了避开监管,多打着“信贷风控”等名号开展数据查询的交易业务。而这些非正规军却非常有活力,各种创新的信贷模型产品层出不穷,具体哪些真的好用,还无法判断。
后续将征信备案机构及非备案机构归类为“大数据行业”机构

中国征信行业数据主要类型

征信行业使用的数据主要包括传统央行的征信数据及互联网征信数据。

互联网征信包含的数据主要涉及传统央行的征信数据、经营数据,身份数据、社交数据、消费/财务数据、乃至日常活动数据、特定场景下的行为数据等。严格来说互联网征信数据大多数与个人信用是弱相关的,因此才有N中关系型算法来验证各种数据相关性来判断个人信用可靠性。

传统征信体系的征信(央行)由于体制和技术等原因使用多限于金融行业,而互联网金融平台的大数据征信结果往往有在金融业外的更多应用。

中国互联网征信行业数据类型

互联网征信数据使用的比较多的主要有个人身份信息(个人基本信息、教育学历信息、驾驶证信息)、个人消费相关数据(资产信息、兴趣爱好、电商注册行为),银行持卡人数据(POS交易信息、个人借贷卡账单信息、线上线下支付数据),互联网用户及行为信息(APP浏览数据、WEB浏览数据、地理位置信息),司法被执行信息(裁判文书信息、履约被执行信息、失信行为信息)、借贷黑名单高风险客户名单(传统金融、互联网金融)、航旅信息(出行频率、票务信息)、位置信息(实时位置、常用地址、出行轨迹)等。 但掌握这些信息的企业基本属于行业内的巨头,例如3大运营商、京东、淘宝等。

大数据的风控框架

基于国内的征信行业大调研,基于大数据的风控框架大致是这样。一些枝节部分其实对应了贷前中后使用到的一些大数据及大数据的来源。其中对应不同环节使用的技术能力和数据源要求都不一样。在P2P等高风险行业,使用多头数据来做阻断或获客都可以。数据的使用不是一成不变,均要看行业、产品、风险定价等灵活使用。在支付环节,结合位置信息就成了反盗刷的功能。这里不一一举例。

大数据风控行业类型

围绕大数据框架的整体思路发展,大数据风控行业其实简单来分有3种:个人/企业数据接口批发、个人/企业数据接口整合报告、个人/企业数据建模及分析系统。图上均是行业内比较知名的一些机构。产品输出方式:各类接口直接联调调用、网页版登录查询及管理、定制化风控报告、联合建模。

个人征信模型通用简版思路

最后说下非全自动的个人征信模型简版思路:首先需要接入各种各样的数据源,这些数据源需要与业务需求符合,其次将各类裸数据拆分,根据业务类型及其他规则进行特征提取,初步分类。然后,各类特征将根据不同算法逐一组合成对应模型,应用与不同业务场景。不同模型经过机器学习(监督学习及无监督学习)的方式,输出相应分值,给与各模型相应的参考。最好还需要有经验人士,根据得分进行最后的决策。

补充

1. 银行机构等大型企业的信贷产品多以央行征信数据为主,非央行的大数据为辅。而消费金融及P2P等机构,因为面对的客户群、产品及风险等原因,多以非央行大数据为主,基本不使用央行数据。

2. 国内征信行业合作伙伴默认征信系统有2套:央行征信系统和民间借贷征信系统。正常情况,银行基本都接入了央行征信,因此银行类客户对自身信用记录非常在意。但互金行业基本没进央行征信系统,而是联合成立了民间征信平台。在民间借贷征信系统里,其实也会影响其借贷行为。特别是现在银行的信贷产品及信用卡都开始使用多头借贷这些数据辅助

3. 很多小贷公司却只给多头借贷名单上有还款能力的客户借款

#专栏作家#

大数据猎人,微信公众号:大数据猎人,人人都是产品经理专栏作家。多年金融科技行业相关战略研究、行业分析、商业模式及产品体系研究经验,擅长政府数据+企业数据+公开数据多源数据融合流通交易及应用

本文原创发布于人人都是产品经理。未经许可,禁止转载。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 个人ID lison1989

    来自广东 回复
  2. 请问 贷款产品画像分类中的权责分类 指的是什么?

    来自上海 回复
    1. 应该想表述是否是抵押或纯信用

      来自广东 回复
  3. 满满的干货,“N中关系型算法”有个错别字,哈哈。

    来自上海 回复
    1. 🙄

      来自广东 回复
  4. 干货,受教了,最近在做政务信用平台的业务,一直在思考做这个的意义,看了楼主的帖子之后有了很多的想法

    来自陕西 回复
    1. 😐

      来自广东 回复