百家风控公司揭秘系列4|京东系聚信立公司及产品调研报告

2 评论 19354 浏览 38 收藏 29 分钟

调研了上百家从事风控数据业务的公司,有行业大牛也有各种低调开展业务的,在不会泄露各公司太敏感信息的前提,本着客观的角度及学习的态度,逐一揭秘各家公司的征信风控产品及数据源特色。本期的目标将是京东金融系的【聚信立】

1.聚信立公司背景

在【百家风控公司揭秘系列3|京东系ZRobot公司及产品调研报告】里已提到,上海诚数信息科技有限公司(下称“聚信立”)属于京东布局金融大数据领域的重要一步,于2014年12月(在上篇文章中的日期写成了2015年,这里更正下)获得A轮京东投资的2800万人民币。截止目前为止,京东(占股19.6%)成为聚信立除罗浩(占股29.3%)这个创始人外的第二大股东。(罗皓在上海令仪里也是大股东,这里不做计算)

京东大数据布局下的ZRobot的详细分析可以查阅【百家风控公司揭秘系列3|京东系ZRobot公司及产品调研报告】,京东万象后续会单独有篇幅分析。

现在进入正文:

聚信立是什么公司?其创始人罗浩又是何许人?整个公司有什么值得京东投资?

抱着这些疑问,猎人逐步分析。

首先,看看聚信立的创始人罗皓的背景。猎人在搜索引擎找到罗皓的一份个人简历。从简历上可以看到,罗皓硕士毕业后的

第一份工作(2004年10月开始)在通用电气资本公司待了将近3年,职位是风险建模分析师,职业期间有负责过通用电气资本第二代风险评分卡,涉及申请,用户行为和催收几个板块、信用额度优化的算法等工作。然后第二份工作在渣打银行待了1年多点,职位是“现贷派”个人贷款风险控制经理,工作包括现贷派产品第一代风险条款政策及开发了第一套基于数据的风险评分卡和欺诈评分卡等。

然后在美国发现金融有限公司(前摩根史丹利子公司)任职决策科学团队主管并待了4年,主要负责带领团队负责消费者信贷运营、信贷市场&催收及商业智能&管理信息系统开发等工作。

罗皓的三份完美的工作经验,为其在信贷领域的算法、策略及用户数据运用等打下了坚实的基础和深厚人脉(在这几家大牛待了这么多年,人脉多少还是可以的)。

因此,从美国发现金融有限公司出来后,罗皓与2011年4月自己创办企业了-上海英莫信息科技有限公司(这公司网址已无用),正式上线使用应该在年底,这家公司属于IBM全球企业家计划项目公司 ,公司业务主要是做社交数据挖掘,为消费者品牌,营销&公关公司提供基于社会化数据的商业智能服务。整个团队都来自于包括GE Money、渣打银行、Morgan Stanley等的信用卡数据挖掘工程师,结合银行的数据挖掘技术和社交媒体的属性,他们能够很好的帮助品牌商定位到自己的粉丝群和潜在消费者。简单来说,罗皓将必生所学,开始进行实际应用,只不过是在社交数据这块发力,业务偏向于营销板块。

英莫公司在2012年1月左右获得纽信创投天使轮投资。但英莫公司实际运营周期持续了1 年 7 个月,期间的主打产品微决策是Infomorrow旗下产品,它是一款精准的免费的微博营销、微博推广决策工具,帮助品牌在微博营销和微博推广中决策更简单,投放更精准。

罗皓的第一创业的成绩不太理想,或许是由于做营销板块,需借住庞大的用户数据,并且不同的社交数据清洗挖掘后,能应用在细分行业业务场景的效果也不好控制,且由于社交数据存在于少数的社交平台上,属于其数据壁垒,很难完全开放给罗皓这样的社交数据挖掘公司。没有源源不断的足量用户数据,无法获得客观的数据变现期待,或许是英莫这家公司无法生存的主要原因。

罗皓的英莫在2013年6月停止运营后,与7月份又注册了上海诚数信息科技有限公司(以下简称“聚信立”),整个公司的战略定位为金融公司提供风控数据,这些数据来源主要是通过用户授权获得非传统风控数据,如通话信息、消费数据等互联网信息,对客户风险特征进行描述,并提供给金融机构,供其做相应的后续决策。

截止目前为止,聚信立服务的金融机构超过1300家,包括传统的银行、消费金融公司、网贷信息平台等,目前日查询量已超过百万。

聚信立的产品体系依然很简单,主打的两款产品蜜蜂和蜜罐,都很赚钱。后面详细解析。

这里先说说罗皓成立的新公司的融资历程,可以看到聚信立刚成立就获得老相识纽信创投的天使轮,看来聚信立创立之前也筹备已久。然后相对有影响力的一笔就是京东金融的投资,金额不是重点,主要是京东数据的存在给予了聚信立强大数据挖掘发挥作用的进一步机会。

【猎人说】罗皓的两家公司,是一种战略的重新定位与调整。英莫的核心竞争力在于算法模型及数据挖掘技术,但缺少了数据来源及数据量,虽然可以通过与第三方数据合作,但长久下来不是最好的选择,数据自主性太弱,主动权掌握在数据公司而不是英莫。

聚信立恰好相反,通过搭建爬虫接口,针对金融信贷等利润空间较大的领域,完善爬虫技术,然后将技术接口给做金融信贷等业务的机构使用,为机构爬取用户授权的社交网站,电子商务网站,移动运营商,公积金,网上银行,水电煤,航空公司网站等数据,对这些数据进行分析后,可以提供个人身份基本信息、收入支出信息、兴趣爱好、个人影响力、社会关系等方面的相关分析报告。在服务过程中,沉淀数据,在扩展商户时,及将业务卖出去,也将数据入口铺开了,一举两得。

2.分析其主打产品及数据底层组成

聚信立旗下主打2款产品现金牛产品-蜜蜂和蜜罐,一款新产品(公测中)信问,一款附加值产品-信贷行业报告(本文不分析),及多款爬虫接口。

首先解析下数据源产品-爬虫接口。

爬虫接口作为一个可嵌入式的场景化数据实时来源,在很多时候都是非常必要有的。这里需要科普下,信贷风控决策及规则,主要是判断用户还款能力及意愿,还款能力一般通过负债情况、有无稳定工作收入来源等判断,对应的数据信息可以从央行征信报告、用户信用卡信息、社保公积金等方面参考;还款意愿主要通过还款信息及逾期信息、通讯行为交叉判断近期状态等方面评估,对应的是央行还款信息及逾期信息详情,信用卡还款信息及逾期信息详情、运营商的通讯记录交叉核验等。根据数据需求,聚信立主要开放了可以爬取这些数据的爬虫接口。

【猎人说】据了解聚信立现在有的爬虫接口,可授权爬取总计1200家网站覆盖所有电商、社保网站,90%以上的公积金、主流保险网站。爬虫接口原理很简单,就是数据公司提供一个具备识别授权网站结构,将对应数据提取的一个API接口,只要用户提供授权信息即可。难度在于不同的网站后台的数据展示结构不一样,所以需要一一匹配;另外则是反爬虫机制,各类平台都不希望用户信息可以被第三方获取,因此会不断优化反爬机制,类似增加图片识别,拼图等。做这类数据其实算是反爬与爬虫技术间的博弈。

聚信立爬虫接口主要覆盖以下数据类型(由于数据敏感,部分图片已迷糊化处理):

央行征信爬虫接口

授权爬取个人互联网央行征信简报。数据字段包括:身份信息、信用卡逾期及透支信息、逾期账户明细、信贷信息、信贷逾期信息、个人查询记录、机构查询记录等

【猎人说】此类数据,一般多是银行机构或者需要上报央行征信的金融机构使用。通过此类报告,可以详细看到用户已有的贷款金额及时间周期、还款意愿等详细信息。信用卡方面信息加上信贷类信息基本可以判断此类用户的主要负债情况。除去一些没上征信的分期及现金贷,综合还款能力及资产状态可以做出初步的额度预审了。但随着民间征信数据的交互越趋频繁及丰富,后续的用户信贷记录需要央行及民间征信相结合才更准确。部分高利贷这些抽屉协议式情况还没有很好的得知途径。

三大运营商结构化数据(聚信立报告)

爬取数据包括个人信息、半年账单、通话记录、短信记录、上网记录等。

【猎人说】很多人其实都没怎么查询过自己的运营商号码的通话记录详单,但这些对于数据公司来说,是一个可多维度交叉挖掘的数据宝库。详细后台,看官们可以自行登录运营商后台自行查询。聚信立提供的爬虫接口,可爬取用户授权登录后的所有信息,然后通过一定的维度细分规则和数据转换规则形成自己的运营商风控报告-蜜蜂。

学历学籍爬虫接口

授权可获取学历数据、学籍数据及学生身份验证数据。

【猎人说】学历学籍信息主要通过用户授权的学信网中获取。刚需数据是学籍院校名称、专业名称、学制、入学日期、学历状态、层次及学历的毕业时间、毕业院校、学习形式、学历类别、学历层次及专业名称等。类似之前的被禁的学生现金贷,可通过学历学籍来判断其身份,阻断其申请信贷产品。学历学籍在某些机构的风控策略中,可作为还款能力及意愿的聚类判断标准规则。

信用卡账单爬虫接口

支持国内主要银行信用卡的额度和账单分析,同时支持各大主流邮箱信用卡账单分析。一般可以得知信用卡信用卡额度、取现额度、本期还款额、账务明细、交易明细等内容。

【猎人说】信用卡爬虫授权有两种,一种是单信用卡账户查询授权,一种是信用卡账单绑定邮箱授权查询。单信用卡账户授权查询可以获得的是单一信用卡账单信息。一般授权信用卡账单绑定邮箱授权查询比较简便,只不过需要有辨识假邮件信息的能力。多张信用卡额度总计一般用来评估用户负债情况,取现额度评估用户是否急需钱、账务明细评估还款意愿、交易明细评估用户消费偏好和习惯是否良好。

社保爬虫接口

获取个人信息、最后一次缴纳时间、单位缴费金额、个人缴费金额、缴费技术、社保种类及缴费时间等。

【猎人说】上文说到社保可以用在判断用户的是否有持续的还款能力。缴费基数可以反推用户的扣税工资金额,虽然很多时候企业为了帮助员工进行避税,基本工资会按缴税最低标准上报,到时无法判断正式的工资信息,这个多数情况无太大影响。需要留意的是部分骗贷用户,在养社保,制造有稳定工作的假象。

保险爬虫接口

主要获取保险机构、保险产品类型、投保金额、保费、缴费情况,持续缴费次数及时间等。

【猎人说】一些高额保费的保险,侧面体现用户的缴费能力,持续缴费次数及时间体现用户的财务状况是否稳定,一些保险类贷款产品非常乐意给缴费满三年的保单客户提供保费30-60倍的贷款额度,利息还很低,此类用户的风险在他们看了是非常低的。

蜜蜂报告

蜜蜂报告主要适用于消费金融公司、国内大型P2P、银行及小贷公司等。该报告主要将用户授权的基于互联网上的大部分行为信息,经过清洗、整合、分析和翻译,实现互联网信息的交叉验证,以此来判断用户的风险点。

采集规则:将申请人的身份信息与运营商、电商数据等进行交叉验证,判断用户的风险点。

主要爬取平台类型:

  • 运营商:移动、联通、电信,大陆全部支持
  • 数据采集内容:借款人查询当日往前推半年(约6个月)的通话记录
  • 主流电商:淘宝、京东
  • 数据采集内容:借款人购物订单的100页左右,每页约10-20条左右购物记录。
  • 对接方式:API接口+网页版 ,可同时使用,也可任选其一。

整个采集流程分3步,第一步是用户个人信息填写,第二步是运营商授权爬取,第三步是电商平台授权爬取。这3步填完后,就是一个大约5-10分钟的等待,这里涉及到爬取数据时间及数据爬取回来后的转化时间,然后获得相应的处理后的结果报告。

用户需要输入的信息包括:姓名、身份证号码、所在地区、居住地址、手机号、紧急联系人及关系和联系方式。

运营商授权爬取

只需要输入服务密码即可。主要获取相关号码的基本信息、账单信息、通话记录、上网记录、短信详单等。页面还很人性化的提供重置密码功能,方便多数不记得服务密码的用户修改密码使用。

电商平台授权爬取

爬取电商平台账户内的基本信息、送货地址、订单信息等。

【猎人说】蜜蜂报告授权获取和爬取的数据,单独来看没什么特别的。但如果用作交叉验证的方式对应分析,可以看出是有很大关联的。首先,个人基本信息中居住地址会与电商平台中获取的收货地址交叉匹配,若填写的居住地主不在收货地址列表中或定点距离范围,可以判断用户填写信息有虚假可能;紧急联系人在一定的渠道能力,是可以直接通过手机号识别,这个联系人是否有不良行为记录,这样可以判断该用户所在群体的欺诈概率,间接也会对其有影响;运营商获得的详单等数据,通过处理可以知道包括通话清单中的各个电话标签,如果都是些借贷公司或收债公司的电话,那这个用户就很可疑,若用户的通讯常在地点,可以与填写的居住地址再做一次判断,若经常在上海通话,但居住地却在广东省内,这就很可疑;通话记录的各个手机号可以通过手机号多层次匹配识别,是否黑产关联或不良团体中人;通话详单记录中可以与之前填写的紧急联系人手机号交叉匹配,若通话详单都无通话记录,填写的紧急联系人的真实性有待考究;电商平台中获得数据,最优价值,一是收货地址,这里可以知道公司地址,常住地址,亲戚朋友地址等;二是消费记录,从消费记录清单可以知道你的消费偏好,家里有哪些人,消费能力水平等;三是收货人联系方式,在用户失联时,可以在这里获得另外的联系方式,触达用户催收。蜜蜂报告的模板我就不贴在这里了。

蜜罐报告

区别与蜜蜂报告的多维度,蜜罐报告相对更细化点,主要就是告诉你这个用户是否有欺诈行为,是否命中黑名单,其联系人是否是黑名单或与别的黑名单有关联。

黑产关联是根据“近朱者赤墨者黑”的原则,原理是通过识别直接联系人名单中是否有黑名单、黑中介、骗贷团伙等,根据各家的规则有不同的匹配。直接联系人指在你的通讯录中匹配的,一阶则为你的直接联系人命中的黑名单等人的通讯录中命中的黑名单,二阶为一阶联系人中命中的黑名单人的通讯录中的黑名单。

【猎人说】由于蜜罐属于非授权类的反欺诈产品,其报告生成依赖于自身的数据量及维度,外接第三方数据等。生成此类报告,需要有以下数据识别渠道支持:个人信息要素基本验证、根据身份证号码或手机号可以匹配到的黑名单库、根据手机号可以得知关联联系人的是否黑名单或黑产集团,多头借贷详情查询及撞库功能反推的是否在互联网金融APP有注册行为等。

信问

信问现在出了2.0版本,1.0版本没怎么细问这里不详细说明。信问是基于知识库的问题引擎,根据用户答题行为、答题结果,结合社会心理学、个体心理学及行为心理学的理论基础,利用机器学习自动化建模分析,提供答题者的可信度评估,属于逻辑验真风险控制维度。

目前主要场景有3个:用户填写的地址的真实性,主要通过根据文本内容精准匹配地址、校验地址真实性,并验证是否用户本人的地址;用户公司真实性,主要通过多累数据整合处理,准确匹配到企业,并根据知识库判断用户是否属于该企业;职业真实性,基于全方位的职业信息知识库,对用户选择的职业进行辩真校验。

地址验真类大概流程是:用户选择常住地址,然后聚信立信问后台通过将用户输入的地址在经纬度上进行定位,然后将定位的地点一定范围具有标识性的马路、大厦、风景、商店等通过文字或图片形式作为选择题供用户判断,以此来判别用户是否真的经常在此地出没。

【猎人说】信问这类产品,通过真人主观填写的信息,通过技术手段定位或其他方式识别客观真实性。从产品形态来说,公测版有点简单,用户填写时,用搜索引擎是很大概率可以找到答案的。就是不知道在这个判断评分中填写时间这个规则占评估比重有多少。真实填写的时间正常比用搜索引擎查到后填写的时间短,但如果提前知道内置的逻辑,还是有方法突破的。

3. 总结

公司定位:聚信立是打着互联网社交数据建模及分析服务商的旗号,干着传统信贷的风控的事,只不过通过爬虫手段将社保、公积金、保险等用户资质证明的获取便捷性提高了,可用性也提高。爬虫手段同时解决了用户授权和一手数据的来源,规避了未经用户许可获取相关信息的规定。通过获取到的数据源,经过聚信立对与行业数据的理解解析整合出来的数据报告是其竞争特色。

市场战略:聚信立为了能够拿到以上个人的公开或者相对隐私的信息,通过B2B2C的方式,也就是与各信贷机构及渠道合作,进而向他们的客户提供服务。比如你到一家小贷公司去申请贷款,这家公司就会告诉你,可以选择到聚信立这个平台上去开个快速互联网资信证明(蜜蜂)。通过这种方式,既拿到了合作机构的用户数据,也降低了推广的难度。

产品战略:覆盖数据来源(爬虫)-数据建模分析(风控建模)-数据报告(蜜蜂、蜜罐)-数据创新应用(信问)-数据整合行业报告(信贷行业报告)全流程,既保证一手数据源的实时获取,也提取了信贷风控最需要的几个维度满足风控需求。

数据战略:提供爬虫工具,降低信贷机构获取用户授权查询的各种资质信息难度的同时,同步获取了相应的数据给予数据加工增值提供了可能。相较于阿里入股高德、收购微博股份这样的财大气粗的收集数据的做法,聚信立的这种通过B端渠道去驱动用户主动授权并提供数据的方式,几乎零成本,很适合小的创业公司。而一些不用强授权的数据,可通过第三方渠道获取。

相关阅读

百家风控公司揭秘系列|91征信公司及产品调研报告

百家风控公司揭秘系列2|华道征信&亿美软通公司及产品调研报告

百家风控公司揭秘系列3|京东系ZRobot公司及产品调研报告

从事大数据征信行业,你必须知道这些

最全互联网金融6大板块风控研究框架:监管政策、行业模式及合规要点

#专栏作家#

大数据猎人,微信公众号:大数据猎人,人人都是产品经理专栏作家。多年金融科技行业相关战略研究、行业分析、商业模式及产品体系研究经验,擅长政府数据+企业数据+公开数据多源数据融合流通交易及应用

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 你好,咨询一下,关于保险数据爬取大概是是什么方法?

    来自上海 回复
  2. 个人ID lison1989

    来自广东 回复