资深数据科学家告诉你:机器学习,如何促进互联网信贷业务增长
公司的日常活动本质上都是为了带来业务的持续增长。为了达成这一目的,各行各业的公司采取的方法会有所不同。今天,我们来探讨一下在大数据背景下,蓬勃发展的消费金融行业,如何通过机器学习的方法实现业务增长。
消费金融行业天生是一个数据驱动的行业,它往往通过互联网的渠道,非常便捷高效地对海量的消费者提供服务。从中,用户数据沉淀了下来。有了数据就有了生产资料,我们才能更好地通过利用数据来实现业务增长。而机器学习就是一门能通过算法自动进行数据分析和挖掘从而达成业务目标的有效技术,它可以渗透到业务每个环节并提供针对业务目标的不断优化。具体如何来操作呢?
基本上,对于一个业务问题,我们可以把它拆解为一系列的环环相扣的流程节点,当每个节点的问题都得到有效优化而解决的时候,业务自然会增长。以贷款产品或业务为例,我们可以用以下框架来表述:
这个框架将一个贷款业务增长问题用一个数学公式表示,即由大盘用户数、贷款用户占比、人均订单数、订单通过率和单价五个环节相乘。很明显,在其它条件不变的情况下,任何一个环节的增长都会带来最终业务收入的增长。而在这个框架的背后,则是由大数据、机器学习及人工智能等技术来支持,进而有效的优化或解决其中的某些问题。
首先,我们要解决产品的获客或流量来源问题
在互联网的背景下,目标用户来源通常由自然流量和付费流量组成。自然流量通常是通过用户下载了APP、朋友等人的推荐、新闻报道、渠道合作等途径而带来的。按照增长黑客的理论,比较理想的效果是产品形成良好的口碑而产生用户病毒式传播,从而带来大盘用户爆炸式增长。
这里要考虑的一个问题是哪些用户愿意去分享传播产品并且能带来大量新增用户。我们可以基于现有用户数据用机器学习结合关系网络图挖掘算法去解决。
付费流量就是通过互联网广告投放带来的。这种流量通常都是掌握在几家大媒体手里,我们选择广告投放的时候必然要考虑投入产出问题,即如何制定合理的投放策略以高性价比来获取用户。机器学习技术能带给我们解决方案。
举个例子,如果我们通过搜索广告平台来获取用户,除了创意要考虑外,关键一点在于如何选择关键词以及如何为每个关键词出价。关键词决定了我们能获取的目标人群范围,基于大数据,机器学习技术能高效自动帮助我们选出哪些关键词是我们应该考虑的。而在广告竞价过程中,有预算限制的前提下,关键词的出价则可以用数学规划或强化学习算法来解决。
第二,我们要考虑贷款用户占比问题
在一个产品体系里,可能并非所有的大盘用户都是贷款用户。而且贷款是一种低频行为,部分用户不会一进来就贷款,而是会在有资金需求的时候产生借贷行为。因此,我们很有必要精准识别出那些真正有资金需求的人群或潜在贷款用户。当这种人群数量不断增加的时候,总体业务也会随之持续增长。
在人群识别问题上,机器学习技术是一个高效的工具。人群识别往往可以建模为一个分类问题,通过将用户的各种数据表示成特征,机器学习算法可以高效精准的识别出哪些用户是需要贷款用户。这是当今机器学习技术最成功的应用领域-有监督学习,有许多算法可以使用,比如LR,GBDT/XGBoost,随机森林等等。
另外,基于用户社交网络数据,我们还可以通过图计算挖掘的方式识别出其中的资金需求群体。针对这些潜在贷款人群,我们可以通过运营活动去触达,促进他们成为我们的下单用户,带来业务增长。
第三,我们要考虑如何提高人均订单量
这里的一个关键问题是如何提升用户提交订单率,这是一个可以长期通过机器学习算法迭代优化的指标。这主要决定于三方面的要素:用户所属的人群属性、当前在产品上的行为属性、以及何时以何种方式何种内容触达用户。
用户的人群属性是指用户有无资金需求,是否费率敏感类人群,是否重复贷款类人群等等,这些用户都可能会下单。用户的行为属性是要根据当前用户在产品的上下文活动情况来判断其是否会下单。触达用户就是要在恰当的时机以恰当的方式(比如短信、push、广告资源位等)及恰当的内容(比如文案、免费券、红包等)传达给用户从而促成其下单。
在这一环节,用户画像系统、推荐系统、自动化运营系统等等将一起配合运作高效地发挥作用,机器学习技术贯穿始终。通过这些系统,我们还可以建立用户响应模型来促进用户的活跃度,建立用户流失预警模型而减少用户流失,建立用户LTV模型而提高用户留存,这些都将有助于提高用户提交订单量。
第四,我们还要考虑如何提高订单通过率
这是金融业务的核心环节-风控,它决定着整个业务能否良性持续发展。如果说前面几个营销环节是为了放量,那么风控环节是为了收,但要有的放矢的收。
风控效率的提高将有助于极大提高订单的通过率。这里面有两个关键问题要解决:用户的欺诈概率和违约概率预估,分别对应用户的欺诈风险和信用风险。我们要尽力把欺诈风险高或信用风险高的用户拒于门外,把好用户放进来。这涉及到如何精确的识别欺诈概率高的用户和违约概率高的用户。
在互联网金融的环境里,这些都是比较困难的问题。一方面,用户贷款是否按时归还的反馈周期比较长,通常要一到两个月才有表现;另一方面,用户存在多头借贷和团伙欺诈的行为,这些数据往往难以获取;最后,经过风控系统后,绝大部分用户已经被拒绝而无法表现出欺诈或违约,真正有表现的用户比例往往可能不足3%,这带来了后续模型建模样本的有偏性和不平衡性。
基于大数据的机器学习技术将为这些问题提供有效的解决方案。机器学习模型的快速迭代机制有助于减轻反馈周期过长问题;结合第三方数据,应用图计算技术将有助于识别多头借贷和挖掘欺诈团伙;机器学习的半监督学习算法及针对样本不平衡的算法有助于解决样本有偏及不平衡问题。此外,在风控的信审环节,机器学习技术可以通过建模预测进行决策,极大缩短订单审核时长,提高用户体验,促进业务量增长。
最后,我们要考虑订单定价问题,即如何给用户定贷款额度和贷款利率
这决定着整个业务的收入及利润。贷款业务的定价本质是基于风险的定价,建立风险定价体系需要综合考虑经营成本、目标利润率、资金供求关系、市场利率水平、客户风险等因素。
金融学里对风险定价问题有一套较完整的数学理论描述,我们可以借鉴实践。基于大数据和机器学习方法进行风险定价,我们也可以去探索,目前来看还是一个开放性研究课题。
总结
总的来说,在这篇文章里,我们建立了一个业务增长的框架,来考虑贷款业务增长问题。可以看到,在这样的框架下,基于大数据的机器学习技术发挥着重要的作用,有助于解决各环节遇到的问题,不断地优化各种指标,从而带来业务的持续增长。在后续的篇章里,我们将会继续分享我们的实践,包含围绕这一增长框架而生的各种产品、技术和算法。
本文由 @51智慧金融(微信公众号) 翻译发布于人人都是产品经理。未经许可,禁止转载。
题图来自PEXELS,基于CC0协议
我想问下,收入的计算里为什么不将贷后的坏账占比加上?
欢迎交流和合作,作者微信号976619964,个人微信公众号(51智慧金融社区)