OCR技术用于在线身份认证的运营效果分析
编辑导语:当前线上身份认证,主要依赖的仍是OCR技术,即光学字符识别。然而依托于这一技术的在线身份认证服务过程中,用户流失可能十分严重,这是为什么呢?本篇文章里,作者就OCR技术应用于在线身份认证过程中的运营效果做了分析,一起来看一下。
一、线下的身份认证:我国拥有着全球领先的方式
我们在银行柜台办理金融业务、入住酒店、高铁通行、营业厅购买手机SIM 卡号时,必然需要现场身份认证,也就是核验你的身份证和本人信息。我们只需要掏出身份证,放置在指定的身份证识读设备上感应一下就可以了,十分便利和安全。
2004年,我国推出二代身份证并大力普及,时至今日应该所有国民都已统一更换了。二代身份证中内嵌有一枚国密智能芯片,加密存储了公民的所有基本信息(姓名、性别、民族、出生日期、身份证号、证件照片、家庭住址、签发机关、有效期,合称为“身份九要素”)。这些加密信息需要通过专用的身份证识读设备来解码读取,从而同时保证了公民信息的安全和有效。
二代身份证以及身份证识读设备的普及发展,让我们在需要实名认证的各种场合享受到了极大的便利。相比全球其他国家,我国这种人手一张高密安全证件的方式是极其先进的,是我们如今能够享受世界领先的便捷生活的坚实基础。
试想,就算有了世界第一的高铁技术,如果没有“刷身份证即可通行”的配套保障,仍然需要每个人去柜台排队买票、再到闸机验票方可上车的话,那何来效率提升呢?有过惨痛排队经验的人,谁也不想再回到那个时代吧?
从技术底层来说,我们的二代身份证是一张由国家统一制作的高密级安全芯片,发到每个人手上也就赋予了这个公民可以“自证身份”的权利。
在这方面,我国的管理理念和技术是非常先进的,拿现在流行的话来说,就是很早就采用了去中心化的思维和技术,把信任和便捷最大程度地放到了每个人的手中,只要你手持合法的身份证就可以完全代表你自己,而不需要其他中心化的数据库来验证。
作为对比,美国等老牌西方国家,至今仍然在用的是基于“社会保障号码(SSN)”的政府数据库验证方式,也就是说,你其实是无法独立验证自身“你是谁”的,你所能做的仅仅是记住自己的姓名和 SSN 号码,然后请求政府数据库来校验这些信息是否正确,如果网络不好、或者中间过程出了差错(比如警察作恶、数据库临时故障等),你就无法证明“你是谁”了。
这两种方式不能说就一定谁比谁更好了,而是在不同的场景中各有利弊,因此我国其实也具备中心化数据库验证的公民管理方式。但我们相对独有的“安全证件”方式,已经在国民经济场景中发挥越来越大的保驾护航作用,构成了我国境内特有的便利生活服务。
国外近些年其实也注意到了这个差异,比如法国等欧洲大陆国家就已经在加速发放他们的国民身份证了,而美国在很多服务场景中其实在推行和使用内含芯片的护照来补充传统 SSN 机制的不足。
二、线上的身份认证:我们与全球其他国家一样,仍处于发展早期,主要依赖于 OCR 技术
OCR (Optical Character Recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。主要用于将纸质文档中的印刷体文字转换成计算机能够处理的文本格式,再供文字处理软件进一步编辑加工。
身份证虽好,却在我们的生活越来越多得转入线上服务的过程中遇到了障碍:手机可不是专用身份证识读设备,如何才能读取身份证中的安全芯片信息,从而完成实时的身份认证呢?这里很明显需要一套全新的技术,但是时间不等人,怎么才能服务当下就已经如火如荼的数字经济呢?
当前主流的方式是 OCR。
通过手机摄像头来拍摄身份证照片,再通过 OCR 技术来提取身份证表面上印刷的文字信息,最终再通过中心化的政府数据库来验证这些信息是否正确,若成功则留存用户的身份证影印件以作后续审计使用。
将这些流程拼接在一起,就构成了完整的 OCR 身份认证服务,如果还有特殊需要就再加上人脸识别比对。这就构成了我们在“手机无法直接识读身份证芯片”的过渡时期的标准解决方案,也是当前我们在线开展各类需要身份认证的业务的基础。
从技术底层来讲,我们暂时放弃了中国相对独有的“去中心化公民自证”特色,转而使用“中心化政府数据库”的验证方式,因此在这一领域,我们与西方国家的很多公司就形成了同频,可以相互借鉴而共同提升技术,但也共同承受这个技术带来的缺陷和管理风险,比如:OCR技术的识别准确率、人脸识别技术的准确率、个人隐私数据的保护、政府数据库的合法合理使用等。
客观来说,我国在技术方面丝毫不落后,但是在数据的管理和保护层面则差强人意,事实上造成了国内的身份数据满天飞的乱象。随着近期我国《数据安全法》、《个人信息保护法》、《网络数据安全管理条例》的发布和落实,这方面后续应该会有显著的改善。
接下来,本文不纠结于 OCR 身份认证服务中的技术和管理问题,而是转向这个服务的运营效率问题,即:业务流程中引入 OCR 身份认证服务的用户留存和转化效果。
三、OCR身份认证服务的用户转化漏斗:不算不知道,算了吓一跳的惊人损耗
我们来详细拆解下OCR身份认证服务中的关键步骤:
1)从用户处获得身份证图片,可能从相册里获取,也可能直接调用手机摄像头实时拍摄。由于个人将身份证照片存储在相册中的安全风险实在太大,且该方式极其容易造假,因此现在以手机银行为代表的业务方已禁止使用。本文中只分析第二种获取方式:即调用手机摄像头实时拍摄身份证。
2)从身份证图片中解析出身份要素信息;若无法解析,则回到步骤 1。
3)后台发送给某供应商提供的“政府数据库”云端验证接口,进行信息验证。若不通过,则回到步骤 1。
对应的转化漏斗图如下:
步骤一的用户流失率是最严重的,约达 40%:
1)若用户的身份证不在身边,将无法完成本流程。这部分用户约占 20%。要彻底解决的话需要全新的技术解决方案,比如前些年公安部在试点创新的 eID、CTID 等,但目前来看距离全面的实用化都还很远,因此可以简单认为短期内无解。
2)若拍摄效果不好,也将无法完成本流程。这部分用户也达到20%。一方面是受光线、拍摄角度、拍摄稳定性、摄像头质量等外界客观影响,导致摄像头始终无法锁定聚焦到身份证,另一方面则是因为页面设计的易用性问题、软件bug或网络不稳定等原因,导致用户在过程中放弃。这方面应该可以有很大的优化提升空间。
步骤二的用户流失率弹性很大,约 10%~30%:
可以简单地认为,该步骤的用户流失率就几乎等同于 OCR 识别结果的错误率。因为按照风控原则,这一步骤是不能让用户手动修正的,否则就失去了身份认证的意义了,因此一旦信息识别错误最终就只能回到上一步重新来过。
流失率弹性的关键,主要取决于是否需要识别住址信息。
若仅需要识别姓名、身份证号码乃至身份证有效期,现在业内成熟的 OCR 算法已可做到 85%以上的正确率,最好的据说能做到 90%。然而如果要准确识别出身份证上的住址,OCR 的技术难度则几何级别增长,经常会识别出非法字符。幸运的是,目前除了金融、出行、用工等少数场景外,对识别住址的需求还并不普遍。
(地址识别为非法字符)
步骤三的用户流失率,约 5%-10%:
通常来说,只要OCR在第二步中正确识别出身份证信息,就一定可以顺利通过“政府数据库”的校验。
但实际上,受限于自身的业务风控规则(如限制未成年人、特殊年龄的人、黑名单用户等,通常约 5%),以及第三方供应商的数据源和服务稳定性等原因(通常不到 5%),会导致部分用户无法通过。
其中,因业务风控规则而产生的用户损耗是无法避免的,但对第三方供应商的质量把控则是可以优中选优。
综上所述,完整的 OCR 身份认证服务做下来,用户流失可能会高达 60%(1-0.6*0.7*0.9),极限优化后也会高达30%(1-0.8*0.9*0.95),是不是会很惊人?
业务还没真正开始做呢,1/3的用户已经跑去火星了,这还怎么活?
虽然可以通过其他方式把用户拉回来再试一次,但终究是个让人害怕的运营黑洞。必须要解决才好。
从关键因素来看,需要解决的要点在于:优化拍摄身份证照片这个过程的不确定性,和OCR 识别信息(特别是大段地址信息)的准确度。如果这两个过程能够做到无损,则整个服务流程的用户流失率可以降低到75%(1-0.8*1*0.95),而且都是由于纯粹的客观因素而造成的,不会引发用户的不满,或者说对于有价值的用户,不会产生无谓的损耗。
那这两个过程解决起来的难度有多大呢?笔者现在还在请教专业人士,但就目前所闻,并不算乐观。
四、还有一些值得注意的潜在风险:黑天鹅事件随时会到来
做业务不可能完全零风险,这是当然的。但我们需要知晓风险的可能来源,并提前做好一定的准备,特别是那些涉及到合规层面的隐患。绝大部分公司在实际设计和使用 OCR 身份认证的流程中,普遍存在如下两种潜在风险:
1. OCR 的识别是否在使用“SaaS 公有云服务”?
若采购并本地化部署OCR 软件,那就不存在本条所说的隐患。但是因为价格较高,绝大部分公司还是倾向于选择第三方供应商提供的、按次付费的 SaaS 云服务,这就存在“个人信息保护”的风险隐患了。
将用户的身份证图片传输给这些第三方供应商,是否应该征得用户的明确同意呢?但若在流程中加入提示并等待用户选择的话,留存转化率是否会更低呢?其实,将用户信息提交给某某供应商提供的“政府数据库”去校验,也是同样的问题。
2. 是否考虑过对身份证图片的验真呢?
OCR 技术说穿了毕竟只是对图片的识别和计算,如果这个图片本身就是被恶意伪造的,那 OCR 身份认证流程完全是不设防的(这里我们不考虑再加入人脸识别技术作为辅助验证手段,一方面这必然会带来更高的成本和更低的用户转化,另一方面人脸识别有自身的适用场景和安全风险问题会将本文的主题给带歪)。
然而又该如何在整个流程中加入反欺诈呢?很不幸,非常之难。如果恶意分子伪造一张身份证,单纯使用 OCR 身份认证流程是无法辨别出来的,而这种伪造成本也极其低,比如:通过覆膜将身份证上的地址和有效期改掉,或者头像换掉。
因此,对于金融、政务、租赁、出行、用工等领域的公司,需要慎重考虑自身被恶意分子盯上的风险。
注意,以上两个潜在风险都是由于“身份认证”业务本身的特殊性所带来的,而非 OCR 技术所源生的。
但是,随着数字经济的盛行,国际国内对传统业务的合规监管也必将延伸到在线业务中来,比如 KYC(Know Your Customer)就是通行的准则,不仅要识别认证出正常的用户,更要防御住少数恶意分子造成的巨大破坏。
在此背景下,OCR身份认证服务需要考虑的,就不仅仅是流程的顺畅了。
五、展望未来:在线身份认证过程的用户转化效果还能提高么?
在本文的结尾部分,我们可以大胆做出一些“必然”的预测和与之相关的疑问:
1)在线身份认证在今后的数字经济中,重要性和必要性只会越来越强,因此当前的用户转化效果是绝对无法满足业务需要的,必须要大幅提升才行。但是这个重任,是否一定由 OCR 身份认证来担当呢?
2)KYC 等监管要求的提升,其实是与近年来国际国内的网络欺诈事件显著提升有直接关系的,因此目前看来只会进一步增强。是否有合适的产品,能做到让各方都满意的身份防伪造呢?
3)我国极具特色的二代身份证安全芯片,在移动互联网已经如此盛行的时代真的就无法发挥其优势么?我们认为,这点必然会解决突破的,届时我国的在线身份认证,应该可以走出另一条更新、更好的方式来!
如果大家有更好的想法,可以在评论区告诉我。
本文由 @鲸 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于CC0协议
关于对身份证图片的验真有几点讨论:
– 伪造身份证图片的情况:(1)仅照片是伪造的,姓名和身份证号真实存在;(2)除照片是伪造外,姓名、身份证号也是伪造的
– 针对情况(2)可以使用公安部提供的注销验真接口,通过【姓名+身份证号】,校验当前公民信息是否存在,不需要增加的用户操作
– 针对情况(1)是需要依赖人脸识别的,先进行人脸图像采集、活体检测、人像比对(身份证图像和人脸图像)输出高质量人脸图像,再使用公安部的相关接口,通过【姓名+身份证号+人脸图像】校验当前公民信息存在。且通过活体检测基本能保证当前为用户本人操作。