浅谈审核召回策略优化思路

1 评论 3494 浏览 55 收藏 10 分钟

如何有效提升审核环节召回策略的召回率?这篇文章里,作者以内容质量审核为例,梳理了审核召回策略的优化思路,一起来看看,或许会对从事这方面业务的同学有所启发。

引言:什么是审核召回策略

“召回策略”(match)是指从全量信息集合中触发尽可能多的正确结果。当我们聚焦于新闻内容类APP或资讯型产品,在内容理解、内容标签和审核相关的业务中,召回策略指的是通过算法模型、规则策略等识别不同的内容类型,并应用直接机审判黑或人机结合等方式赋予内容特定的标记,使其可以在下游内容入池、推荐分发等环节应用。

召回策略的评估主要根据两个评价指标:召回率和准确率。以内容质量审核为例:

  1. 召回率(Recall)=策略正确识别到的低质内容/系统所有低质内容总数
  2. 准确率(Precision)=策略正确识别的低质内容/策略识别到的低质总数

本文以内容质量审核为例,主要讨论如何提升审核环节召回策略的召回率,即,我们怎样才能扩大标签识别的范围,尽可能全面、高效地为内容打上业务所需要的标记。

一、为什么要优化召回策略

在新闻类、内容类APP中,内容理解是内容生产加工流程中不可或缺的一环,只有给内容打上足够精细化的特征和标记,才能基于用户画像使用协同过滤等方式给用户更精准地推荐内容。全面高效的召回策略是下游推荐分发环节不可或缺的基础因素之一。

在内容质量审核相关的业务中,为了能更精准地为内容打标,通常会采用人机结合的方式,即用召回率较高的模型尽可能多召回疑似质量有问题的内容,再由人工审核进行判断。

召回策略的有效性和线上低质内容的占比强相关,如果召回策略不够有效,那么就无法对新闻内容的质量和调性进行识别、判断和控制,也就无法达成相关业务指标,例如降低线上低质内容占比,或针对部分人群实行低质内容隔离策略等。

另外,受制于项目预算、人力成本等因素,在我们提升召回策略的召回率时,也不能忽视其准确率。如果一条召回策略能覆盖大部分低质内容,但召回量级过大(准确率很低),我们同样可以判断该策略的有效性(ROI)很低。

二、有哪些常见手段可以提升召回

方法一:从平台调性和标准入手

以某新闻类产品的质量审核业务为例,大致流程如图:

首先,业务方需基于产品定位和平台调性制定标准,准确全面定义“低质内容”的类型和含义,根据标准,进行特征拆解。例如广告类内容,通常含有营销类话术和关键词;格式异常类内容(因内容抓取和清洗导致内容缺失),可能存在文字段落丢失导致的文章过短等现象。拆解完特征后,需和算法等团队一同进行模型训练和规则定义,评估每个模型或策略的准确率、召回率和召回量级(for有效性评估)。

特征拆解关键点:

  • 特征足够客观,避免程度等主观判断,使机器和人都好识别/执行;
  • 特征足够细化,在应用环节可组合使用。

特征提取和训练关键点:

  • 为保证尽可能多覆盖badcase,优先训练高召回识别能力,通过人机结合方式解决;再逐步迭代高准确识别能力,提升机审率;
  • 应用环节结合实际业务情况配置豁免逻辑,规则和特征上不进行豁免。

方法二:从用户体感和用户行为倒推

第二种方式从用户反馈出发,运营提炼出用户反感内容的特点,总结为客观特征,由算法进行识别能力建设,最终形成可用于业务的算法模型和规则。

特征提取和训练关键点:

  • 从用户行为(隐性用户反馈)和用户意见反馈(显性用户反馈)中分析badcase,模拟用户感受,提取特征;
  • 通过模型、人机结合方式识别特征。

三、有哪些常见手段可以验证召回策略的有效性

方法一:单个策略上线前验证,组合策略上线后整体评估

针对算法模型,上线前需评估三项指标:

  1. (正例)准确率;
  2. (正例)召回率;
  3. 覆盖率&召回量级。

评估要点:

  • 测试集语料正例浓度需与线上基本一致,评估结论才相对置信;例如模型或策略是针对全量数据,那么测试集就需从全量数据中随机抽取;如模型或策略是针对单个场景的可分发内容池,则需从该内容池中随机抽取;
  • 模型在不同浓度的测试集上效果会存在差异,如在不同场景应用同一个模型,需抽取不同场景可分发数据分别评估准召。

方法二:线上巡查

以内容质量审核为例,为了check召回策略的效果,可从线上可分发数据中随机抽样/巡检,评估线上可分发数据中是否存在质量审核环节的低质漏放数据,制定漏放率指标。

方法三:从下游审核环节回查

在各类新闻内容类产品业务中,可能会设置多个质量审核环节,例如针对部分场景设置复审,以便单独为该场景内容打上特征标记,服务于该场景的推荐策略。如存在多个审核环节,则可将整条内容加工链路看作一个漏斗,从下游环节回查上游是否存在漏放情况等。

四、召回策略的局限性和天花板

无论把标准规则定义得多么细颗粒度,把模型和规则调试得多么精准,我们不可否认的是,召回策略一定存在局限性和天花板,在实际业务中基本不可能制定出100%召回率的策略,即无法实现对标签内容的全量识别,主要原因如下:

  • 在新闻内容类产品中,受热点事件影响,内容池内容结构可能存在变化(e.g.热点事件影响造成时政类发文增多),模型和策略的效果、召回率大概率会存在变化波动。实际的分发内容和评估召回策略有效性的测试集之间一定存在Gap,不可能时刻保持100%一致,这也就决定了策略上线时的指标一定会随着业务变化而波动,准确率、召回率、有效性都可能发生变化;
  • 模型和策略本身可能会随着时间推移和缺乏维护而效果变差,例如有监督学习的模型,在上线后若不持续维护,则会因训练语料过旧产生效果“漂移”,在新的数据集上无法保持优异表现。

在实际业务中,召回策略若能保持90%+的召回率,已实属不易。其余不到10%的内容,通常只能通过引入巡检、单点反馈等人工运营的渠道来覆盖和解决。

本文由 @芝士球 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 牛🐮

    来自北京 回复