如何设计推荐系统标注标签体系?
标签是内容分析的基础,代表了对视频质量的把握和内容的理解,同时,标签也是反映用户兴趣的重要数据源,这些都为个性化推荐提供了最基本的特征。那我们要怎么才能设计好一套推荐系统标注标签体系?
为什么个性化推荐需要用到标签体系?
标签是内容分析的基础,代表了对视频质量的把握和内容的理解,同时,标签也是反映用户兴趣的重要数据源,这些都为个性化推荐提供了最基本的特征。
为什么要建立一套视频标注系统?
首先,要保证视频内容的合法性,有对色情和三反视频的识别和过滤能力,保证整个视频推荐服务的安全性。
其次,要帮助推荐系统更好的理解视频内容,为视频的分发构建桥梁,如使用标签进行召回等有效提升推荐系统的效率。
一套全面完整的标签体系应该包含哪些内容?
首先,要能够表明视频质量,从而判断该视频是否可用于分发。
- 风险性:无风险是视频推荐最基本的要求,不符合本条要求的视频则不予进行推荐,风险性包括色情、广告、政治敏感、血腥暴力等类型;
- 清晰度:解决视频清晰度与分辨率高低不完全对应的问题,对于不同清晰度的视频赋予不同的分发策略(部分可通过模型进行解决);
- 水印类型:对于竞品或不同来源的视频,为了避免业务冲突,在不同的场景有不同的分发策略(部分可通过模型进行解决);
- 是否原创:原创/搬运也是判断视频质量的角度之一,满足了不同场景的不同定位,对于优质作者的扶持有着重要意义。
其次,要能够明确表达对视频内容的理解及视频本身所具有的特点;
(1)一/二/三级标签:表示视频讲了什么内容以及该内容属于什么种类?
通过对标签进行分层既能够保证标签体系的全面性,同时也能较好的保证代表性。因此,不同层级的标签在设计时需要考虑的内容并不完全相同:
- 一/二级标签要优先保证全面性,使得每条视频都能够找到自己所属的类别,且该分类能够明确代表一类用户群体的兴趣;
- 一级标签一般为较大的领域,如体育、宠物等,一般数量在几十个;
- 二级标签是在该领域下进行进一步的细分,如足球、篮球、宠物猫、宠物狗等,二级标签能够很好地解决标签均匀性的问题,一般数量在几百个;
- 三级标签则是进一步对视频内容的刻画,在这个层级上一般不要求全面性,转而更为关注代表性,要覆盖到每个类别中热度较高的标签,一般数量为几千个到上万个不等;
- 一/二级标签在设计完成后一般不做比较大的调整,三级标签则需要不断的进行扩充,保证一些比较新的词汇,如电视剧名称等也能够及时被收录进去。
(2)风格类型:有时候,除了视频本身的内容外,视频的风格类型也是我们所关注的,如时政领域需要的正能量视频,下沉用户需要的土味视频和记录博主生活状态的Vlog等。
第三,有些视频只适合在当下或一段时间内进行推荐,而通过机器又很难解决时效性的问题,需要借助人力判断可推荐的时间。
第四,除了视频的客观属性外,还需要引入一些主观情感的判断,如故事性、连贯性等。
该部分涉及到的主观情感的判断较多,需要考虑标注人员的实际理解情况,如可参考是否有主题、是否与文本相关度较高、是否有明确的故事主体、是否内容连贯性或叙事性较好、是否有拍摄成本,另外也可以参考该类内容是否能够引起用户的观看兴趣或转发欲望等
如何发现并处理业务方与标注人员对于标准理解不一致的情况?
适时抽取一定的标注数据进行质量检查是很有必要的,对于标注数据中出现的问题要进行合理的归类,如果多人多次出现同一问题则说明该部分可能存在两方标准不一致的情况。
对于各个标注项目,简化标注人员的思考过程,尽量以选项形式替代手动输入,对于必须要手动输入的选项如三级标签,做好标签库的维护和联想词提示功能等。
对于使用文字很难直观描述的选项,通过双方共同建设标注样例文档的形式进行解决,罗列出具有代表性或容易出现问题的样例和标注选项,便于标注同学理解。
如何最大程度的保证优质视频内容都能够被标注?
对于标注系统来说,最理想的情况下当然是对每天全站新增的全部视频都进行标注,但在实际的实现过程中,在时间和资源的限制下,每天只允许对头部视频进行标注;另一方面,每天全站新增的视频也不是每一个都有推荐的价值,如果不能对哪些视频适合标注并推荐进行正确判断的话,势必会造成资源的浪费。
对于标注数据的选取:
- 首先,要进性合法性的判断,不符合硬性条件的视频直接进行过滤;
- 其次,标注是对视频进行先验的过程,为了保证标注的及时性及可用性,可以根据与博主或渠道有关的属性进行判断,或者也可以参考该数据在很短时间内的分发及消费情况(需要通过统计来了解视频传播的时间路径);
- 第三,要最大程度结合机器和人工,利用模型先对视频进行预识别和判断,结合模型得分和标注顺序来提高标注的效率。
如何应用标注数据并对效果进行科学的监测?
标注系统为视频分发构建了桥梁,使得用户历史行为可以映射到标签上,并可以通过标签来召回视频。
标注数据的应用分为直接和间接两大类。直接应用即根据标注人员所打的标签进行召回并按照一定条件进行排序;间接应用则是根据标注数据训练相应的模型,并根据模型对全站合法视频识别并分发。一般来说,后者能够召回的视频更多,但是准确率较前者可能略有不足。
- 兴趣频道是标注数据最直接的应用场景,根据兴趣频道和标签的映射关系进行视频的分发;
- 标签兴趣根据用户的历史播放行为计算出该用户对于标签的偏好程度,并推荐该标签下质量较好、热度较高的视频;
- 标签实时反馈根据用户刚刚看过的视频在翻页时立即推荐该标签下的视频,该类推荐更偏好于短期兴趣,标签粒度一般越细越好。
在数据监控方面,要着重关注以下方面:
- 推送量和标注量,以及标注数据能够覆盖到下发数据的比例;
- 不同层级标签下的视频数和下发量,观察标签是否不均匀,流量是否过于倾斜;
- 每个标签下视频的消费效率,尤其是对于下发量比较大的标签,着重关注该标签的转化和消费深度。
本文由 @magnolia 原创发布于人人都是产品经理,未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
感谢分享!学习了!想请问一下,机器学习的话是建立在内容标签系统上的吗?比如抖音的视频推荐系统,是不是人工对视频打标签分类,建立模型然后进行模型训练、机器学习再对全站的视频进行识别建立标签?不然像抖音、小红书、今日头条等UGC社区内容数据太庞大,全靠人工打内容标签感觉不实际。
头条应该会通过收集用户行为数据信息和基本属性信息,进行画像建模,通过模型训练,反向打标签,然后进行个性化的内容推荐。
希望再看到类似的文章。分析的特别精准。受益匪浅