一文带你看懂B站视频推荐
本文将以B站为例,详细回答软件是怎么把信息更有效率的推送到你面前的?作为创作者和用户,如何利用推荐系统反哺自身?
零售电商给你推荐喜爱的日用品、新闻阅读给你推荐合口味的知识、短视频软件向你推荐你最爱的娱乐视频……自个性化推荐算法在各种软件广泛应用开来,千人千面的说辞已经被互联网用户熟稔于心。可以说,这些被频繁使用的软件可能比消费者本身还要了解你的偏好。
但,你真的知道,这些软件是怎么把这些信息更有效率的推送到你面前的么?作为创作者和用户,如何利用推荐系统反哺自身?本文将以B站为例,详细回答这些问题。
本篇文章结构如下:
- Tag处理:构建内容和用户侧写
- 打造圈层:内容类聚和用户群分
- 巧用推荐:B站up主与平台运营
一、Tag处理:构建内容和用户侧写
所谓千人千面,放在产品中,人指的是用户,面指的是内容。一方面,用户因为年龄、性格、爱好、生活阅历的不同,对内容有不同的需求;另一方面,内容的种类和质量也影响用户的偏好。用户和内容的高效连接和互相成全,是推荐系统,尤其是推荐算法的最高目标。
1. 内容tag化
我们先来走一遍用户视角。
进入B站,有明确的动画、音乐、舞蹈、科技等按内容类型划分的一级导航区,以科技区为例,又可以展开为科学科普、社科人文、演讲公开课等二级导航,当你选择科学科普栏目,又能看到环境、科学、生物、气象这些小分类。
我们以罗翔教授的这篇《为什么刑法要严格解释》为例,从科技>社科人文频道,进入视频详情页,可以在页面中部看到和视频相关的信息。这里有三块重要信息。
第一,视频播放量、弹幕量、评论数和数据排行表现,分别为161.1万、2.6万、7967和全站日排行最高第七。
第二,点赞数、不喜欢数、投币数、收藏数和分项数,其中不喜欢数并不显示,其余可量化的数据为24.1万、10万、3.3万和7616。
第三,视频标签,这里区分了比较热门的罗翔、法考专辑标签,也有刑法、校园星UP、厚大等普通热度话题。
这样就可以得到一份有关视频内容的Tag标签。
那这些标签是怎么来的?我们从投稿流程看一下哪些是可以由创作者控制的。
从投稿页面可以发现,用户上传视频后,可以填写的内容有五项,分别是分区、标题、类型、标签和简介,其中标签的选择可以是自定义、推荐来源和参与活动。如果按照视频投稿前后来给一份内容画侧写,创作者相关信息和内容信息可以归为静态数据,而具体的数据表现随时间会随时间变化归为动态数据。
2. 用户tag化
万物皆有联系,“你的气质里,藏着你读过的书和走过的路”告诉我们人格特质会受读书习惯和生活经验影响,而用户的浏览、消费等操作行为也隐藏着个人的偏好。
先来看一下B站用户会被记录哪些信息和行为数据。
历史浏览行为:
播放历史的记录使得用户可以方便的追踪到自己在什么时间看了什么视频,但用户往往并不会关注自己看到了哪里,而只在乎下一次点进去是否可以跳过已播放的部分。
但播放时长比是对视频质量评判的一个重要标准:播放时间短,用户可能只是被播放量或标题吸引点进来随便看看, 但实际并不偏好此类内容;播放时间中等,用户可能偏好此类内容,但视频时长或质量会影响观看完整度;播放时间长,反映出这类内容可能正对用户兴趣。
此外,用户在视频详情页对内容的点赞、收藏或不喜欢等操作,也反映出了个人偏好;评论作为文本数据,也可以从其长度、情感偏颇、可读性反映出用户对内容的喜好程度。
上述可以被用户明确感知到的行为被归为显式行为,而另一类包含屏幕操作轨迹、停留时长等不易被用户感知到的操作被称为隐式行为。后者除了被用于构建用户侧写外,也可以用于激发用户的显式行为,如在B站视频详情页停留时间满足一定水平后,会触发分享图标转为颜色鲜明的微信图标。
关注和订阅:
关注和订阅的up主、话题等,也会暴露用户的兴趣,例如,用户的关注列表里70%都是类似巫师财经、硬核的半佛仙人、财经药丸这类up主,那系统在评估用户爱好的时候大几率会给贴上金融爱好者的标签。
消费行为:
B站用户的消费除了会员外,还包含课程、虚拟游戏、演出展览、线下游戏等,而消费会留下交易金额、时间、地址、类型等痕迹。B站数亿活跃用户中,移动游戏月均付费用户接近150万,直播季度付费用户120万,占比仅为1%左右,作为“金主”,他们不仅在权益享受上优于普通用户,也会因其出色的消费能力而被推荐系统“盯上”,贴上“消费能力佳”的标签。
身份信息:
用户的身份信息包含性别、年龄、教育水平、地理位置等,允许访问通讯录、上网记录后,平台还可以获取到社交关系和其他产品使用情况,来推算用户对产品的需求程度。
综上,本文得出一份有关用户信息和行为的Tag标签。
从B站首页,我们可以发现,目前基于兴趣的推荐视频一般可以分为这几种:已关注、高赞视频、新星计划、关注的人赞过、广告和互动视频,这些标签正是基于内容或用户的tag标签推送到了用户面前,但单一的tag处理,推荐精确度上还有可以优化的空间。
二、打造圈层:内容类聚和用户群分
完成对内容和用户的tag处理后,这两者仍是个体,但个体间会因为标签的类似产生联系,从而多个个体能够进入同一圈子,权重和相似性通常被用作划分圈子内个体关联程度的标准。
1. 内容类聚
内容和内容之间的相似度常用创作者相关信息(认证、关注)或内容信息(频道、话题活动、关键词)来计算,而数据表现则一般用于排序展示在排行榜或热门中。
这一算法通常用于热榜推荐场景,比如动物圈下的热门标签汪星人、喵星人、大熊猫等,就是因为内容信息中关键词的相似而被划分为同一类视频,进而可以集中展示;或是搜索场景,依据关键词进行搜索,关键词用于和数据库内的创作者或内容信息进行匹配。
2. 用户群分
用户和用户之间的相似度常用用户行为来计算,这一过程被称为协同过滤,主要以基于物品的协同和基于用户的协同为底层框架。
基于内容的协同:
主体是内容,根据用户喜欢的视频,找到和这些视频相似的内容再推荐给用户。区别于上述的内容类聚,内容协同的过滤标准是用户行为指向内容的相似性,而后者的标准没有纳入用户的偏好。
基于用户的协同:
主体是用户,根据某一用户喜欢的视频,找到和这位用户有类似偏好的用户,再把这个群体所偏好的视频推荐给用户。
我们以B站不同视频的用户浏览情况举例,来区分这两类推荐方式。假设用户A喜欢看科技和数码区的内容,B站会给这类用户推荐什么视频:
根据给出的内容分区和浏览用户来判断用户的喜好,在基于内容的协同下,系统会给用户A推荐游戏区的内容,因为这三个分区的浏览用户相似度更高;而在基于用户的协同下,系统会给用户A推荐动画和游戏区,因为A和用户B、C的浏览历史相似度更高,而这个群体似乎更偏好这两个分区。
这一算法更常出现在推荐场景。观察下面这个例子,可以发现用户近期观看的偏好和关注up主皆是舞蹈音乐类,所以首页推荐同类视频的占比可以达到60%以上。
三、巧用推荐:B站up主与平台运营
1. up主运营建议
(1)内容冷启动
对于一个B站内新生产的视频来说,其数据表现在短期内并不具备很高的参考价值,所以可供推荐系统参考的是内容方的静态信息。从创作者相关信息来看,一个过去创作记录更优质的up主的新内容会在冷启动阶段获得更高推荐量;从内容信息看,标题、更新时间、关键词和封面则是主要因素。
(2)持续创作能力的培养
对于一名up主来说,标题、关键词的选取不过是短时间的哗众取宠,真正能获得稳定关注者和预期收益的关键在于提高内容质量、培养自身的持续创作能力。基于平台对内容原创度、垂直度和传播度的衡量,up主可以更有针对性的寻找自身擅长、热点度高的版块,并构建自身创作的周期体系,在更新时间、内容质量上保持稳定性。
(3)普通用户也可以训练自己的待看清单
利用推荐算法的机制,普通用户也可以参照其原理,训练自己的推荐清单,从而合理利用B站。比如,喜欢科普知识类分享的用户,在关注同类up主、延长科普类视频播放时长、增加点赞、评论、分享行为后,会发现首页推送会更合自己的兴趣。
2. 平台运营建议
(1)用户冷启动
相对内容,用户从注册到活跃,也会面临一个从0到1的过程,平台在此期间最重要的目的是通过优质内容提高用户活跃和留存。相比行为数据,身份信息是平台可以获取到第一手信息,比如依据手机品牌对用户偏好做出第一轮兴趣猜想。
但要留住用户,平台更重要的任务是寻找到小白用户的兴趣点,给他贴上标签、划分兴趣圈。一方面,平台可以通过某频道的强曝光逐步探索用户的兴趣,锁定具体分区并逐渐缩小范围,或是根据年龄这一维度更多元的属性来做用户协同推荐;另一方面,平台可以积极利用用户在初始阶段主动选择的分区、关键词搜索行为来逐步构建侧写。
(2)内容多样性和质量优化
平台给出的频道是有限的,而B站月均PUG视频提交量就可以达到310万,显然,把规模如此大的视频数仅用几个标签划分是远远不够的。因此,B站不仅允许创作者给视频添加已有标签和自定义标签,还允许观众给视频添加标签,丰富视频维度。
从质量上看,B站目前延长了对视频的审核流程,意味着对视频真实性、原创、价值引导上的审核会更加严格,这一优化不仅是对用户的尊重,更有利于平台的长期维护。
(3)推荐算法也要跳出封地
推荐算法的怪圈在于“信息茧房”,一种体现是,用户越是消费某一类内容,系统越会推荐同类内容,而其他内容被隔离在外;另一种体现是,数据表现越好的内容越能获得推荐,而长尾视频无出头之日。
针对前者,B站的推荐系统并不会止步于用户已有兴趣的推荐,而是会在探索中鼓励用户发现自身更多元化的兴趣,这就是基于用户的协同推荐要优于基于内容的协同的地方。
针对后者,B站在长尾视频曝光上,引入了新星计划(具体可参考:《从三个方面解读:B站用户激励体系》),也会提高首页推荐的权重。
(4)推荐系统>推荐算法
推荐算法并不等同于推荐系统,人工编辑也有一席之地。推荐算法下的信息流容易遇到热点话题刷屏等问题,而在价值、新鲜话题的反应上,人为和机器推荐的组合有时更能起到画龙点睛的作用。
(5)up主持续创作的引导
Up主持续创作的动力不仅来自于金钱激励,也来自于成就感、社交互动等心理激励,而合理运用推荐算法可以在满足创作者心理需求的同时,带来金钱激励。
尤其需要注意的是,B站目前月均活跃up主的数量已达到百万级,如何按照活跃度、关注度、创作质量等维度合理分配up主的推荐比重,是B站运营迫切需要解决的问题之一。
作者:47,关注内容&社交产品,信奉keep exercising , keep learning , keep optimistic
本文由 @47 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自网络
谢谢作者分享~ 想问下协同过滤公式是什么呢
对于文章有补充或想法的朋友,欢迎来找我讨论交流~
协同过滤原理解释的很清晰,期待作者分享更多推免算法模型