国外幕后人员分析新浪微博的删帖机制

0 评论 6554 浏览 1 收藏 3 分钟
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

鉴于微博API的限制,研究人员主要跟踪了最可能会发敏感帖子的敏感用户组。从2012年7月20日到9月8日,研究人员利用API以每分钟一次的频率搜索3500位用户的时间线,以每四秒一次的频率搜索公共时间线。由于新浪微博不支持匿名查询,所以他们利用Tor隐藏IP后创建虚假用户帐号。他们共收集了238万用户时间线帖子,删贴率是12.75%。考虑到新浪需要处理的大数据集规模,发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用自动方式处理,新浪是如何做到迅速发现和删除敏感帖子?研究人员提出了六个假说:

1.新浪微博有一个监视关键词列表,审查员将会浏览包含这些关键词的帖子决定是否删除。

2.微博有针对性的监视频繁发敏感帖子的用户。

3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的全部删除。

4.通过关键词搜索,微博删除了追溯的帖子导致了特定关键词在短时间内出现删除峰值。

5.审查员工作是分布式的,相对独立,其中部分人可能是兼职。

6.删贴速度与主题有关,根据主题的敏感度删除速度存在差异。研究人员利用自然语言处理技术进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。

研究人员总结了微博的过滤机制,其中主动过滤机制包括:显式过滤,微博通知发贴人他们的帖子内容违反了内容政策(但有些时候用户并不清楚到底是因为什么敏感词受阻);隐式过滤,微博需要在手动审查帖子后才会允许帖子上线;伪装发帖成功,其他用户看不到这位用户的帖子。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
12722人已学习12篇文章
活动策划,既是脑力活,也是苦力活,因此你需要尽量把各种情况考虑到。本专题的文章分享了如何策划一场线下活动。
专题
35292人已学习18篇文章
借用别人家的经典案例,来扒一扒社交电商。
专题
15024人已学习14篇文章
RBAC是一套成熟的权限模型,在传统权限模型中,我们直接把权限赋予用户。而在RBAC中,首先把权限赋予角色,再把角色赋予用户。本专题的文章分享了基于RBAC模型的权限设计。
专题
17035人已学习16篇文章
ERP是一种以系统化的方式,将企业内部所有的业务流程和数据进行整合和管理的软件系统。本专题的文章分享了ERP系统设计指南。
专题
17985人已学习17篇文章
随着互联网的不断发展,不少产品开始了适老化改造,帮助老年人更好地融入智能生活。本专题的文章分享了适老化的设计思路。