“标签体系”建设的复盘与思考(上),以“城市治理 | 舆情监测分析业务”为例详解~
许多业务都需要涉及到标签体系的建设,尤其伴随着业务的扩大,标签体系需要趋向精细化,以支撑最终的精细化运营。那么,标签体系该如何建设并应用至业务场景中?本文作者结合案例做了梳理和解读,一起来看。
写在前面
近来想要成体系地复盘一下自己做过的“标签体系”相关的内容,于是便有了本篇文章。
文章导读:
- 标签体系的必要性?
- 标签及标签体系,到底是什么?
- 标签体系的建设步骤和依据原则。
- 以“城市治理”业务下的 “舆情监测分析”业务场景为例,介绍和分享舆情监测分析场景下,舆情业务标签体系的设计方法和成果。
一、标签体系建设的必要性
各行各业在实现其自身业务目标时,都逃不脱的一个工作环节就是:标签体系的建设和优化迭代。在业务开展初期,标签体系往往无需过于庞大,满足业务使用即可;但随着业务的发展壮大,标签体系势必会持续迭代、甚至越来越精细化,以支撑精细化运营,而精细化运营的最终目的是提高营收,即让更多的消费者/客户,持续性的选择你的商品/你的服务(更多的用户、更多的消费频次)。
所以,我们看:不论是卖商品的电商平台,卖酒店服务的O2O平台,卖房子/租房子的链家平台,卖火锅的海底捞餐饮店,还是家门口的物美超市,还是提供内容服务的平台(如音乐App、小说(网络文学)平台(七猫、微信读书)、今日头条等新闻咨讯类平台,小红书),其产品逻辑内部,一定会有一个模块是【标签体系/标签管理】。
比如,在【人人都是PM】平台上,输入“标签体系”关键词搜一搜,就可以得到如下结果:
- 医疗健康行业:https://www.woshipm.com/pd/5639033.html
- 网络文学平台:https://www.woshipm.com/pd/4381688.html
- 海底捞都在给用户打标签:https://www.woshipm.com/operate/5335968.html
- 大促场景的标签体系与目标客群:https://www.woshipm.com/marketing/4175204.html
- 提高90%转化率,从0-1打造私域标签:https://www.woshipm.com/operate/5934106.html
那“标签体系”,到底如何建设?又应用在哪些业务场景和业务功能中呢?
首先我们要清楚,什么是标签,什么是标签体系?
——标签,是用来给你所分析的业务对象分类、打标签用的,需要包含标签名称、标签别名(可能需要有)、标签定义、标签数据样例。比如你对你未来另一半的期待,你可以用标签化的形式来提需求,比如“身高要大于180cm”、“学历不能低于本科”、“性别男”、“年收入50万以上”等等,这里面的身高、学历、年收入、性别,都是人(未来男朋友)这个对象的基本属性标签;
此外还可以有行为习惯、兴趣爱好的一些标签,比如“喜爱摄影”、“喜欢读书”等等;我们个人简历中的每一项内容,实际也都是基于“标签体系”来展开的。
再放大来看,我们对世界的认知,也是基于先人给世界(宇宙)中的万事万物定了义、分了类、打了标签。
- 对于零售/商超/电商场景:需要打标的对象有:人、货、场;
- 对于内容提供平台:需要打标的对象有:提供的内容本身(如提供的是音乐内容,音乐分为哪些维度?按国家、按音乐风格、按歌手、按流行度…?),以及潜在用户和老用户;
- 对于卖火锅的海底捞:需要打标的对象有:火锅本身的治理(包括:火锅底料:是番茄味的还是菌菇味的?火锅套餐有哪几种?(单人餐、双人餐、三-四人餐?)不同选择下,火锅价格如何定价?),以及其消费者标签又如何。
——而标签体系,顾名思义就是“形成体系的一个标签集合”,比如“知识体系”、“课程体系”,不是随便的一个集合就能称之为体系,这个集合(体系)要科学、合理,即遵循MECE原则,且要便于管理维护和迭代。
——也就是说建设标签体系,第一步是找到需要贴标签的业务对象;第二步在建立标签体系时,要满足科学合理(满足MECE原则)、可管理维护和可持续迭代,这几点要求。
好了,读到这可以了解到:
- 标签体系为何存在?(为何必要?)
- 什么是标签?
- 什么标签体系?标签体系有哪些建设步骤和要求。
在后续章节中,我会结合个人自身实际工作内容以及学习调研成果,以“【城市治理业务】中的标签体系建设”为命题任务,试图探讨如何设计【城市治理】这个复杂场景下的标签体系,包括如下两部分内容:
- “舆情分析”单点业务场景的标签体系设计;
- 多点业务场景融合的数据中台(数据融合治理平台)的产品设计及其核心功能(含标签体系)设计思路。
由于篇幅过长,上述【数据融合治理平台】部分内容,将在另一篇文章中进行详述。本篇文章,以“舆情分析”单点业务场景为例,介绍城市治理业务中/舆情分析细分业务场景的标签体系建设案例。
以下是一些“题外话”…
先设计标签体系,再建立产品?还是先有产品,再从产品中收集标签需求?
——这个“鸡生蛋、蛋生鸡”的问题,我举几个例子,读者便自有体会。
比如在公安业务中,公安体系下有不同的警种,包括:刑侦、技侦、经侦、禁毒、治安维稳、网安等等,不同警种其负责的业务侧重点不同,刑侦侧重于刑事案件类线索发现、刑事案件处置等;而网安部门,属于公安体系的支撑部门,即他们负责境内外网络上全部涉政类和违法犯罪线索类的收集、发现与上报(报给刑侦、经侦、禁毒..等具体的业务部门);
那对于厂商来说,要想设计一套可以解决全公安警种业务问题(网络涉政类和违法犯罪类线索发现和侦查研判)的产品来说,势必需要对客户的类型、业务进行分类,也要对系统生产出的数据进行分类,以使得禁毒的客户能够享用到禁毒相关的线索,而不是治安维稳相关的线索;
——你看,这是不是 与电商等领域的【推荐系统】的逻辑是一样的?
——给你的商品/服务打标签,给你的用户打标签,让你的商品和用户能够建立密切且准确的链接。
所以,这个案例就是【先设计客户标签体系】,然后设计产品,产品中提供的数据服务也要进行分类。
那从产品中收集标签需求,通常见于什么情形中呢?
上述公安业务-产品解决方案的案例中,给系统生产的服务(商品)分类打标,就属于从产品中收集标签需求,需要打哪些维度的标签,每个标签下需要几个层级,如何给服务(商品)(数据)打标?(机器打标还是人工打标?)打标周期如何?标签是不是要升级迭代?。
还一个情形就是:数据中台。
——数据中台,一般发生于有着非常庞杂业务的大公司内部,该公司内部由于服务的业务方众多,全部由每个业务方去单独搞一套系统(从数据生产获取->数据处理->数据查询应用),与建设数据中台相比,大公司都会在业务发展中后期,选择后者。一来可以节省重复造轮子的成本,二来可以更大的发挥数据价值。
——而建设数据中台,数据中台的产品经理,就势必需要向各个业务方收集/调研 标签相关的、数据治理相关的需求了。
二、舆情监测分析产品实战
1. 舆情业务需求分析
传统舆情系统,一般需要解决的是网上已经发酵的且积累到一定热度的且存在社会舆情风险的热点话题或热点事件的自动识别发现;以及潜在风险的发现(现阶段还没爆发为热点,但存在引发社会舆论风险的可能),并标记好分类,然后预警推送给相关客户(如网信办、高校、企业),以辅助客户能基于推送的舆情数据,分文别类的查看和进行舆情处置、多维分析和决策。
对于安全生产类的舆情事件/风险,政府部门重视程度非常高;
对于娱乐领域的一些日常的瓜,政府/高校并不关注;如果是文化娱乐经济公司,可能会关注其竞对公司的一些明星的瓜;
政府客户关注的更多的是:容易引起社会舆论风险和动荡的一些舆情话题或舆情事件或敏感有害内容的传播——境内全网治理、境外侧重在“涉我”的敏感/有害内容的发现及阻断;
而高校、企业客户舆情需求关注更多的是:与其组织相关的正负面舆情,包括其组织内部以及竞对或所处行业的网络信息的监测与分析与告警报送。
不论是政府客户,还是企业客户,其对厂商舆情系统的指标要求就是:快、准、全。
2. 舆情产品功能提炼 & 产品方案设计
通过分析不同客户的业务需求,以及对竞品(智慧星光-舆情产品、百分点-舆情产品等)产品功能进行调研分析,我们可以抽象提炼出【舆情产品】应该具备如下功能:
产品整体的业务逻辑为:
其核心底座模块:舆情数据采集、舆情数据处理与加工。
——这两部分,直接决定了舆情系统能否满足业务上的“快、准、全”指标要求。
上层的一些核心舆情业务应用模块:舆情监测、预警及分析。其中舆情自动监测分析及预警功能,是最重要的业务功能,也是考验各个舆情供应商能力的地方,数据采集和数据加工治理的成果基本就在【舆情预警】模块得以展现。
——快不快、准不准、全不全,够不够智能,使用你的【舆情预警】模块功能一段时间便知。
舆情监测分析,业务功能又包括:舆情事件与多维分析、人物监测与多维分析、话题监测与多维分析、账号监测与多维分析等,以及基于这些分析维度-提供报告编写和导出功能等等。
舆情事件分析功能包括:舆情事件概览、舆情事件脉络分析、事件传播分析、事件热度趋势分析、舆情事件下贴文/报道、网民和媒体关于该事件的观点及印象分析、网民地域分布等;
人物舆情监测分析-产品逻辑:
人物舆情监测分析-产品功能:
1)舆情产品-标签需求分析
在前面介绍到了,一个舆情产品的竞争力,在于:够不够快、够不够准、够不够全。也就是在舆情采集和舆情数据加工治理层面,各个厂商到底是骡子还是马。
市场上有这么几类厂商:
第一类:有强大的舆情运营团队,运营团队对标签拆的足够科学,且积攒了非常多的关键词词包,和一系列的规则策略经验配置——这往往是 没有什么AI技术实力的厂商的常见做法。——以智慧星光为代表,且在舆情领域,智慧星光品牌算是比较知名;
第一类,是没有那么多运营人员,但有非常强的算法和数据处理能力,以百度为代表,百度舆情SaaS产品为代表。
还有一类,既没有很强的AI算法,也没有人,这些厂商可能因为某种客户关系也会做一些舆情产品,但其终局无疑是被kick off。
决定你的舆情产品,够不够全、够不够快、够不够准,需要几个必备的资源支撑:
① 数据资源(跟钱、技术储备、法务挂钩)。
——开源的舆情数据,你能不能采,你能采多少?只能做境内的,还是境内外都能做?数据模态上,只能采文本分析文本的,还是文本+图片+视频都能采集、都能处理分析?
这里面要考虑和解决的因素:
- 成本和技术储备。视频存储的成本是巨大的,以及视频分析能力不是随便一家小厂商就能做到的——首先这家公司要具备视觉AI能力,或是可以用一些开源的视觉AI能力。
- 法务风险。开源数据采集,涉不涉及风控,会不会被告?明显的竞对,比如百度,其采抖音数据,基本上若被发现,就会是要狠狠告你的地步。因此一般的做法通常都是:通过采买或租用第三方厂商采集的抖、快、B站等平台的数据(小厂商采集数据去应用,虽然也会触发风控,但是可能没大厂之前那么严重)。
上述因素都考虑,且都能解决的话,在数据采集和简单的加工处理这一关是过了的。
② 业务资源(跟业务积累、业务经验挂钩)。
——你的舆情产品业务功能易不易用,你的标签够不够业务使用,还是需要舆情人员自己配置一大堆关键词和策略?你的产品出厂时,带不带预置标签,带不带自动监测预警功能?
如果这个问题,也能解决。那么你的【舆情产品】在市场上才是牛的。
但现实往往是,要么缺乏业务经验,要么缺乏AI能力。如果舆情系统都能又快、又准、又全,就不会有那么多领导黑料、各类负面舆情事件被扒出来了不是?
2)舆情产品-标签体系设计
进入正题:舆情产品-标签体系设计。
舆情-标签体系设计的是否科学合理,以及是否可持续管理和迭代,正是舆情厂商-在业务层面优劣势的体现。
一个好的舆情标签体系,一般标签分类较全(因为现在舆情市场几近红海),且积累了非常多的关键词词包和语料数据,且有配套的标签管理工具供标签可管理、可迭代。
——这些标签、关键词的积累,一般来自于客户和运营团队。
下面,我给大家详细介绍一下,我是如何建立【舆情产品/标签体系】的:
p.s.不一定对,但可以参考,后续若学到了新的方法,我再回来补充:)
大体分为三个阶段:
① 首先明确需要贴标签的业务对象有:人、地、事、物、组织。并明确每个业务对象,其建立舆情标签体系建设的必要性和优先级,以及建好后预期带来的业务收益;——建立时,按优先级顺序:事>人>组织>地>物逐步建立。
② 在建设具体每个业务对象的标签体系时,遵循标签体系的建设原则:科学合理(MECE原则)、可管理、可持续迭代。
A. 舆情事件分类体系构建
舆情事件涉及的范畴非常广,文化领域的娱乐明星的瓜,政法领域的领导班子的瓜,典型社会人物的一些行为,均有可能成为网络上的舆情热点。
为了使舆情事件(话题)分类科学,我采用如下分类纲领来进行设计参照,即政治、经济、文化、社会、生态五大一级分类,可保证标签完全穷尽。
在政治一级类目下,运用MECE原则,尽可能根据历史舆情案例情况,列举出政治领域的相关舆情风险。比如“国家安全”、“国际关系”、“执政形象”;在国家安全问题下,又包含:“意识形态”、“领土安全”、“恐怖活动”、“民族宗教”等典型问题,同时为满足MECE原则,每个标签下补以“其它”,使得标签完全穷尽。
其它一级分类向下拓展标签仍如此,需要对业务深刻理解(调研客户需求+调研竞品+搜集书籍相关资料),才能据此拆分出相互独立、又完全穷尽,又满足业务使用需要的标签体系。
——一个辅助人工定义标签的好用方法是“关键词法”(这篇文本内容中反复出现的词语,思考是否可以直接作为标签?)。
最终按上述方法,我构建了一套具有四个层级,共600+标签的舆情事件分类体系,这里列出部分:
在建好了这套标签体系后,为了使得标签可维护、可管理、可迭代,辅以【标签管理】工具/平台。系统AI算法和运营人员,均可以参照标签体系中对标签的定义(标签名称、标签数据样例、标签别名等)对业务对象打标。此外运营人员,还可以管理标签,修改标签别名、删除/编辑/添加标签语料等操作。
上述标签体系,运用在给系统的采集到的单条消息、热点话题、舆情事件(多条具有语义相似的消息组成的消息簇)打分类标签。
B. 人物多维标签体系构建
人物标签(画像)的构建思路:可以从“基本属性”、“行为习惯”两个维度来拆分;而关于人的基本属性标签和行为习惯标签,还均可以按事实标签(即真实情况)、机器预测标签来拆分;根据数据的获取渠道,还可以按“现实空间”和“网络空间”来构建。
人的姓名、性别、出生日期、车牌号、身份证号、社交账号、电话号等均可以看作是人的基本属性;
行为习惯,一般则由动态统计标签来构成,比如“最近3个月访问xx网站次数”这样来定义,也可以定义一个标签:“活跃”,其含义代表:最近x时间网络有发言且发言量大于n条(x,n支持配置);
C. 标签体系应用与迭代
- 目标多维检索场景【搜】:如通过人脸、人物声音、步态视频、社交账号、某个舆情事件,均可以检索到一个人;通过人/事件名称/地点/图片等,均可检索到舆情事件;
- 监测分析场景【推】:如系统发现某布控区域中,出现了 车牌号为xxx的红色跑车,便可进行车辆预警推送;如发现网络上及线下均有关于某一人物的投诉内容/投诉事件,则系统自动推送该人物告警;
通过标签的实际运用情况来进行迭代:
- 分别统计每个标签的业务使用频次,对一些低频的标签,进行分析,是实际业务属于长尾确实用不到该标签,还是标签本身不合理,从而进行优化(补充更多的语料数据,更明确的标签定义,让算法能够使用该标签)或“下架”处理;
- 有新的数据进来,发现原标签体系无法覆盖时,分析该数据出现的频次,若是高频且重要符合产品规划,则考虑在标签体系中增加该标签。
三、全文总结
本文回顾,本文主要介绍了如下内容:
- 标签及标签体系是什么?
- 标签体系的必要性?
- 标签体系的建设步骤和依据/原则:MECE、科学合理、可迭代。
- 以“城市治理”业务下的 “舆情监测分析”业务场景为例,介绍舆情监测分析场景下,舆情业务需求、产品的功能架构,以及舆情业务重点监测分析对象(事件和人物)的标签体系设计方法和成果。
期望我的复盘方法、产品方案设计思路,以及我分享的具体产品案例,能够对你有所帮助~如有任何意见和建议,欢迎评论区指出,我们一同探讨~共同成长~
本文由 @南方碟道 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
关于舆情系统中的一些AI需求,也会作相应补充~
注:文章中有些结构,小编调整的非我想要的~另标签体系不是越细越全、越大越好~相关内容明天补充~
写的不错!很干货