「用户研究」基于游客评论的消息价值挖掘实例

10 评论 2956 浏览 25 收藏 14 分钟

编辑导语:读懂客户对于用户研究工作过程中极为重要,本文作者分享了基于游客评论的消息价值来做用户研究的相关内容,讲述了游客研究的过程和步骤等,感兴趣的一起来看看。

上一篇文章从理论与工具推荐的层面分享了如何从评论中读懂用户,这篇文章我将从头到尾将用户评论的获取再到内容分析的样貌全盘呈现,以期对评论分析有需求的同学们提供更加详尽的帮助。没阅读上一篇文章的可以点击我的个人主页查看。

为了使行文更加便捷,本篇分享我将以评论丰富、反爬措施宽松的旅游行业举例。假如我是冯小刚电影公社的管理者,面对各个OTA平台海量的游客评论,开始了自己的游客研究之旅。

一、评论内容的获取

据浏览发现,景区的在线评论集中在几个头部OTA网站,分别为携程、去哪儿、途牛、美团四家。

第一步先将景区在这个平台的网址搜集下来,分别进行评论内容的采集,文中以

携程网为例。

第二步打开Python,编写代码(网上也有很多可以直接调用的代码),配置好你所需要爬取的页数范围以及所期待爬取的字段,开始采集即可。如若需要携程评论爬取的源码,评论区留言即可。

倘若是非编程手段,这里以后羿采集器为例,安装好后,输入网址,点击智能采集,等待加载页面,在页面底部编辑将不需要的字段剔除,文中只保留了用户id、评论内容与评论时间。

在爬取完后,生成excel表格,打开表格可以见到已经采集完毕,共得到3900条数据,至此数据采集阶段结束。

二、第二步、预处理评论数据

分词与去除停用词。打开Rost cm6软件,发现其只支持文本格式的内容,于是将excel表导出为文本格式。而后在Rost cm6的界面中打开分词窗口,选中待处理文件,选择结果保存位置,选择停用词表,而后确定运行即可。

三、第三步、词频分析与情感分析

同样的是Rost cm6,打开词频分析窗口,选择上个步骤中输出的分词结果,确定分词,得到按照词频排序的excel文件,将其按照景区风格、娱乐体验以及情绪感知三个维度分类,归结出以下表格。

由表中内容可以见得在游客心目中冯小刚电影公社的风格维系在与景区定位相一致的水平上,即由高频词中的“芳华”、“南洋”、“民国”、“穿越”等词语相对应,也能看到“海南”、“海口”代表地方特色的区位词被反复提及。

其次游客对景区的娱乐体验的感知则绝大部分集中在“拍照”上,“服装”、“衣服”、“旗袍”等代入式的拍照体验也表明景区给游客带来的价值多是单向互动的环境塑造,同时从“门票”、“票价”中可以看到游客对于景区的门票售卖颇为看重,另外“晚上”、“夜景”频繁出现,表明相较于白天景区,晚上的冯小刚电影公社具有另一番特色。

故而被游客在意,而景区内的“冰雪”大世界、“海洋馆”也给游客留下不少印象;此外,高频词的情绪感知维度中,见到“值得”、“好玩”、“好看”、“方便”等词频现,同时也见到“不值”、“收费”、“太贵”、“便宜”等对立的感知,可以见得在不同群体的判别标准中,票价与景观具有截然不同的作用效果。

到这一步就可以实现了最基础的文本分析即词频分析,接着为了使词频更加可视化,将其导入到上一篇文章推荐的词云网站中生成词云。

依旧是在Rost cm6域内,打开情感分析窗口,导入未分词的评论文本,一键分析即可,经过简单处理,得到冯小刚电影公社的游客评论情绪如下。可以发现游客对冯小刚电影公社的评论中积极情感比例大于消极情绪的比例,总体情感偏向大致呈现积极态势,而且情感的极端性不显著。

四、第四步、语义网络共现

方便起见,本文只在Rost cm6中生成最基础的语义网络图,生成过程不做赘述,与上文提到的词频分析、情感分析相似。得到语义网络图如下(本文将其按照积极情绪与消极情绪分别制作了语义网络图)。

1. 积极情绪

冯小刚电影公社游客表达的积极情绪多为好看、好玩、适合等,这些积极情感的产生与景区目的地的服务定位相合。

从积极情绪的语义网络结构图可以看出,“拍照”作为中心节点之一,与“旗袍”、“衣服”、“服装”等词汇密切联系,同时“晚上”也是频繁提及的词汇,证明拍照这个娱乐活动在游客的体验中掺杂着诸多与景区内的服饰提供服务联系密切。

再看到以“建筑”为中心节点的词群,“南洋”、“民国”、“穿越”、“年代”等词汇频现,与景区的建筑风格完全相一致;另外看到以“芳华”为中心词的词汇则多和“公社”、“冯小刚”、“拍摄”、“小院”联系起来,可以认为在景区里,芳华小院的地位不轻,多为游客关注且产生好感。

2. 消极情绪

游客在消极情绪中多展露出懊恼、遗憾等。其产生原因与门票价格与景区内容管理以及游客自身认知等多种因素相关。

景区门票价格的设置不合理导致了游客体验情绪不佳,致使产生消极情感。从消极情绪的语义网络结构图(右图)中可以看到,以“门票”与“景区”两个关键中心词为节点的词群中表现出了主要的消极情感。

例如“门票”连接的“还要”“不便”二词反映出园区重复收费等现象严重,激发游客的不满也使游客感觉游玩体验的完整性被破坏;另外“景区”连接着的 “不大”“票价”等词有效反映出对于部分产生消极情绪的游客来说,冯小刚电影公社的面积以及内容不够丰富,使得游客产生景区较小值不回票价的遗憾情感。

五、第五步、主题分析

本文使用到基于TF-IDF方法的主题词聚类分析,TF意为词频,用来测算词条出现的频率,而IDF意为反文档频率,用来衡量前述词条的普遍重要性。

其计算公式为:

TF-IDF=TF×IDF

对已经经过调查上述数据预处理的在线评论文本另存为xlsx格式导入Python,进行LDA主题模型构建,采用TF-IDF方法,反复试验调整词汇表为最高阈值为0.4(即该词在超过40%的评论里出现过则作废,认为其无特征意义),聚类主题数为4个。最后得到的在线评论主题词分类结果如下表所示。

主题词聚类的结果显示,游客对冯小刚电影公社的感知因素有主打特色、娱乐设施、基础设施与情绪感知四个方面。可以认为较有多面性与复杂性。并且主题聚类结果与上文词频分析人脑归结出的三个类别高度重合,很符合预期。

冯小刚电影公社的景点之一即摄制场地,表现在游客体验中频繁表现出的“芳华”以及“电影”、“公社”以及“小院”中,证明其在游客游览的过程中产生了重要影响且评价多为“不错”。

同时可以从第二个主题中看到游客游玩体验到的“拍照”、“穿越”感、“民国”、“南洋”以及“天气”是为其娱乐过程中着重在意的感知,备受青睐和关注。

另外从游客的情绪感知即第四个主题可以看到“性价比”、“不值”,“喜欢”、“一般般”等对立的情绪感知,可以认为对不同人群来说,冯小刚电影公社的体验不尽相同,或为价格敏感型顾客与否的区别,景区可以从价格歧视的角度出发设置票型以顾及不同消费者群体的感受。

六、第六步、给结论

经过上述游客评论分析,作为冯小刚电影公社的管理者就可以总结出以下结论以支撑在运营与管理侧的改良。

  1. 其一,改善景区入口服务。景区应该制定合理的定价策略,例如考虑到价格接受程度不同的游客的体会,实现差别定价策略。在景区可以接受的范围内,对不同游客如普通游客、学生、幼儿、老年人等定义不同的价格标准。再有就是错峰调整票价,节假日等旅游旺季不妨全价,而在旅游淡季时,票价就需要折扣,同时不同渠道的购票也应该差别定价。同时将套票的价格放低,鼓励游客购买优惠的套票,以鼓励游客体验景区全貌。
  2. 其二,景区内应该增加导游类服务人员,为游客游玩时长做加持,使不爱拍照的游客也能在工作人员的讲解下沉浸在景区的风格与建筑背后的故事中,减少类似不值票价的情感出现,使此类游客的游玩时长加长。
  3. 第三,加强市场监管,提升旅游服务质量。对市场监管的加强,严格规范冯小刚电影公社景区内的各类市场行为,对提供的服务、产品的质量制定一套统一的标准。坚决禁止宰客的行为出现,尤其对景区内的服装租赁服务加强监管。以一系列的措施解决游客游玩中遇到的问题,减少游客的消极情绪产生。

 

本文由 @ 我叫徐知鱼 原创发布于人人都是产品经理,未经作者许可,禁止转载

题图来自 unsplash,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 想问一下最后一个主题分析和词频维度是一个东西吗?我可以根据自己的目标自行进行主题分类吗?

    来自湖北 回复
    1. 文中的主题分析是基于TF-IDF方法做的,如果你需要自己手工做主题分类的话,不需要采用这个算法,或者仅将它的结果作为辅助即可。商业分析相对来说不需要像学术那么严丝合缝,能表达清楚自己的观点即可。

      来自浙江 回复
  2. 作者有公众号嘛,想追更了

    来自北京 回复
  3. 您好,我又来了。请问在分词中,处理的数据是否需要包括日期和用户名呢?主要分析内容是否是指评论内容呢?感谢您的分享。

    来自湖南 回复
    1. 日期和用户名是不包含的。分词的对象就是评论内容,所以将Excel转化为文本文件导入rost cm6的前一步,需要把id和日期字段删除。没有在文中体现很抱歉,但是您问出这个问题应该也意识到正确的操作办法了,赞。

      来自浙江 回复
    2. 感谢您的指导。后来意识到了,修改过后的分析内容更符合需求了。

      来自湖南 回复
  4. 您好,请问一下,在第三步“确定分词,得到按照词频排序的excel文件,将其按照景区风格、娱乐体验以及情绪感知三个维度分类,”这里,按照维度分类是需要手动在EXCEL里分类的吗?

    来自湖南 回复
    1. 是的,需要手动划分,我省略了这个步骤,因为这属于是主题分析的一部分了,本文中的纬度划分是基于学术届的一些共识/结论进行划分的,这种景区的感知维度一般来说就包含他们仨。而在上一篇文章中我主要介绍了基于算法模型的「lda主题聚类」,本文中也有用到lda主题聚类分析,并且和这里的维度分类较为拟合。

      来自浙江 回复
  5. 很有帮助的用户研究方法!大范围的评论确实可以反映出存在和需要改进的问题。

    来自云南 回复
    1. 谢谢你的认可🫶

      来自浙江 回复