不会制作词云图?我来教你
编辑导语:云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。如今,越来越多的文章开始使用词云图来展示信息。如此便利的信息展示形式,你还不会制作吗?
词云图是数据可视化的一种常见形式,特别适合于文本数据的处理和分析,今天就来大略谈谈词云图。
一、什么是词云图
“词云”的概念最早是美国西北大学新闻学副教授、新媒体专业主任里奇•戈登(Rich Gordon)提出的。
词云(Word Cloud),又称文字云、标签云(Tag Cloud)、关键词云(Keyword Cloud),是文本数据的一种可视化展现方式,它一般是由文本数据中提取的词汇组成某些彩色图形。
词云图的核心价值在于以高频关键词的可视化表达,来传达大量文本数据背后的有价值的信息。
以央视网对浦东开发开放30周年庆祝大会的新闻报道为例(网址:https://news.cctv.com/2020/11/12/ARTIZeNIAERfxwqaQdNVIZOa201112.shtml),用在线词云制作工具易词云对该网页上的文本数据进行处理,得到了下图1所示的词云图。
图1 词云图示例
由上可见,词云图是由词汇、颜色、字体大小和图形四个要素构成的,它浓缩了文本数据的内容,通过文字、色彩、图形的搭配,产生了有冲击力地视觉效果。
词云图直观的表示了每个词汇在相应文本数据中的词频分布,通过使用不同的颜色和大小来表示不同级别的相对重要性,字体越大越显眼,对应的词汇被提及频率越高。
词云图过滤掉了大量的文本信息,使网页浏览者只要一眼扫过词云图就可以大致领略到文本所表达的主旨。
二、词云图有何特点
词云图作为对文本数据的一种再加工方式,本身存在一些优势,但也有一些不足之处。笔者认为,词云图有四个优点和四个缺点:
1. 四个优点
- 视觉上更有冲击力:词云图比条形图、直方图和词频统计表格等更有吸引力,视觉冲击力更强,一定程度上迎合了人们快节奏阅读的习惯;
- 内容上更直接:词云图本身是对文本内容的高度浓缩和精简处理,能更直观的反映特定文本的内容,在一定程度上能节省读者时间,让读者在短时间内对文本数据的主要信息做到一目了然;
- 应用范围广:词云图可以作为一种分析工具应用到用户画像、舆情分析等场景下,还可以直接嵌入到PPT报告、数据分析类产品、可视化大屏中,是对文本数据价值变现的一种手段;
- 制作门槛低:制作词云图的难度不高,没有数据处理技术背景的人也能做出有效的词云图来。
2. 四个缺点
- 区分度不足:词云图对词汇的表达采取的“抓大放小”的处理方式,对于词频相差较大的词汇有较好的区分度,但对于颜色相近、出现频率差不多的词汇的区分效果不是很好;
- 输出无统一标准:受制于分词技术、算法、词库质量等因素,不同的人对于同一文本数据,采取不同的词云图生成方式和图案,得到的词云图可能会有较大差异,有时候可能出现一些乱码,影响词云图的输出效果;
- 信息缺失问题:词云图对高频词汇能做到突出化处理,让高频词汇占据C位,但是对于大量低频词汇或者长尾型词汇所传递的信息不能做很好的表达,再加之这类词汇大多字体偏小,可能会让读者忽略掉部分信息。对于有特定要求的或者关注某些细节的读者来说,词云图可能无法满足他们的需求;
- 内容表达缺乏逻辑性:词云图是由各类词汇在空间上按一定图形组合而形成的,这些词汇都是从有逻辑结构的文本数据中拆分出来的,从文字变成了图形后,再呈现出来的内容失去了内在的逻辑结构,需要读者将高频词汇串联起来形成联想才能获取到信息。
三、词云图如何制作
制作词云图这件事情并不复杂,通常需要经过数据准备、分词处理、图形输出三个步骤。
第一步要做的是准备一份文本数据,要求文本数据中没有图片或音视频文件及其链接;第二步需要对准备好的数据进行分词处理,提取其中的关键词,并做词频统计;最后一步就是选择合适的图案,做要输出的图形进行个性化配置,生成想要的词云图。
从实现方法来看,制作词云图通常可以分为三种方法:借助在线工具、应用专门的软件、编程实现。
- 第一种方法:借助在线工具,也就是在网页上就能完成词云图的制作和输出。目前支持在线制作词云图的网站有:WordArt、Wordiout、微词云、易词云、美寄词云等;
- 第二种方法:直接使用有词云图制作功能的软件,比如:FineBI、Tableau、SmartBI、BDP等,词云图只是这些软件的一个小功能;
- 第三种方法:通过编程来实现词云图,常用的编程语言有Python和R。
对于有编程技术基础的朋友,可以自行用Python等制作词云图,对于没有编程基础的朋友采取前两种方法,这两种方法操作起来比较容易,有兴趣的朋友可以亲自尝试一下,笔者在这里就不一一介绍了。
作者:黄小刚,微信公众号:大数据产品设计与运营
本文由 @黄小刚 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议
要是有Python、R的词云图代码就好啦