全球专利数据要怎么玩才有趣?之 突发热词(四)
掌握突发热词的计算方法,可以帮我们从全球专利中捕捉企业最新研究热点、了解某位专家近期研究热点以及掌握特定区域近期研究热点
一、说职场故事
在实际产业研究中,有这样的研究需求:
- 捕捉企业的最新研究热点
- 了解某位专家的近期研究热点
- 掌握特定区域近期研究热点
本文将探讨如何利用全球专利数据挖掘技术,揭示近期的研究热点。
二、热词的计算方法
在深入挖掘之前,我们首先需要了解热词的计算方法。热词指的是在特定时间内,出现频率低但增长迅速且具有持久性的词汇。
计算热词的方法主要包括:
- 贝叶斯平均法
- 牛顿冷却定律
1、贝叶斯评价法
v: 某一个词出现的总频词
m : 所有的词出现的频次总和/词的数量
R:某个词当前出现的次数/该词出现的所有次数
C:∑ R /词的数量,即所有词的平均基础得分
WR越大,说明热度越大
如下计算方式:
2、牛顿冷却定律
为了防止除数为0,可以将公式改为:
冷却系数越大说明热度越大。
三、说应用场景
根据不同的研究需求,我们可以选择相应的专利数据集,并通过分词技术(如jieba分词、LAC分析或大型语言模型)进行处理。然后,根据贝叶斯平均法或牛顿冷却定律计算候选词的热度,并按降序排列筛选出热词。
在实际中有以下应用场景:
- 捕捉企业的最新研究热点:获取企业专利数据集,计算最近时间内企业出现的热词及热度。
- 了解某位专家的近期研究热点:根据专利发明人和专利申请人获取某个专家在最近时间内出现额热词及热度。
- 掌握特定技术的近期研究热点:根据IPC获取专利数据集,计算某个技术最近时间内出现的热词及热度。
- 揭示特定区域的近期研究热点:获取区域内专利数据集,计算区域最近时间内出现的热词和热度。
四、写在后面的话
本文介绍了利用贝叶斯平均法和牛顿冷却定律计算热词的方法,在实际应用过程中注意使用的灵活性:
- 计算方式的灵活性:在实际计算热词可以将贝叶斯平均法、牛顿冷却定律结合使用,综合热度= a * WR + b *a(W),其中a,b可以根据实际效果不断调参。
- 使用对象的灵活性:热词挖掘方法不仅限于全球专利数据,也适用于其他时间序列的文本文件,如论文、期刊和项目数据。
本文由 @王海涛 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
评论
- 目前还没评论,等你发挥!