公众号影响因子的可行性分析：公众号文章“被引量”指标

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

公众号影响因子的可行性分析：公众号文章“被引量”指标

张佳的AI实战笔记

2017-08-15

2 评论 6309 浏览 15 收藏

9 分钟

文章从学术论文中的“参考文献”说起，延伸出了一个可衡量公众号文章质量的指标“被引量”，脑洞很大，其中的思考方式不妨我们来学习一下。

学术论文有一个必不可少的部分，叫做“参考文献（References）”，在这个模块里你要把你在本论文中引用观点的来源标注出来：

参考文献作为论文的一个重要部分，一方面表示了该篇文章是基于什么样的研究基础展开的；另一方面，对于被引用的论文，被引量代表了该文章的影响力和价值。

学术领域无人不知无人不晓的汤森路透基于文章的被引量会发布一个期刊引证报告，报告的核心指数称之为影响因子。

影响因子（Impact Factor，IF）是汤森路透（Thomson Reuters）出品的期刊引证报告（Journal Citation Reports，JCR）中的一项数据。 即某期刊前两年发表的论文在该报告年份（JCR year）中被引用总次数除以该期刊在这两年内发表的论文总数。这是一个国际上通行的期刊评价指标。

影响因子现已成为国际上通用的期刊评价指标，它不仅是一种测度期刊有用性和显示度的指标，而且也是测度期刊的学术水平，乃至论文质量的重要指标。

谷歌学术也采用了相似的H指数作为学者和期刊评价的标准：

所以我在想，公众号的文章可不可以引入这么一个“被引量”指标，用以评价一篇文章或者一个公众号的水平呢？

学术文章的被引量很容易计算，因为国家有明确的法律法规和标准，只要有足够全的学术文章便可以计算出某篇文章的被引量。

对于公众号来说，计算被引量所需要的数据也是完善的。

首先，功能层面

2017年6月6日，公众号开放了“插入全平台已群发文章链接”的功能

这个功能的开放为添加“参考文献”提供了可能。

然后，数据层面

目前内容创业服务公司新榜保持每天对44.8万个公众号文章的采集工作，几乎包含了所有活跃的公众号。这部分公众号的文章在新榜数据库是可检索的。

最后，技术层面

要获取文章的“被引用”情况，首先需要知道文章的被引用的情况，然后需要知道文章的来源（即公众号）。

而这两个数据，也是全部可以得到。

文章引用行为的获取

我们打开一篇“引用了”其他文章的公众号文章，F12检查文章的源代码可以看到，文章是以超链接的形式出现的：

所以在采集文章时，如果在源代码中采集到

<a herf = “http://mp.weixin.qq.com/s?__biz********************* “>文本</a>

的字段，则可以认为此处有“引用”行为。

引用来源分析

找到了文章的引用行为，我们需要对被引用的文章进行分析，分析的核心在就于这篇文章的链接，也就是刚才herf后面的那一串。

幸运的是，微信在链接里保存了我们需要的所有数据。

以刚才那篇文章的链接为例：

http://mp.weixin.qq.com/s?__biz=MzU1MTAwNzY4Mg==&mid=2247483897&idx=1&sn=893614b6d6fd28d04b0f51e7c857c876&chksm=fb96a554cce12c4266018f581467f009021b89f5df0d546b1d08f4a08055ce17916f2ae74745&scene=21#wechat_redirect

我们把链接分为三部分：

http://

mp.weixin.qq.com/s

__biz=MzU1MTAwNzY4Mg==&mid=2247483897&idx=1&sn=893614b6d6fd28d04b0f51e7c857c876&chksm=fb96a554cce12c4266018f581467f009021b89f5df0d546b1d08f4a08055ce17916f2ae74745&scene=21#wechat_redirect

了解链接组成的同学们应该知道，前两部分是链接的主题，每个文章的链接都是一样的。关键信息在于“？”后面的部分。

在链接里，“？”后面的部分是链接的传参，顾名思义，就是向服务器传递的参数，是对链接的解释（或者叫备注）。

观察链接里的参数，有五个：