难道线下数据只有热力图这个用途么?
线下数据不光只是通过热力图来看,重点是如何用这些数据,构建人群画像,获取潜客,来达精准化营销,资源配置,估算人口,招商引资等。
背景
每个做数据分析的人员应该尝试过热力图,热力图包含线上&线下,线上的热力图其实根据用户点击次数来绘制,其目的就是给网站运营&移动运营产品经理等提供对页面按钮&功能参考,从而得知用户兴趣倾向,精简按钮等。
而线下的热力图又叫等值线地图(choropleth map),以不同颜色表示不同的人口密度、天气情况、人均收入、或者社会价值等。我们的现实生活中用的最多的是反应人口密度的线下热力图,但是我们通常也往往遇到一个问题,这些漂亮的图有啥用?同时,也会引起我们的反思,难道线下数据只有热力图这个用途么?
线下数据的数据源
先说用途之前,我们先说说人口密度数据从哪来,线下热力图的核心就是获取:经纬度;地址。
线下热力图的数据可以从几个方面来说:
1、IP 地址
IP可以通过各种网段来判断地址,目前IPV4协议使用的是32位地址,约有42亿个地址,全球共用,中国约分配到6000多万个IP地址,同理各个省、各个地区的地址段也不一样,因此可以从地址段ip数判断用户密度。
但是,现在大部分ip地址是动态ip,如果用ip地址打比方是门牌号的话,动态ip地址就是反应此用户经常搬家,门牌号不固定,这样不能精准定位人群以及确定用户的活动范围。
所以,IP地址通常定位的数据范围是城市、省。
2、GPS
GPS全球卫星定位导航系统,常用的设备中其他蜂窝电话网络如GSM/GPRS也有类似自定位技术。
但是一般而言,GPS会有很多问题:
- 需要开启定位功能的终端或者APP。
- GPS定位卫星的标准钟时间不统一,致使在计算客户端到相应卫星的距离时有误差。
- 运动状态,GPS信号频繁变化。
3、WIFI
其原理就是用AP(路由)接收Beacon,或者发送请求帧(probe request)。
- 被动扫描:就是我们说的wifi 探针,原理就是通过安装在特定的路由,通过握手协议将手机mac地址收集。
- 自动扫描:手机不定时会发送请求收集wifi信号,同样也是握手协议,但是我们知道ssid和bssid,但是不知道他们的对应关系(ssid 可以理解路由器名称;bssid其实就是路由器的mac地址)因此很多公司会派出很多人力去各大地方用自己手机探测wifi去寻找bssid。
同时,不管主动扫描、被动扫描,wifi信号强弱都会被同一个手机握手协议去收集(即穿墙技术),只能通过规则,时长等来判断此设备到底停留在具体位置。
再者,由于iphone ios8 以上,会发送假的mac地址,因此,不能只通过握手协议来判断,所以wifi确定的大部分设备系统为安卓。
线下数据源其实对后期数据用途的理解起到一定作用,那么我们这就聊聊线下数据应该怎么使用。
线下数据用途
用途1:估算人口,合理配置资源
我们常用的线下数据是反应人口比例密度,来估算某处的人流量,来提供线下资源配置建议。
分析步骤如下:
案例1
获取IP定位分析城市:
例如某金融机构,根据他们手机数据IP来源查询到位于深圳的客户最多,因此想重点探查下深圳现有网点和人流密度差异,即想查看某处周围人流密度是否过于稀疏、集中而应该减少、增加网点,支持业务需求。
同时,通过对热力图采样的人流数据,和实际人口统计的人数,估算某地点的人数,与实际kpi核对是否达到设置网点的承载能力。
于是,线下数据用途之一观察热力图,估算人口(见下图),我们可以根据估算的用户数增减网点配比。
当然这里是数值是用手机的GPS数据来反应人口密度,数值还可以用发声用户量,人口属性(男女),年龄段最多人数比例等,或者app类型数据等来反映,其目的是要解决实际业务和线下数据问题,这里不赘述,欢迎讨论。
绘制线下热力图&增加网点分布:
统计时间:15年7月1-7月6日。
统计口径:在统计时间内打开此金融机构app并开启定位功能的设备获取的经纬度。
分析步骤:绘制基于设备热力图后,增加此金融机构网点分布。
分析目的:估算的用户数增减网点配比。
分析结论:
从图中可以看到编号9、10、13附近,应该增设网点、而在64、70、37附近应该减少网点。
案例2:根据工作日VS周末的不同时间,来估算人口数量
下图占比为抽样数据中指定时间内出现在特定地点的流量占比。借助流量占比,结合深圳人口,估算以上地区的流量。下图工作日的设备密度大于周末,如工作日海岸城在下午和晚上密度较大,周末则选择18点后去海岸城。
那么,在配置网点时候可考虑周末在海岸城地区多延长运营时间。
用途2:线下人群聚类,构造用户画像
用途1学会了看热力图,如果我们想了解某个地点的人群画像,一般情况下是通过围栏圈定人群,在根据用户其他属性做分析得到,此处的数据一般互联网公司线上属性都可以收集到,就可以刻画出来。(此步骤本文不做重点分析)
但是我们想多维度的了解用户,给用户分类,标签客户,精准化营销,这时候就需要做聚类。
分析步骤如下:
数据获取&数据加工:
案例3:某商业地产客户想了解用户线下访问店铺情况,在精准营销同时,合理配置店铺资源。
数据说明:
- 以某商业地产筛选为目标客户,在为期一周内出现在商场的用户。
- 数据收集根据wifi探针方式,用访问手机设备来假设人流密度情况。
- 筛选规则为访问时间大于半小时,同时排除24点到早6点访问的客户(由于wifi探针缺点,防止将员工作为客户,同时由于wifi的穿墙技术防止用户没到店铺认为访问店铺,故定制筛选规则)。
在统计周期内,若该客户访问店铺满足筛选规则,则标记1,否则为0,具体变量(即店铺类型)如下表:
客户分群:
根据建模结果,因此将客户分为下图四种类型,左图表示用户对品类倾向性,取值范围在0-1,倾向性由弱变强。例如人群1的特点是美体美发相对于人群II-IV数值偏弱,同时对比自己其他品类,例如西餐快餐,明显表达出访问频次少的特点。因此可以判断他的性别为男性为主。同时,对中餐访问的倾向性高于其他人。故给人群I定位为传统生活型用户。
由于其他人的自身特点,按照左边表格得出的数值,依据下图故命名为四类人群。
分析解读:
我们根据聚类了解了用户的线下访问店铺特点,那么这些用户线上特点是什么样呢?我们由于抓取的是mac地址,因此可以得知用户的设备,根据数据公司匹配,可以了解用户的线上特性,例如机型、活跃设备,这样可以结合线下数据&线上数据的打通,定制化营销。
例如: 快捷消费型用户偏重XX宝钱包,以及某银行支付,那么可考虑在某宝页面中增加此商业地产宣传,增加优惠等信息。
同时,根据用户匹配线上资源我们得到营销建议。
具体的聚类方法的实现过程,和细节会在之后的文章中涉及到欢迎各位订阅我的运营号。
用途3:线下圈人,预测潜客
我们现在了解已知客户的人群,如何来找的潜在客户人群,了解相似人群分布,便于我们在招商引资过程中合理配置资源,比如偏爱中餐的用户中我们通过预测得知他们在北京角门东分布集中,那么如果在角门东某商业地产多引资西餐显然并不合理。
但是如何构建潜在客户呢,其实,这里面需要运用预测模型,常用的是逻辑回归,分为正负样本,其中某一类变量是线下地理位置,在对潜客进行预测打分。
但是大部分公司线下地理位置加工只是停留在区域,并没有归类,例如:我们知道某处幼儿园的用户,但是我们不知道这一个省份中所有幼儿园的用户,一般来说我们圈定人群就是根据经纬度来划分,但是我们需要找寻某区域所有幼儿园附近的用户,这需要数据公司人为归类,同时利用geohash技术进行详细规整。
下图简版的地理位置数据加工,我们根据热力图情况和每时段人次,找寻人口密集的地域,例如某时间周期内,出现人数最多的是四川省成都青阳区,我们知道他的经纬度(GPS获取),从百度地图中看出附近是交通枢纽,在用geohash(精度4-6) 来圈定出现过此区域的人群都是在交通枢纽,这部分就是所说的地域加工。
这个是构建模型加工数据的变量之一,我们后续在区根据其他变量,例如线上属性,手机品牌等,来构建逻辑回归预测人群,很多公司也叫此技术为lookalike技术,但是每家公司变量加工维度,变量获取不同,因此只能给出一个打分排序,分值高低不能说明问题。
最终营销建议:
小结
因此,线下数据不光只是通过热力图来看,重点是如何用这些数据,构建人群画像,获取潜客,来达精准化营销,资源配置,估算人口,招商引资等。但是,这些是方法,我们需要了解线下数据的获取来源,以及优缺点,这样我们在做人口估算,人群画像,预测过程中才能有的放矢,取长补短。
作者:冯大福,新人,公众号:说说数据分析那些事儿
本文由 @冯大福 原创发布于人人都是产品经理。未经许可,禁止转载。
中国最伟大
这句话得这么说
您好有些问题需要了解一下
案例3中是怎么根据建模结果,将客户群分为4类的?求解
哦哦
哦