解密OneEntity体系 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

解密OneEntity体系

2024-04-22

0 评论 2823 浏览 1 收藏

技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

为打破数据孤岛，创造更大的数据价值，阿里设计了OneEntity，来提供全域数据与服务。本文作者分析了创造OneEntity的原因和价值，解析了OneEntity体系。

前几篇你跟草帽小子一起了解了阿里数据中台的建设计划，接下来我们一起来解密OneEntity体系。

一、数据孤岛

阿里巴巴作为一家包含多条业务线的公司，如电商、金融、广告、文化、教育、娱乐、设备和社交等领域，数据区域包含国内、国外；数据场景包含线上的人货场钱、线下的人货场钱位置等数据，以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。

仅是与人相关的数据就包含业务账号信息、PC cookie、无线IMEI与IDFA等设备标志、身份属性等。

而随着人们互联网行为的多样化，如果每天都有数千亿条实体数据产生，而这些数据都分属于不同业务单元，那么数据就很容易孤立。

阿里巴巴云上数据中台之道04——解密OneEntity体系

草帽小子思考：以前总是不理解数据孤岛这一部分，明明已经建立了onedata体系，做好了各业务线数据接入，ODS层数据全面接管，明明数据都汇总到了一块，为何还说数据孤岛呢？

直到真正开始做用户画像这一工作才发现，底层的指标体系往往是直接面向各个业务线内，缺乏一个业务线间的关联，这是由业务局限性导致的。比如说，你是淘宝的运营人员，那你会关注钉钉的指标体系是怎样的吗？

答案是显然不会。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

那这样就产生了数据的断层，单是从底层的指标层，用户在钉钉的行为习惯，淘宝的人员是无法获知的。那如果我作为淘宝的人员，既想知道他在淘宝上购物行为，也想知道他在钉钉、支付宝、优酷等地方的行为习惯，又该从何得知呢？

二、数据只有融通才能真正产生价值

为打破数据孤岛，创造更大的数据价值，阿里设计了OneEntity来提供全域数据与服务。OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。

阿里巴巴云上数据中台之道04——解密OneEntity体系

1. OneEntity统一实体

将若干个实体归拢到一起，并命名为OneEntity，可分为一般质量、高质量、高价值OneEntity。

2. GProfile全域标签

基于归拢后的数据对OneEntity进行贴标签的操作。在OneEntity体系中，如何为OneEntity贴上标签并找出高质量、高价值的OneEntity是最常见的问题。

这几离不开标签的萃取能力，那阿里是怎么萃取标签的呢？

阿里巴巴云上数据中台之道04——解密OneEntity体系

（1）有效

一方面，主动去找人口学、社会学等学科的教授，学习与“人”相关的理论知识；

另一方面，调研了很多业界的标签分类体系，取长补短。

最终，将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分，具体包含4大类：

人的核心属性，可分为自然属性、社会属性。

自然属性：是指人的肉体存在及其特征，是人自出生后自然存在的，一般不会因人为因素发生较大的改变。例如“性别”“生肖”“年龄”“身高”“体重”等。
社会属性：指人在实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。例如经济状况、家庭状况、社会地位、政治宗教、地理位置、价值观等。

人的向往与需求，可分为兴趣偏好、行为消费偏好。

兴趣偏好：是人堆非物化对象的内在心理向往与外在行为表达，是一种法子内心的本能喜好，与物质无必然关系。例如渴望爱情、需要安全感、讨厌脏乱环境等。
行为消费偏好：是人对物化对象的需求与外在行为表达，涉及各行业，与物质世界存在千丝万缕的联系。例如母婴行业偏好、美妆行业偏好、洗护行业偏好、家装行业偏好等。

在以上四大类的基础上，我们又尝试根据不同的业务形态进一步细分二级、三级分类。

（2）高速

标签的萃取工作包含：数据采集；清洗，去噪声并统一；反复试用并确定最佳算法及模型；为模型选择计算因子并对模型中的每一个计算因子调配权重；产出标签质量评估报告以辅助验收。

我们随机抽查了若干个在用的标签，预估工作量和工作周期，一个有价值的标签的萃取，平均耗时2周。

慢的主要原因，一是由于萃取流程复杂，每个标签萃取都依赖底层的基础数据，而较少依赖上一层汇总的数据中间层数据；二是大量重复的人力，对应的标签萃取逻辑时可以复用的，包含算法的选择、模型训练和计算因子的加权等，但由于不同人来做，造成了很多重复工作。

标签萃取过程复杂，那有什么可以参考的流程呢？

阿里巴巴云上数据中台之道04——解密OneEntity体系

首先，数据源层面：建设一套完整的数据源，以OneEntity体系为核心，将OneEntity相关实体及其行为全部串联起来，与存量的标签一起作为数据源。

其次，标签计算层面：将标签萃取逻辑沉淀为2种，分别对应到偏好类标签和分类预测类标签的工具型产品的生产过程中，包含计算因子、权重等业务规则、数据样本选择、模型与算法选择等。

最后，标签监测层面：沉淀质量评估报告和生产监测、上线等管理流程。

当一整套工具型产品上线之后，批量生产十几个同类型标签只需要2天左右，这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中，减少了大量的代码开发与模型训练的工作。

在这个过程中，参与的角色也发生了变化，从原本的以数据产品经理、数仓工程师、数据科学家为主导，转变为对业务更为熟悉的业务人员、数据分析师为主导。

3. GRelation全域关系

找到对象的关联关系，当OneEntity代表人时，就可以找出他的亲属、朋友、校友和同事等；当OneEntity代表商品时，就可以找出他的上下游商品/货等。

4. GBehavior全域行为

将与OneEntity相关的实习及行为关联起来，形成一套用户行为体系。如：

姓名、邮箱、地址等，这是现实世界中的唯一标志，就像OneEntity代表着你在大数据世界里的唯一标志。
籍贯、年龄、政治面貌、宗教信仰等，这是现实世界中的标签画像
父母、子女、夫妻等，天生或后天产生的一系列关系，代表着GRelation在大数据世界中的关系
何年何月读大学、何年何月第一次参加工作、何年何月获得某项奖励以及证明人是谁等

在大数据的世界里，将孤岛数据实现融通并加以萃取，可以围绕一个主题展开全面剖析。

专栏作家

草帽小子，公众号：一个数据人的自留地，人人都是产品经理专栏作家。《大数据实践之路：数据中台+数据分析+产品应用》书籍作者，专注用户画像领域。

本文原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

《大数据实践之路》书籍作者，公众号：一个数据人的自留地

31篇作品 292975总阅读量

空间计算时代，你还需要担心 VR 眩晕吗？

11-132823 浏览

空间计算时代，你还需要担心 VR 眩晕吗？

五个洞察用户内心的文案思路！

02-1112584 浏览

五个洞察用户内心的文案思路！

UI转产品，涨薪30%，只需90天：我的成功之路

刚刚

汽车零售金融要做好渠道、能力、资源的数字化

01-063456 浏览

汽车零售金融要做好渠道、能力、资源的数字化

月活超抖音，高德却“烧不起”本地生活

12-293105 浏览

月活超抖音，高德却“烧不起”本地生活

论用户生命周期维护的重要性及其维护策略

03-234506 浏览

论用户生命周期维护的重要性及其维护策略

评论

目前还没评论，等你发挥！

开发转产品的成功之路：我给你的3个建议

12614人已学习12篇文章

营销案例解析

本专题的文章分享了营销案例解析。

13234人已学习12篇文章

金融产品经理需要知道的事

本专题的文章分享了金融产品经理需要知道的金融基础知识和产品观。

14714人已学习12篇文章

协同办公产品的设计思路

在协同办公场景越来越丰富的背景下，协同办公产品起到了关键性的作用。本专题的文章分享了协同办公产品的设计思路。

20293人已学习19篇文章

后台权限管理设计指南

好的权限系统可以明确公司内不同人员、不同部门的分工，便于管理等优势。本专题的文章提供了后台权限管理设计指南。

70378人已学习13篇文章

产品的商业模式

什么是产品的商业模式，不同类型的产品在商业模式上有什么区别？

32194人已学习19篇文章

电商购物车产品设计指南

一个合格的购物车是怎么设计出来的？