AI产品经理的核心能力(二)
在AI时代,产品经理的核心能力已经不仅仅局限于传统的产品开发和管理。本文将深入探讨AI产品经理所需具备的关键技能,从实际案例出发,为大家呈现AI产品经理如何在激烈的市场竞争中脱颖而出,推动创新和业务增长。
这是我连载关于AI产品经理核心的能力的第二篇,如果之前没看过《AI产品经理的核心能力(一)》和《AI数据中心实战:量化标签的AI效能革命》的话,我建议先不要直接看这篇内容,因为这里的内容和这两篇有很强的关联性和递进关系。而且内容之间互有穿插,所以可以先移步查看。
而接下来我就来点个题,这次要讲的就是“数据的应用探索能力”。
1.什么是数据的应用探索能力?
从定义上看,「数据应用探索能力」指通过系统性方法挖掘数据潜在价值并实现业务落地的综合能力,包含三个核心维度:
- 「模式发现」:识别数据中的隐藏规律。
- 「价值验证」:量化数据应用的经济效益。
- 「工程转化」:将探索成果转化为应用系统的解决方案。
2.探索的原因
《AI数据中心实战:量化标签的AI效能革命》一文中的开头我就曾提到,数据是AI的食粮,也在文中透露了,数据是贯穿整个AI应用系统的关键。用个类似的比喻,就像“钱”对于金融系统的作用一样。
从AI应用系统的商业落地角度来看,数据的应用探索可以「提高系统的应用价值,提升用户体验和扩展使用场景的限制。」
下面我先设置一个可以与AI应用系统一一映射,相似度较高的普通场景,「重点笔记」下面会多次重复用到该场景,请留意
附图1.AI应用系统映射图
「提高系统的应用价值」
就类似于提升饭店的利润率(降本增效),优化饭店的商业决策,让饭店的商业价值提升。
映射到AI应用系统中就是,提升「系统运行效率」,优化AI应用系统的「商业决策」,使其「商业价值」提升。
「提升用户体验」
就类似于提供更多符合用户口味的菜品,上菜的效率提高,菜品的价格降低等等。
映射到AI应用系统中就是,「AI结果」更准确,内容更完整,「响应速度」提高,「使用成本」降低等等。
「扩展使用场景的限制」
就类似于不仅可以堂食,还可以外卖,还可以上门服务。
映射到AI应用系统中就是,「服务覆盖范围更广」、「生成内容更全」、「服务限制规则更少」。
3.探索的方式
根据AI产品经理的类型,会有两种探索的方式,分别是模型优先:价值与关联和数据优先:密度与效率。
1. 「模型优先:价值与关联」
1)挖掘数据可利用的价值
这里指的数据,包含两层内容,包括「元数据和元数据背后的标签信息」,还有「系统数据」。
其中,「元数据和元数据背后的标签信息」具体内容可查看我的文章《AI数据中心实战:量化标签的AI效能革命》中的附图10.数据及标签流转示意图。如下
附图2.数据及标签流转示意图
如上图所示,元数据在经过数据流转和使用后,会产生「来源标签」、「标记标签」、「数据集标签」、「参数标签」、「测试标签」、「反馈标签」等新的数据信息,而这些信息都通过标签的形式依附在元数据上。
另外,「系统数据」是指AI应用系统运行过程中产生的各类数据,主要是系统运行日志、各类的用户数据等等。
「挖掘数据可利用的价值」就是通过各类方式挖掘以上全部的数据不同层面的价值。
细化数据标注的颗粒度和规范标注流程,提升标注数据的准确率,降低因数据标注错误导致的模型偏差;
通过数据置信度分析降低或规避模型误判的风险。
2)了解数据与模型之间的关联性
首先,因为AI模型具有不可解释性。
- 「缺乏透明度」:在实际应用中,用户常对模型输出的决策和结果感到困惑,而且无法追踪其推理过程,导致信任缺失。
- 「用户反馈」:使用后用户可能反映某些决策不合理,但作为应用开发方却无法给出合理解释,同时难以查明根源。
由于以上原因,数据和模型之间难以得出强因果的联系,但可以通过相关性分析和验证来了解数据与模型之间的关联性。
通过测试反馈,可以分析出数据标注错误会导致模型偏差和错误率上升。
标签定义模糊会影响模型无法学习关键特征差异。
多模态数据未对齐会影响特征提取导致失败。
数据分布偏差会引发系统性错误。
以上模型优先:价值与关联的探索方式,更偏向于技术型的AI产品经理的适用场景,而应用型的产品经理,更适合以下方式。
2. 「数据优先:密度与效率」
这个用经济学的角度来看的话就是,要么提升”资金“(数据价值)的利用率,要么提升”资金“的周转率(数据流转效率)。
1)提升数据价值密度
用上文饭店的场景来映射的话,就是「提高食材利用率」。
增加同一食材不同处理方式(黄豆制成不同的中间品,面粉发酵成不同程度)。即为数据增加不同维度的标签,或将标签提升颗粒精细度,增加量化指标、阈值等等。我的文章《AI数据中心实战:量化标签的AI效能革命》中也提到了利用数据中心对数据流程的不同阶段和维度对数据进行批量添加标签的处理,详情可跳转文章查阅。
注重关键食材的处理。即提高关键数据的价值,赋予更高的价值特征或标签信息。
2)提高数据流转速度
用上文饭店的场景来映射的话,就是「提高食材周转率」。
统一食材处理,并规范食材处理流程。即我的文章《AI数据中心实战:量化标签的AI效能革命》中提到的“数据中心“的作用,详情可跳转文章查阅。
4.探索的策略
以下我将使用「数据优先:密度与效率」的方式展开讲讲探索的具体策略。
4.1「理解数据的内容与价值」
与上文【3.探索的方式 – 模型优先:价值与关联 – 挖掘数据可利用的价值】一样,这里的数据同样分为两个部分,元数据和应用系统数据。
- 元数据及数据标签
- 应用系统数据
包括元数据本身和元数据的衍生信息(即标签信息)在我的文章《AI数据中心实战:量化标签的AI效能革命》中提到的“数据标签”就是这部分了。而应用系统数据主要指的是系统的运行数据和用户数据。
包括了「来源标签」、「标记标签」、「数据集标签」、「参数标签」、「训练/测试标签」、「反馈标签」共6大类别。
系统运行数据主要就是系统日志等;用户数据就是用户在系统中的使用记录和使用过程中产生的数据。
其中用户数据也是元数据衍生信息的一部分,反馈标签中就有将用户数据进行分析后得出的数据标签。
这里面,不管是元数据、数据标签,还是用户数据,都有其不一样的内容与价值。理解数据的内容和价值是数据应用探索能力的第一步。
1)元数据和数据标签内容与价值
这里面元数据提供最核心和最基础的价值,如果用上文饭店的场景来对比的话,就是基础食材,比如蔬菜、肉类、海鲜、主食、蛋奶等等。而数据标签就类似于食材的具体细节了,比如哪个批发市场,什么时候进的货,食材的等级等等;经过处理或标记过的数据,就是食材的初级制品了,比如清洗好的菜,切块后的瓜果。经过烹饪的食材就算是更深入的接近成品的东西,比如配菜和试菜。
根据元数据逐步深入的处理过程和其数据标签的不断丰富,都会体现数据的不同价值。比如标注了的数据就比未标注的数据更有价值,有精确标签的数据就比模糊标签的数据更有价值。一定要根据数据的内容和类型,创建和关联更丰富维度或精细度的标签赋予数据,提升元数据和数据标签的价值。另一方,利用好这些数据标签,比如多样化数据可以提升模型泛化能力,避免过拟合。通过数据驱动优化,分析数据分布,针对性补充薄弱场景数据,迭代优化模型等等都是基于理解数据内容与价值的基础上形成的。
2)应用系统数据的内容与价值
应用系统数据的价值主要集中在用户数据方面,而其中又以用户体验数据最有价值。因为用户体验数据可以「推动算法模型进化」,「拓展应用场景边界」,「完善用户画像」等等。我的文章《AI数据中心实战:量化标签的AI效能革命》中就有比较详细的说明,详情可跳转文章查阅。
4.2「清晰数据的探索方向」
根据上文「3.探索的方式中“数据优先:密度与效率”」的探索策略,即「提升数据价值密度」和「提高数据流转速度」。
下文将通过以上策略展开说明如何清晰数据的探索方向和内容。
1)元数据
「提升数据价值密度」:这里面主要就是数据内容和数据来源的维度与应用环境的使用维度是否一致,和如何一致;还有就是加入对抗性样本数据,提升模型的适用范围。
我之前的AI医疗项目就是,采集数据的设备不一定与应用环境的设备一致,比如不同品牌,不同型号的设备;还有不同医生的检测手法,顺序,检测对象的个体差异等等都会影响元数据的不同维度。
「Adversarial T-shirt」是通过对抗样本技术干扰AI目标检测系统的典型案例,而通过反向地引入可变形对抗补丁技术和对抗性样本数据进行训练,有研究证明可成功拦截96.7%的物理对抗攻击。
如何让数据来源和应用环境保持更多维度上的一致,是元数据主要探索的方向。
「提高数据流转速度」:比如元数据的预处理,包括数据的格式校验、完整性检查、数据修复、逻辑验证、质量初步分级、格式转换、统一标准等,利用进行自动化的流程执行,从而提升数据流转速度。
将原始的视频/3D格式的数据,自动批量转化成统一尺寸、统一参数标准的静态图片。如有需要,还可以进行数据清洗和增强。
2)衍生信息(数据标签)
按我的文章《AI数据中心实战:量化标签的AI效能革命》里的分类,衍生信息主要包括了「来源标签」、「标记标签」、「数据集标签」、「参数标签」、「训练/测试标签」、「反馈标签」共6大类别。
「提升数据价值密度」 :比如提升标记颗粒度,提高标记的准确率;利用数据增强弥补小样本数据数量少和多样性维度不足的缺陷;细化测试标准与测试结果间的对比等等。这里要重点注意的就是,数据也有所谓的二八法则,即20%的数据占据了80%总体利用率,20%的数据标签占据了80%的有效利用率,如何在杂乱的数据和数据标签中找出有价值的数据和标签并加以利用,是此项的重点。
北京某医院肺部CT项目通过「模型置信度反馈」动态调整标注资源,对置信度<85%的样本追加标注投入,使有限预算下关键数据错误率控制在0.08%。
「提高数据流转速度」:比如利用模型测试流程进行待标记数据的AI预标记,人工标记只需要根据现有的AI标记基础上进行修改和补充,减少人工标记的操作步骤;对训练和测试结果可以进行直观化数据对比,提升测试结果的对比效率;简化测试流程和统一测试流程标准等等。
我的文章《AI数据中心实战:量化标签的AI效能革命》章节【05 达成的效果 – 3. 多模态数据融合与决策协同】中有较详细说明,详情可跳转文章查阅。
3)应用系统数据
这里面主要是系统日志和用户数据,重点在于用户数据。
- 「提升数据价值密度」:比如多源性采集(包括系统外的用户数据),创建群组和论坛,线下或者电话对用户进行访谈等等;对用户数据进行处理和分析后,添加用户反馈标签并量化赋值。
- 「提高数据流转速度」:标准化、自动化的采集分析流程;周期性或动态化反馈验证;
我的文章《AI产品经理的核心能力(一)》中,反馈数据转化和相关性分析主要就是这部分内容,详情可跳转文章查阅。
4.3「善于验证数据探索应用的效果」
1)A/B测试
- 「对照式」:固定参照物。随机或按一定规则分配实验组/对照组,控制其他变量恒定,需预设实验周期,主动收集结构化数据。
- 「因果式」:互为参照物。基于观测数据反事实推理,构建潜在结果模型,无法完全随机化的复杂系统(医疗),可整合历史日志、多源异构数据。
两种方式各有优劣,适合用在不同的场景下。
而且这个详细说起来步骤和方法都很复杂,容我之后整理好再补充完整的内容。
2)双盲交叉测试
这个适用场景有“数据标签验证”,比如标记标签验证。
还有就是用户数据的主观反馈上,尤其是感官体验上的反馈数据,比如AI准还是不准?用上文饭店的场景来映射的话,饭店的菜品符不符合顾客的口味?对菜品的评价如何?还有哪里不满意的?等等。
我之前的AI项目中曾用这个进行标记标签验证,即通过“数据中心”的标记流程来完成“标记标签”的三级标记验证。即通过将相同数据至少经过两层不同“初级标记用户”标记,标记不一致的“部分争议样本数据”将发回重新标记或指派另外用户标记,如若二次标记仍无法一致,则指派至高级用户一锤定音。整个过程中初级标记用户是不清楚标记是之前的预处理标记的,还是自己/其他用户的历史标记。
附图3:三级标记验证流程示意图
5.探索的价值体现
数据的应用探索价值就如上文「2.探索的原因」章节所描述的一样,「提高系统的应用价值」、「提升用户体验」、「扩展使用场景的限制」是其最大的价值体现。另外,通过数据应用探索还会至少得到以下价值:
「数据多样性增强」
通过数据的应用探索和验证,不管是元数据及数据标签,都大大丰富了数据维度,也增强了数据的泛化能力。
「数据价值量化」
比如上文“应用系统数据”提升数据价值密度的探索,就是对用户数据进行处理和分析后,添加用户反馈标签并量化赋值。
「数据质量和效率提升」
比如上文“双盲交叉测试“的“三级标记验证流程“就是通过数据的应用探索体现出标注质量和效率提升的价值的。
6.总结
「数据的应用探索能力」不仅是AI产品经理「量化用户体验能力」的进一步升级和完善,还是提升AI系统的商业价值、用户体验及场景扩展关键能力体现。本文已围绕“数据的应用探索能力”这一核心主题,系统性地阐述了如何通过定义、原因、方式、策略及价值体现的多维度分析,同时强调数据探索需关注模式发现、价值验证与工程转化。也通过分层论述(如“元数据”与“应用系统数据”的区分)和实际案例强化了理论的可操作性,为AI产品经理营造其核心能力提供了实用的方法论框架。
「下一篇,将针对另外一个AI产品经理的核心能力进行展开说明,敬请期待……」
「最后,希望这篇文章的内容能让各位有所启发。」
如果喜欢我的作品,请在下方「赞赏」支持,还可以点赞转发评论,你的支持是我持续更新的动力,谢谢!
相关文章:
作者:薰阙的产品思考 公众号:薰阙的产品思考
本文由 @薰阙的产品思考 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
- 目前还没评论,等你发挥!