从喧嚣回归理性:从大模型回归业务
一个新技术的诞生,因为大家一开始不够了解,总会夸大想象。其实上手一段时间之后就会发现不过如此。这篇文章,作者就分享了自己对大模型的态度变化和思考的过程,供大家参考。
四月,我满怀期待与渴望发布了关于 RAG 重塑智能客服行业的文章。那时,对未来充满无限幻想。然而,历经几个月的 AI 产品经理之旅,如今的我与市场一同回归理性。
这段时间,我见证了大模型的奇妙变化,看到了它的无限可能性,也掉入过它的 “坑”。虽有诸多问题,但不可否认,大模型为工作带来极大便捷,数据分析精准高效、代码编写轻松省力、文章创作才华尽显。从最初的满心憧憬到探索中的迷茫困惑,再到如今的冷静思考,我深刻体会到 AI 之路的波澜起伏。
接下来就讲述下我这段时间遇到的问题和我后续的思考:
一、技术日新月异的时代,速度意味着一切吗?
1、第一阶段
年初,市场一片火热,大模型技术如同一颗璀璨的新星,吸引着众人的目光。大家对其充满狂热,仿佛看到了未来的无限可能。我们也不例外,怀着激动的心情测试了大模型在某个垂类领域问答的准确率,结果在合格分数上下波动,但这足以让我们看到希望,觉得这是一个可以给垂类行业带来第二增长曲线的机遇,因为通用大模型无法实现可用的准确率。
1.1 垂类大模型训练
于是,我们开始思考如何提升问答准确率这个关键参数。纵观市面上的各种宣传,各行各业都在宣称自己是首个某某垂类大模型。
确实,以人的认知方式类比,看过学过更多领域知识的人会成为专家,大模型似乎也遵循着这个逻辑。从 AI 的发展史来看,它是一个数据驱动的领域,像李飞飞教授的 imagenet 数据集,大模型也是因庞大的数据量而产生质的突变。按照惯性思维,单独训练垂类大模型似乎是个明确的方向。
而且,当与各大大模型厂商合作时,可以要求他们训练的大模型达到特定的准确率数值,在上半年,这看起来确实是个花钱就能达成目标的事情。然而,故事往往不会一帆风顺。
1.2 垂类大模型+rag
除了垂类大模型的训练,我们还引入了 RAG(检索增强生成)技术。
通用大模型存在一些问题,而 RAG 仿佛是舞台上冉冉升起的新星,在第一阶段,我们对它充满期待,认为它会给这个舞台带来无数激动人心的时刻,洒满鲜花。
考虑到后续商业化以及项目的自主性,我们毅然选择了自研这条路。但没想到,这条自研之路也是荆棘丛生。
从自有知识库准备好的 QA 对,到非结构化文章的切片、子切片,再到向量化、相似度检索、排序、重排序等几个大模块,我们艰难地建立起自己的 RAG 问答流程(ps:之所以叫艰难的建立起,是因为,在另外一家公司我们使用的是选择现有的LLM平台来实现以上的流程,完全没有自己从0-1建立起来时的诸多困扰)。
在这个过程中,我们的心情从最初的满怀期待,逐渐变得焦虑和审慎,深刻体会到了 AI 探索之路的不易。但我们知道,只有不断前行,才能在这片充满挑战的领域中找到属于自己的成功之路。
补充说明:纯大模型的缺陷
知识的局限性:知识更新缓慢和答案缺乏透明度。模型自身的知识完全源于它的训练数据,而现有的主流大模型(ChatGPT、文心一言、通义千问…)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或离线的数据是无法获取到的,这部分知识也就无从具备。
幻觉问题:所有的AI模型的底层原理都是基于数学概率,其模型输出实质上是一系列数值运算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。而这种幻觉问题的区分是比较困难的,因为它要求使用者自身具备相应领域的知识。
数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。
补充说明:不同rag构建方式优劣势对比
在经历了一系列提升准确率的操作后,我们确实看到了成果的提升。然而,正如生活中总是充满意外,新的发展也接踵而至。此时,我们认为自身的基础技术能力已有了一定积累,于是怀揣着为企业带来新发展的期望,着手打造一个能够运用这些能力并实现商业化可能性的产品。
在这个产品的发展过程中,我们迎来了重大的转折点。我们深刻认识到传统程序构建方式与算法工程化之间的巨大差异。传统程序以跑起来为首要目标,只要能够顺利运行,便达成了基本要求。
但算法工程却截然不同,它更像是一个个精心设计的实验,需要在每个小闭环中不断地进行测试、再测试。每一次的尝试都是一次探索,每一次的调整都是为了更接近完美。
2、第二阶段
2.1 回答不够完整和有条理,且存在某些不适合垂类领域的偏向。
问题表现:由于产品的目标是商业化,因此我们将我们的产品给客户进行试用,客户反馈产品准确率不行且回答不够完整和有条理、且存在事实性错误。
原因分析:
- 垂类大模型被训练成更偏向简洁回答模式:训练前我们只关注问答准确率,未确认好期望的问答结构和回答方式。如虽然我们知道 rag 问答知识准备中虽注意到一个问题一个答案及数据多样化,但在相似其他相似领域未获得我们重视。
- 垂类大模型被训练成回答会有某些偏向的模式:训练所需数据确认方式有问题,若放入有偏向性及后续需要不断更新的数据,会导致问答结果有偏向性。比如在法律领域不同地区法律存在差异,你给大模型的数据偏向于北京的数据,后续回答就容易在不明确地区的情况下回答北京,导致存在实时性的误差,因此后续要么确保数据没有地区,在rag中使用这些地区的数据,要么不断的训练防止以上的问题产生。
2.2 内部知识库+垂类大模型不如通用大模型+联网搜索?
问题表现:测试结果显示大半年努力不如通用大模型包装出来的流程调用,即使在法律这样对数据及时性有效性要求高的行业也如此。
思考困惑
- 让人迷茫做这个东西的流程意义何在,也理解了为何媒体宣传 AI 搜索有前景。
- 可能是我们的测试方式也要点问题,因为使用的是小的模型对比市场上的通用大模型。
2.3 回答的召回率不高
问题确认:结果,我们从 0 – 1 剖析整个流程,发现文档拆分未按要求进行,导致无法召回效果一直不是很好。且由于我们是特定的行业,存在很多行业内相似的词汇,但是 embedding 模型转换出来的向量相似度不高导致无法召回等等。
尝试措施:测试不同的 embedding 模型、增加稀疏向量、使用不同重排序策略、利用上下文信息、对 chunk 进行不同拆分、扩充问句、重新梳理整套流程然后进行各个模块的测试。
注意事项:
算法和工程同学进行各种改动时先使用 MVP 测试效果,避免按照原本工程思维,只关注是否可以跑起来,不管每个模块跑的各种细节是否稳定是否符合预期,从而导致发布后出现问题需大量的改动。
技术日新月异的时代,实现速度虽重要,也要注重对实现效果的反复验证。
二、理性回归,反思技术
1、《让大象飞》引发共鸣,技术并非万能
近期阅读了《让大象飞》这本书,其中的一些观点让我产生了强烈的共鸣。书中提到技术并没有我们以为的那么重要,任何新的技术通常都会经历一个 25 年的接受和采用周期。这让我深刻反思了在大模型创业过程中的经历。在追求技术创新的道路上,我们往往容易陷入对技术的过度热爱,而忽略了其他重要的因素。
在公司内部创业过程中,我们也曾陷入技术陷阱。在探索产品功能的算法方案时,花费了将近一个月的时间,期间还换了人,但最终结果却充满戏剧性。这让我意识到,技术并非万能,不能仅仅依靠技术来推动企业的发展。我们需要更加关注用户需求、商业模式创新、设计创新,以及如何将技术与现有业务相结合,满足商业上的需求。
2、用户需求、商业模式与设计创新更受关注
在经历了大模型创业的波折后,我越发认识到商业模式与设计创新的重要性。正如书中所说,采用新技术的动力应该来自商业上的需求,而不是相反。商业模式创新就像一座灯塔,引导企业驶向未知的、有利可图的水域。
商业模式创新展示了公司如何为客户提供价值,无论是开发新的收入流还是拓展分销渠道都至关重要。它不仅仅是产品的创新,更是关于改变企业的本质、收入流、市场以及客户对价值的认知。例如 Airbnb 以其共享经济模式颠覆了酒店行业,Spotify 的订阅服务也颠覆了传统音乐购买模式,这些都是商业模式创新的成功案例。
3、对于初创企业来说,先 “活下来” 是首要问题
虽然好的商业模式和设计模式很重要,但是在在创业早期,我们应该更多地关心市场需求,因为从本质上来说商业模式无非就是用户/客户给你钱或者广告商给你钱,而愿意给你钱的本质是你能满足他们的需求。
通过观察世界,找出存在的问题,对现有技术做出调整以适应目标,测试市场来发现需求,探索可能的市场机会。只有这样,我们才能避免落入 “技术陷阱”,实现企业的可持续发展。
三、未来展望,稳步前行
1、对于自我:实践出真知
目前的感受是实践出真知,看了很多文章看了很多项目,直到自己实际去体验的时候才发现,哪哪都是坑,一个不留意都可能对最后的结果产生影响。
在 AI 的世界里,处处皆是挑战。传统的程序以运行起来为首要目标,而算法工程则如同一个个精心设计的实验。每一个小闭环都需要我们不断地测试、再测试。一个细微的疏忽,都可能对最终结果产生重大影响。我们必须时刻保持警惕,以严谨的态度对待每一个环节。
2、对于大模型:持续探索,在 AI 领域稳步迈进
过往我不断的探索三维深度信息,思考它如何被人类记忆,如何影响其他信息的认知。如今,AI 领域不断拓展,语义 AI 之外,具身智能崭露头角。
具身智能强调智能体与真实世界的多模态交互,通过 “眼耳鼻舌身” 五根主动获取物理世界的真实反馈,推动智能化向更高层次进化。未来的 AI 产品有望从传统的 2D 平面人工智能迈向 3D 空间、4D 时序的新领域。具身的虚拟数字人、AI 智能助理、人形机器人等,这些充满想象力的发展方向令人期待。它们将实现多模态、主动交互式的人工智能体,为人类生活带来翻天覆地的变化。
最后,在这个充满无限可能的时代,我们作为 AI 产品经理,虽无法进行金钱上的大规模投资,但我们可以将自身的资源投入到我们所向往的未来。正如一位我所喜爱投资人所言:“投资是什么?是将我的资源投给我想要的未来。” 尽管这其中存在风险,但如果有幸参与到那个令人激动的未来之中,将是无比荣幸之事。
相关参考
书籍《让大象飞》
大模型:豆包/智谱清言
文章:https://mp.weixin.qq.com/s/tuOrnzmW3gzBbnlV31hmJg
本文由 @4T 原创发布于人人都是产品经理。未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
大模型框架有创新,细节部分需要改进创新,抓取重点。