智能原生应用的脑、手、意
AI原生应用的特征以及作为引擎的大模型,我们该如何度量它是否智能?本文以一个假象场景,来看看当中有哪些环节以及需要什么样的智能,彼此之间的配比如何。
从《从手机App到AI原生应用》开始我们其实写了几次AI原生应用的特征以及作为引擎的大模型应该如何进行度量它到底智能不智能,到底能不能干点事了,但还是比较抽象,概念和逻辑的成分比较多。
所以这次我们按一个假象场景来完整举一个例子,看下在这个过程中到底有哪些环节,这些环节需要什么样的智能,彼此间的配重又是什么样子。
一、假如你想做自己的主播分身
之前我们提到过,AI应用落地快慢可能和幻觉有益还是有害相关,所以我们举个离现实比较近,幻觉基本没什么害处的例子。
假如你想开播了,但又不想自己上,而是做一个自己的数字代理或者说分身,那这个数字代理人真想取得效果都要搞定什么呢?(取得效果是指有人愿意看,有粉丝等)
首先是最基础的产研部分:先打造自己的外壳,也就是形象要像那么回事,然后给它匹配上看、听、说、想的能力(计算机的输入输出、存储和CPU…)。这里面看、听、说基本上是用过去十年反复打磨的技术,比如图像识别、语言识别、语音合成等,想的部分要基于大模型了,它来基于综合各种输入产生自己的输出。当程序员把这些都综合连接起来,基本上就有一个数字分身,它能基于各种输入做点反馈,做到这里基本上完成了手的部分,脑的部分属于有了,但还不好使。
这时候即使导入了最好的大模型,它也还是一个很傻的Bot,别说取得效果,基本上就没人会看完任何一个直播段落。这时候在单纯的单点技术上使劲内卷是没前途的(包括大模型),那样搞不定粉丝也搞不定留存,回报大致为0。
改善起来第一步肯定是希望能加入人格特征,让它的性格特征和你更像,比如是不是对人友善、表达是不是犀利,也要社会一点:会说话能联络感情等。这时候要尽可能记住过去和某个人说过什么。这部分不纯粹是技术,但技术相关性还是很高,通常需要找找过去干过的老司机,纯粹的干prompt估计搞不定。
这步是个槛,搞定了算通过图灵测试1.0,别人分不出到底是不是你了,但现在其实搞不定这事,无边界闲聊还行,限定到人格特征上表现就没想的那么好。搞不定的情况下,会出现什么结果呢?看着有点智能有点像你的一个人,在那里叨叨,但毫无特色和趣味性。能不能吸引到粉丝呢?这要看你到底播什么了。我估计播动物世界没准行,娱乐估计够呛。这是下面的话题,进一步从技术进步到产品。
通过图灵测试1.0的智能产品已经有用了,在这之前是纯粹工具,在这之后就有点Agent的意思,但价值还没想的那么大。
通过图灵测试1.0这样的一个数字分身有什么用呢?它好处是信息吞吐量大,不知疲惫,人模人样;坏处是智能还是不够,做不出很好的性格、才艺、出众的观点、有趣的随机应变等。那适合做什么事呢?它适合做内容本身有趣,主播是配角的事。
那些事是这类的呢?比如播动物世界、讲故事、播新闻,偶尔穿插点互动。
这是在干什么呢?是在缩减场景对智能的需求。智能供给不足就只能降级。那理想状况是什么样呢?
这本质是一个更好用了的智能音箱(参照:大模型有能力打穿智能音箱/硬件的市场壁垒么?)
理想状况是这个数字分身还要能接入实时的热点,动态的生成要输出的内容,比如图片、视频,然后做主播。这种热点要匹配大家的关注点,要新颖,要匹配平台的规则,不单是正向的规则,还要把握好反向的尺度,否则会被抬走或者封杀。这部分会衍生非常多的细节工作,比如那个是现在主推的,这得跟着平台走才行,否则你权重不好它不推你,不也白搭。对平台这是个智能对智能的过程,但受众这是个综合分析的过程,对创作这是个创意创新的过程。这事能干了,算是通过图灵测试2.0,一旦过了至少可以和人类二分天下。
过不了,比如不管内容的时效或者不管平台热点的捕捉,就都还是干半截活!是智能供给不足。这部分如果成功,那基本上可以有粉丝了。到这里也才算是脑子长成,并且培养出了自己的风格(意)
假设这能做到了,就完了么?
还没有。这些都搞完了,主要解决了硅基智能和硅基智能的关系,相当于能够比较匹配平台的规则和现实的热点。
郭德纲捧人的主要方法就是反复提这个人。你做主播如果有人拉扯显然效果会更好。那和谁合作,怎么合作还是需要人去做。把这个场景全覆盖了,才算真正的你的代理。
从这个视角看现在能完成的百分之三十不到。更何况这只是一个相对简单的C端场景,B端场景比这个要复杂的多。
(全是这造型的话,最开始还行,时间长了自己就得能颠覆自己,否则就可能还不如狮子吸引人,这种逻辑的理解其实很挑战通过了图灵测试2.0的只能分身)
二、AI的悖论
往深处挖掘,在上面这个过程中有几个典型的悖论:
第一个悖论是越极化技术,离产生效果越远。在整个过程里技术最关键,但最核心的部分绝大多数人得对外部形成依赖。在具体场景边界内判断OpenAI等能干到什么程度是最关键的尺度判断。这时候纯粹技术背景的同学容易撸起袖子自己上,但在这个局部上投入越大,你在别的部分的精力就越少,然后效果就出不来。上面的产品要想达成PMF,显然不是就算法能搞定的,而是要在清楚算法限度的前提下,内外的融合来回折腾。知道平台,社会现实,然后把有限且成熟的技术力量投过去,变成自己的产品力量(只有产品的力量用户可感知)。价值只可能在外部创造。这就是悖论,技术是第一驱动,但你极化它的话,会死的很惨。(纯做模型不是这逻辑,但大部分其实是看模型的热闹,不真的有做模型的机会)
第二个悖论可以叫只有狮子才能生存,但其实不是狮子。
上面这样的产品注定依赖于大量的技术供应链,除了极大的大厂,没人能全部搞定各个环节,不管是大的算法、云服务还是小的平台数据分析(没有平台的反馈数据你根本不知道下面要干啥),投流策略等。这意味着做AI的产品越来越只能做总成。Agent其实就是总成,平均算算一个Agent可能需要10家以上的技术供应商。这时候作为团队你个头是大的,至少消耗是大的,也就意味着你就需要捕食大的猎物才能活下来。这就很悖论,要用很小的团队撬动综合度非常高的事情,就必须精英化,否则肯定干不好。这可以拿非洲大草原的动物做个类比:胡狼啥都吃,个头也小,捡捡剩肉也能对付;鬣狗和野狗就吃的比较多,但单兵战斗力差就只能成群结队才可能干倒水牛,欺负落单豹子什么的,但就不能挑食;狮子在食物链最顶端吃的又多,那就必须战斗力爆表,最怕就是狮子的胃口但胡狼的战斗力。
做很多小工具很像胡狼吃吃也就饱了,没那么多肉但也能活的还不错。
Agent就不行,这地儿确实有肉,但就像大水牛一样,不是比较猛的狮子根本拿不下,但大部分团队早期怎么可能是狮子,所以做起来就拧巴。
三、 智能原生的尺度
假如跨越了这些障碍,也成功搞定了数字分身,那我们回头看看,在这样一种产品上取得效果,关键的节点有那些。
第一个显然得像,不管是声音还是形象。这就是做壳,壳要做不好后面的就不要说了。这事现在做的七七八八,就是贵和便宜的区别。这部分最具体,确实可以用很多指标来衡量。
第二就是拟人。即使不出彩,好歹要没那么傻。这里对应的标准就是老的图灵测试。
第三就是在标定场景下的智能。核心的判断标准其实是图灵测试2.0。不是闲聊天而是真的在一个场景下,从分析到性格到价值标准到表达能顶一个人。这事其实远远搞不定。搞不定就只能打折,退化后商业价值也就缩小。
第四则是管理智能。这个更复杂,但前面如果搞定必然递进到这里,因为显然能搞定一个Agent任何一个团队就绝不会只搞定一个。而每一个Agent都产生大量的信息,这种信息的膨胀根本不是人所能管理的,想像下一个公司里的人能管理5000万主播么?这时候就需要一个把所有Agent都管理起来的系统。这个系统的良性运转又需要提供足够充分的数据。两者互相促进,最终就会变成智能原生的组织和智能原生的系统。最终走到这里是曲折的,但只要Agent大量产生,就必然会这样。那时候人会退到管理智能的背后。
在这过程里面图灵测试2.0承上启下。
在当前这个阶段,最适合的其实就是用图灵测试2.0的视角,持续观察各个场景,要确切的知道最先进的AI技术到底能不能通过这个场景的测试。一旦通过,那就可以做事了。
在这里场景的边界既是一个商业判断也是一个技术判断。
小结
在过去我们一度这么区分整个软件产品的架构:最底层是操作系统等基础设施,在上面是数据库等,再上面才是各种应用。有趣的是各种工具虽然小,比如压缩软件,严格划分其实应该在操作系统这里。与此类比,大模型以及各种工具其实在操作系统那个位置,上面我们说的则是应用的逻辑,不适合做模型的情况。
这种应用在过去二十年间其实更迭了三次:一次是伴随着Win95开始的Windows应用,比如现在可能还有人在用的Foxmail和视频播放器都是这时候的产物;一次则伴随着PC互联网,比如当年的Discuz;一次则是大家都熟悉的手机APP。上面说的智能原生应用看着和前面这些还是非常不同,可能构成新的更迭。
专栏作家
琢磨事,微信公众号:琢磨事,人人都是产品经理专栏作家。声智科技副总裁。著有《终极复制:人工智能将如何推动社会巨变》、《完美软件开发:方法与逻辑》、《互联网+时代的7个引爆点》等书。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
咩咩……