让AI当你的办公助手,还差几步?
在AI大模型出现之后,AI与办公软件的融合,也逐渐成为了趋势之一,比如近日钉钉展示了AI功能,WPS也在加紧研发“WPS AI”。那么生成式AI如果想走入办公软件,过程中可能会遇到哪些阻力呢?一起来看看作者的分析和解读。
办公软件正在从工具变成“助手”甚至“同事”。
在阿里的通义千问大模型面世一周后,4月18日,阿里钉峰会上钉钉总裁叶军(不穷)现场演示了钉钉的四个AI应用场景为:群聊、文档、视频会议及应用开发。表示钉钉与大模型融合场景正在测试中,将在相关安全评估完成上线。此次会上,钉钉的AI功能被搬到现场进行展示。
Notion接入ChatGPT能力的NotionAI早已上线,微软和谷歌也分别宣布了Microsoft 365 Copilot,以及Docs和Gmail的生成式AI能力。本周,国内对标Microsoft 365最紧密的WPS也宣布正在研发“WPS AI”,各类办公软件。
NotionAI的生成内容
在协同办公SaaS软件中,最早引入ChatGPT的NotionAI已经把生成式AI能力开放出来。不过,在C端和B端上,推出AI产品的方向和难度有很大不同。有SaaS行业内人士对虎嗅表示,“不同公司在AI能力上线方面的考虑肯定有所不同,微软要推出一个C端AI产品可能很容易,但要上线B端产品,则需要考虑很多问题,包括用户接受度、软件安全性、定价,甚至是ESG等问题。”
那么生成式AI要走进办公软件中,需要解决哪些挑战呢?
一、内容安全性或成生成式AI最大阻力
生成式AI在内容安全性方面,以及隐私保护方面都面临着巨大的监管挑战。目前各国对生成式AI的监管力度正在加强,从意大利数据保护局第一个禁用ChatGPT以后,法国、西班牙有关部门也对ChatGPT展开了调查。美国商务部下属的国家电信与信息管理局,则正在调查对于企业和监管机构如何确保人工智能系统是值得信赖、合法及合乎道德。
“产品有很多,成熟一个上线一个”叶军对钉钉AI产品的上线规划非常有信心,但他表示目前具体的上线时间,还要等待监管部门的审批。叶军说:“AI生成的内容,不知道谁写的,一分钟生成无数条,可能一下子就会破坏整个网络纯洁的环境。”
4月11日,就在阿里通义千问发布会的同一天,国家互联网信息办公室下发了《生成式人工智能服务管理办法(征求意见稿)》的通知。目前我国已经出台的AI相关监管条例,包括《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》,并均已开始生效。除此以外,还有一些分散在《民法典》、《数据安全法》、《网络安全法》等法律法规中。
对于安全问题,OpenAI首席执行官Sam Altman就在最近的一次公开讲话中表示,随着模型的能力越来越强,与之对应的安全措施也需要增加。在GPT-4发布后,OpenAI一直致力于处理各种亟待解决的安全性问题。OpenAI的总裁兼联合创始人Greg Brockman则发推称,“OpenAI花了6个月的时间测试GPT-4,力图让这个AI更加安全。”
“AI其实是黑盒,是炼丹炉,炼出来什么不知道。”叶军表示,AI生成的内容,有些是不可控的,对于生成的结果还要做二次处理,二次处理相关的机制和安全审批的能力,比UGC(User Generated Content,用户生成内容)更难控制。
“通常情况下,AI技术供应商,对于AI生成的不安全内容也负有责任。”观韬中茂律师事务所合伙人王渝伟律师告诉虎嗅,AI技术供应商,包括深度合成服务提供者和技术支持者,《互联网信息服务深度合成管理规定》对其规定了较高的监督管理义务和完善数据和技术管理规范义务,若因未尽到这些义务,AI生成内容不符合法律规定,则需要承担一定的法律责任。
“生成式大模型的不准确问题,可能会在很多不容马虎的细节问题上出错。”在安全问题上,某AI大模型业内人士以文生图的Diffusion(扩散式)模型给虎嗅举了一个例子,扩散式生成模型的核心是通过逐步“扩散”噪声信号来生成所需数据,同时不需要使用显式的先验概率分布。也就是通过“猜”把一张模糊的图片一步步锐化成一张清晰的图片。而在这个“清晰化”的过程中,很难把控图片的精细之处。比如五星红旗上有几颗星,地图的边界线究竟在哪等在细节上要求非常严格的问题,对于AI来说,都是很难保证正确的。由于文生文模型也采用了读上一个词“猜”下一个词的机制,因此很难在细节上把控安全性。
就安全问题,虎嗅从某国内大型语言模型(LLM)创业公司处了解到,目前国内已有一些基于大模型的Chatbot(聊天机器人)产品,但多数都受到安全问题限制,正在按要求自查,并等待审批。
二、大模型是底座,还需要小模型
不稳定,是生成式AI天生的缺陷,当面对C端用户时,AI只是一个聊天机器人,不稳定的因素在于内容安全性。在大模型与用户之间添加一个过滤机制即可,很多传统的关键词过滤技术都可以解决这种问题,在AI技术加持下,也可以用一个过滤不安全内容的AI小模型实现更好的过滤效果。
B端用户的业务壁垒在于其所在领域或行业中的实践经验、技能和知识行业,也就是人们常说的KnowHow,而要让AI大模型在实际业务中发挥作用,则需要利用这些行业型KnowHow对AI进行专门的训练。在这方面,AI业界和应用产业似乎已经有了一些共识:AI大模是底座,是导航,而要真正把AI能力落地到业务中,还需要专门训练聚焦行业的中、小模型。
AI大模型在面对B端用户时,生成的内容不仅要安全,还要可靠,要对用户的业务负责,甚至每个字都容不得马虎。不过,AI大模型的效率提升对于B端用户来说,吸引力很大,在很多垂直行业都已有先驱厂商开始探索了。
在工业领域,西门子日前刚刚宣布将和微软合作,借助OpenAI的ChatGPT帮助软件开发人员和自动化工程师使用自然语言输入生成PLC(可编程逻辑控制器)代码,从而减少时间成本并降低错误率。同时,这些能力还有助于维护团队以更快的速度识别错误,并逐步生成解决方案。
“利用AI编写PLC代码肯定会在流程上减少工程师的工作量。”上海优也信息科技有限公司首席科学家郭朝晖认为,利用AI编写PLC代码在工业上很有可行性,但从安全角度出发,在代码生成之后,还应该有人类参与检查。
作为一个电脑程序,ChatGPT发布以来,编程能力就一直受到工程师们的重点关注,微软在GitHub中也推出了AI编程助手Copilot。同为“写代码”,在工业领域自然也已经有PLC工程师尝试用ChatGPT编写代码。一位PLC工程师告诉虎嗅,“目前来看ChatGPT的PLC编码能力不比普通工程师弱,但对于输入prompt(提示词)的理解能力还有优化空间,且生成的最终代码有些需要人工修改。”
不过,郭朝晖也认为ChatGPT要在工业领域推广,还需要解决工程师使用习惯和数据基础等问题,同时在工业设备中使用ChatGPT的条件也还有需要进一步优化。
在另一个严肃行业医疗领域中,ChatGPT的应用常被人认为更加马虎不得。但研发医疗行业大模型的左手医生团队CEO张超认为,虽然医疗行业的内容需要非常严谨,但是不同场景,对于生成式内容的风险接受度也不同。“我们把医疗行业分成4个象限,对于生产式AI的风险,我们可以从这4个象限的角度来分析。”
张超介绍说,这4个象限首先是以知识探索为目的的头脑风暴象限,在这个象限中,是允许大胆出错的,这个场景对正确信息的召回更重要。第二象限是文书处理类,这个场景中,AI需要做的就是归纳总结,按图索骥,出错的概率不大,即使出错也可以以较低成本更正,并且更正结果可以推动模型升级。第三象限是临床决策类,临床决策任务是一个比较特定的任务,在这个场景中AI是医生的助手,而AI生成的内容,可以由医生去把控风险。
“真正存在风险的是第四象限,就是在AI给没有鉴别能力的人提供服务的场景中。”张超认为,虽然这个场景中存在一定的风险,但是可以通过对AI生成内容溯源的方式来规避风险,“我们可以让基于文档嵌入(Document Embedding)等手段,大模型在圈定的知识范围内给出答案,通过缩小服务边界来控制风险。”
当然,这种形式可能又会使患者陷入“信息获取茧房”,不过张超表示,新技术肯定会存在局限性,但是落地、研发团队的任务就是想办法找更好的场景去避免这种局限性,让技术能够为这个场景产生更大的价值。
三、定价难题怎么解
AI办公软件市场化的另一个难题,那就是定价。
在工作当中,一个生产力相同的同事,和只能帮忙查资料、整理文案的助理,在工资方面肯定是不一样的。AI在用户业务中的定位自然也直接影响到它的定价问题。对于用户来说,“AI助理”的价格后续相当于购买SaaS工具,自然是能低就低。但如果是“AI同事”,那对它投入几何,就要考察它的执行能力了。
目前国外付费的生成式AI服务以OpenAI和Midjourney两家最为知名。Midjourney的收费标准有两种,一种是月费,一种是按图计费。月费是23美元一个月,计次则是8美元用200次。ChatGPT Plus的收费标准是20美元一个月,每3小时可以使用25次GPT-4模型。
此外,OpenAI最新模型GPT-4的API接口采取按token收费的政策,已公布的GPT-4的API价格是纯文本输入每1k个prompt token定价0.03美元,每1k个completion token定价0.06美元。默认速率限制为每分钟40k个token和每分钟200个请求。
百度在发布文心一言之后,也对合作伙伴公布了名为文心千帆的云服务产品,据参加文心千帆发布会的百度客户透露,文心千帆的定价为——推理服务调用以0.012元/1000 tokens收费,按调用输入输出总字数付费。
在这方面,阿里云还没有公布相关的定价政策,不过叶军向虎嗅透露,钉钉的定价将参考Midjourney和OpenAI,“我们肯定比他们(Midjourney和OpenAI)定价低一点,我们得承认(技术)还是有一些差距,不能定太高的价格,而且普惠一点,前期对特定用户,甚至有一定的时长的优惠。”同时,在钉峰会上叶军还重点强调了具备AI能力的钉钉个人版。并提出未来的“个体户”可能会存在“一个人+一群AI助手”的新模式。
AI的生产力在图像创意领域已经得到了很多专业人士的认可,某知名媒体产品设计总监告诉虎嗅,“一个Stable Diffusion模型训练好了,能省出几个人的成本。”
对于B端业务来说,如果AI真的可以节省几个人的话,那么它的定价范围会更加宽泛。不过,在创意文案和对文字有要求的业务中,AI目前的生成能力可能只能替代初级人类员工的工作。美版今日头条Buzzfeed的AI撰稿机器人Buzzy,就被网友质疑其撰写的文章中,有五分之一的采用了几乎相同的开头。
虽然叶军在钉钉利用AI生成文案的案例演示过程中,反复表示“通义千问生成的内容比我写得好”,但是仔细看过内容之后还是会发现钉钉生成的内容很“AI”,会出现一些华而不实的口水词堆砌情况。
钉钉生成的推广文案内容
不过,AI能力也是会在不断迭代中进步的,叶军告诉虎嗅,“目前已经有很多钉钉的深度合作用户提出了试用意向,未来最先开放AI能力试用的行业也可能会是教育。”
作者:齐健,编辑:陈伊凡;出品:虎嗅科技组
来源公众号:虎嗅APP(ID:huxiu_com),从思考,到创造
本文由人人都是产品经理合作媒体 @虎嗅 授权发布,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
AI当办公助手还存在一定差距,大致还需以下几个步骤:
1. 提高人工智能的学习和理解能力。目前的AI对语言的理解还不及人,需要更强大的数据和算法来提高自然语言处理的能力,才能更好地理解人的意图和需求。
2. 拥有更广博的世界知识。AI助手需要有广泛的常识知识和对人工知识的理解(比如日常办公流程),才能给人以准确高效的帮助。这需要丰富的训练数据和强大的知识图谱作为支持。
3. 增强交互体验。 DAG应该拥有更人性化的交互方式、友好的回复表达和聊天功能,给人以亲切顺畅的用户体验。这需要语言生成、个性表达等方面的提高。
4. 具备更强的推理和解决问题的能力。AI需要能深入理解问题和相关背景知识,进行复杂的推理,得到最佳解决方案。这需要建立复杂的知识网络并具备强大的推理机制。
5. 提供更丰富多样的服务。DAG不仅需要提供基本信息查询、日程管理等服务,还需要更广泛的功能,如文件管理、项目协作、资源调配等复杂服务,来满足人们的实际需求。
综上,AI当真正的办公助手还需要突破几个关键步骤,包括提高学习理解能力、拥有更丰富知识、增强交互体验、具备更强推理能力、提供更丰富服务等。需要AI在多个方面取得大幅进步,才能真正达到人工智能办公助手的要求和水平。这还需要一定的时间和技术积累。
AI智能进入办公领域是一个很让人期待的事情,但同时也应该做好更充分的准备