从WAIC2024看人工智能三大趋势：智能体、具身智能、算力风暴

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从WAIC2024看人工智能三大趋势：智能体、具身智能、算力风暴

IT时报

2024-07-08

0 评论 2346 浏览 8 收藏

19 分钟

随着2024年世界人工智能大会（WAIC2024）的召开，我们得以窥见人工智能领域的三大趋势：AI智能体的兴起、人形机器人商用的临近，以及国产算力的突破。这些趋势不仅标志着技术进步的新里程碑，也预示着人工智能将如何深刻地影响我们的未来。

短短10天内，上海连续举办两个全球性重要展会——世界移动通信大会（MWCS2024）和世界人工智能大会（WAIC2024），无论瓢泼大雨还是烈日当空，AI都在魔都掀起一阵科技“飓风”。

冯·诺伊曼说：“技术的不断加速进步，将会引发人类历史上某个关键的奇点。”从2018年首届世界人工智能大会拂晓初现的“人工智能新纪元”曙光，到如今第七届WAIC的召开，我们已然伫立在奇点的门槛之上，比以往任何时候都更贴近那个改写历史的瞬间。

透过WAIC2024的透镜，我们清晰看到AI的三大趋势。

趋势一：“百模大战”第二幕，大模型应用元年开卷AI Agent

与一年前的WAIC相比，今年的“百模大战”名副其实，中国电信的“星辰”、阿里的“通义”、百度的“文心”、腾讯的“混元”、商汤科技的“日日新”、云知声的“山海”、人工智能实验室的“书生”……几乎每个展台都有自己的“大模型”。

在“卷”了一年参数量级、可支持上下文token数、推理价格等等之后，AI Agent（AI助理/AI智能体）拉开了“百模大战”的第二幕。

今年入选WAIC镇馆之宝的支付宝智能助理，便是一款基于蚂蚁集团百灵大模型研发的AI Agent，用户在支付宝首页下拉就能唤起“小助理”，问一问就能获得出行、健康、政务、金融等领域超8000项数字生活服务。

“同门师兄”阿里云的“通义for everyone”则集成通义大模型全栈能力，以通义千问最新基础模型为基座，整合通义实验室前沿的文生图、智能编码、文档解析、音视频理解、视觉生成等能力，最终形成一个All in one的全能AI助手。

在“腾讯元器”展区，参会嘉宾可以通过添加提示词、插件、知识库等自由创建智能体（AI Agent），也可以在智能体商店选择、使用智能体，以满足不同场景下的需求。

除了这些针对个人用户的“AI 助手”，作为大模型从通用走向垂直应用的重要“抓手”，AI Agent也出现在各类行业大模型中。

“为B端客户打造一个AI Agent的过程，更像是一个打通企业流程、全面治理数据、重塑业务架构的契机。”中国电信大模型首席专家刘敬谦告诉《IT时报》记者，只有深入理解行业特性和场景需求，才能打造出真正实用的AI Agent，实现技术的有效落地。

与微软在Windows 11中创建的Copilot（助手）不同，AI Agent更强调服务的协同性以及对自然语言的认知程度。

OpenAI对AI Agent的定义是以大语言模型（LLM）为大脑驱动，具有自主理解、感知、规划、记忆和使用工具的能力，能自动化执行复杂任务的智能体。它具有独立思考和行动能力，不仅能够处理信息，还能根据环境变化自主学习和适应，以实现特定的目标或解决特定的问题。

不久前苹果刚刚发布的“Apple Intelligence”，便是一个整合操作系统、软件、模型和数据，强化对应用场景的理解，深刻洞察用户需求的AI Agent。

第一个为AI Agent欢呼的大佬是比尔·盖茨。早在1995年出版的《未来之路》一书中，他便描述过这种可以理解用户自然语言并根据对用户的了解完成多种任务的Agent，但直到ChatGPT横空出世，才让他看到了真正可实用AI Agent出现的可能。

在比尔·盖茨看来，AI Agent将彻底颠覆人与机器的交互方式。可预见的未来是：智能手机上都会有一个AI Agent，它将集合手机中所有数据，满足用户随时随地的需求；它将是企业的“AI程序员”，协助开发人员完成从编码、测试、升级应用到故障排查、安全扫描和修复、优化云资源等繁琐重复的工作；或者是公司的“数据分析员”，自动汇集分析企业所有数据，挖掘数据金矿价值，员工则只要用自然语言与AI Agent对话，便可以获得相关业务数据和答案，例如公司政策、产品信息、业务结果、代码库、人员等。

蚂蚁集团董事长兼CEO井贤栋也在本届人工智能大会上表示，如同移动互联网时代App是典型应用一样，在人工智能时代，智能体将成为新的应用范式，为用户带来服务代际的升级，而专业智能体是大模型落地产业的有效路径。医疗、教育、金融、制造、交通、农业等各行业领域，未来都有可能依据自己的场景和特有经验、规则、数据等等，生成数以百万量级的智能体，形成庞大生态。

然而，并不是所有的AI Agent都天然拥有强大的能力。AIGC时代，每个企业都不想错过红利，但每个企业也都在问：AIGC究竟能给自己带来什么？让生成式人工智能应用和助手真正发挥作用，它们必须了解组织的数据、客户、运营和业务，但如今的许多助手都无法轻松个性化，而且它们的设计也无法满足公司所需的数据隐私和安全要求。

事实上，AI Agent高度依赖基座大模型的能力、贯通整个企业体系架构的工程能力、研发者对行业的理解以及高质量的数据支撑，以上任何一个条件缺失，都有可能使AI Agent只是看起来很美好，实际使用中却因为不够“专业”，导致应用无法落地。

“应用是未来大模型决战的主要战场，”在腾讯云副总裁、腾讯优图实验室负责人吴运声看来，目前几乎所有大模型厂商都在智能体领域做进一步技术尝试，模型以落地、实用为先，大模型的研发应用必须关注和解决具体业务场景，关注可用性和性价比。

趋势二：具身智能扎堆繁荣，人形机器人进入商用前期

今年WAIC的镇馆之宝做了一道“大菜”——“十八金刚人形机器人先锋阵列”，网罗了中电科、复旦大学、达闼、傅利叶、钛虎、星动纪元、卓益得、开普勒、宇树等18个国内领先的机器人产品，着实让观众体验了一回什么叫“具身智能元年”。来自主办方的数据显示，本届大会合计展出的人形机器人超过25款。

1950年，“计算机之父”图灵（Alan Turing）在他的论文中首次提出“具身智能”概念。严格意义上，机器人、工业机器人、拟态机器狗、智能网联车，都是“身”，但人形依然是人类接受度最高的机器人形态。

从硬件条件上看，不少人形机器人已经具备相当高的肢体灵敏度。比如，人形机器人（上海）有限公司自主研发人形机器人“青龙”，身高185cm、体重80kg、全身多达43个主动自由度，手指可以轻拿轻放杯子，即便是柔软的面包，也能在抓起时保证面包外形的完整性。

上海开普勒探索机器人有限公司的通用人形机器人，身高175cm，体重70kg，全身具备40个关节自由度、80多个传感器，具备复杂地形行走、智能规避障碍等多种功能。

国家地方共建人形机器人创新中心总经理许彬一直有一种略带激进的看法：具身智能是通往通用人工智能的必由之路，而且只有人形机器人才能实现通用人工智能，核心逻辑是人类社会存在的所有数据，都是为了让人类更好地生存和发展，所有对世界的理解、认知和情感的数据，都是基于人体产生，而猫或鱼等其它生物本体，不可能感知到人类世界的各个方面。

至少在现阶段，具身智能尚不完全具备对物理世界的认知和交互能力，尤其是目前类GPT模式的大模型，在用于具身智能时，效果并不理想。

一家国产人形机器人创始人透露，之前曾将GPT-4V的图像接口接入机器人，但大模型对物体的空间认知能力非常差，而且“记忆力”只有一秒。全球人工智能顶级科学家李飞飞也认为，大模型不具备知觉，参数再多也不行。

“我们需要构建一种‘知识+数据’驱动的智能模型，”中国工程院院士、同济大学校长郑庆华创新性地提出“知识森林”理论，将大模型中的碎片化知识与人类已有的知识链融合，从而生成具有可解释推理的问题求解机制。

上海人工智能实验室主任、首席科学家周伯文也认为，具身智能绝不仅仅是大模型加机器人的应用，而是大模型接收物理世界的反馈从而进化，“光靠看书或看视频，永远学不会游泳，你得亲身扎到水里才能学会。大模型得通过机器人，扎进现实世界，才能真正理解物理世界。”

世界模型是当前具身智能领域最热门的词语。人工智能实验室构建了“软硬虚实”一体的机器人训练场——浦源·桃源，同时攻关具身智能的“大脑”与“小脑”。“浦源·桃源”是首个城市级具身智能数字训练场，构建了集场景数据、工具链、具身模型评测三位一体的开源具身智能研究平台。作为大模型与机器人的连接层，涵盖89种功能性场景、超10万高质量可交互数据，有望解决领域内数据匮乏、评测困难的问题。

在大脑方面，人工智能实验室通过具身智能体自身状态认知、复杂任务分解分配、底层技能协同控制三方面创新，实现了大模型驱动的无人机、机械臂、机器狗三种异构智能体协同。在小脑方面，通过GPU高性能并行仿真和强化学习，可以高效实现机器人在真实世界里快速学习，并完成高难度动作，现在单卡1小时的训练就能实现真实世界380天的训练效果。

尽管完美匹配智能本体的世界模型还未出现，但具身智能近两年的发展已经远超从业者预期。

不久前，特斯拉CEO马斯克在年度股东大会上表示，特斯拉将于2025年开始“限量生产”Optimus（擎天柱）人形机器人，明年特斯拉将有上千台在运行的Optimus机器人。达闼更是在现场预售起具身智能人形机器人XR4，价格39.9万元起。

宇树科技CEO王兴兴认为，最迟明年年底之前，全球范围内一定会出现比人跑得快的人形机器人，“比如说100米跑进10秒，在体育项目和文艺演出上，人形机器人比做家务应该更得心应手。”

许彬对技术的迭代速度乐观地判断道，未来3~5年，人形机器人可以在一些工厂智能制造产线运行，未来5~10年可以在家庭服务等场景运用。

趋势三：多路径破局“铁幕”，国产算力“春意浮动”

由AI带来的算力风暴，还有被美方拉下的“科技铁幕”，使算力芯片成为近几年WAIC上备受关注的焦点。

2022年WAIC期间，更是正面遭遇美国宣布对华断供英伟达高端芯片。如今，两年过去，当美国不断收紧芯片政策时，国产算力开始显露出一丝春天的绿意。

“从今年开始，万卡将是AI模型训练主战场的标配。”7月3日，国产芯片厂商摩尔线程创始人兼CEO张建中宣布，夸娥（KUAE）智算集群解决方案向万卡万P万亿参数通用算力集群升级，以全功能GPU为底座，打造能承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，为万亿参数级别的大模型训练提供平台。

截至目前，至少已有两家国产芯片厂商实现了单池万卡集群的能力，为我国自主可控的AI大模型攻坚建立了关键基础设施。

新型异构算力架构也在尝试解决算力规模化难题。无问芯穹推出的千卡规模异构芯片混训平台，采用“MxN”方案，M层是大模型，N层是各种国内外芯片，可以通过算子优化、自动编译、不同芯片耦合等技术一键部署模型，支持Baichuan2、ChatGLM3、Llama2、Qwen系列等20多个模型，在AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA等六种异构芯片上混合训练，算力利用率最高达97.6%。

无问芯穹希望解决国内AI领域存在的“生态竖井”难题，虽然不同芯片组成的算力构成了集群，但在生态逻辑上，整个软件栈并不能够很好地协调和打通。无问芯穹构建的是一个AI Native基础设施，可以适配中国独特的多模型、多芯片生态格局，将多种异构算力构建成大系统，快速完成大模型的训练和推理。

受限于芯片禁令，国内在单池超大规模集群建设上面临困境，只有几个互联网大厂和电信运营商有芯片储备和技术能力，而根据大模型的Scaling Law（尺度定律），至少在现有路径上，更多的算力才能造就更多的智能涌现。

电信运营商也开始寻找另外的方向，以网强算。“我们已经在实验室实现了百公里内的并池计算。”刘敬谦告诉记者，为了突破单池算力限制，中国电信正在尝试利用400G/800G的超高宽带将两个位于不同区域的实验室，无损高速连接起来，同一个预训练任务可以同步部署在两个相隔百公里的实验室里，而且连续训练时长与在同一个物理数据中心内训练相当，“下一步，我们还将在京沪两个单池万卡群间进行超高速直连测试”。

一旦实验成功，将大大缓解国产大模型的“算力焦虑”。GPT-4模型有2万亿参数和8万亿token，10000颗英伟达H100，需要训练三个月，换成最新的超级芯片BX200，10000颗芯片只需要10天。而受限于产能，目前能够稳定供货万卡以上的国产芯片并不多。如果数据中心间网速能够几乎等同于数据中心内部高速互联，此前全国各地零散建设的地方智算中心，将可被有效利用。

多路径破局“铁幕”的尝试，让国产算力和国产大模型的春天悄然而至。

作者：IT时报记者郝俊慧

编辑：孙妍

本文由人人都是产品经理作者【IT时报】，微信公众号：【IT时报】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App