言变图的“LLM时刻”,还有AI全家桶,Google杀疯了

鲸选AI
0 评论 1663 浏览 1 收藏 13 分钟

在生成式AI快速崛起的浪潮中,Google以全新的产品矩阵和技术升级迎来属于它的“LLM时刻”。从文本到图像,从工具到生态,AI全家桶的发布让人们看到技术无边的可能性。本文将带你深入解读这些突破背后的技术逻辑与市场策略,探讨Google如何在AI竞赛中拔得头筹,并展望行业未来的新格局。

对于Google来说,作为Transformer等核心技术的发明者,在“AI 4巨头”的讨论中没有它,是一件很尴尬的事情。

这让其一直憋着一口气,决心证明自己。最近Google的系列更新就颇具看点:

发布开源模型 Gemma 3,性能超越DeepSeek V3、o3mini为全球第二强开源模型,但是模型大小仅为7B。发布Gemini 2.0 Flash Experimental,动动嘴就能PS的AI文生图产品。不仅如此,对指令理解也相当到位,能连续生成一致性图片,并评为AI生图的GPT时刻,这几天在X传疯了。Deep Research开放免费使用,背后是2.0 Flash Thinking Experimental 提升推理能力并扩展上下文窗口。还有新一代 机器人 AI 模型Gemini Robotics ,对物理世界更懂了。

国外有网友评价Google这次更新,是几乎每项到了最佳

到底有没有这么强呢,鲸哥认为是大差不差,有惊喜,也有吹嘘。

先说这次最被热议的更新—Gemini 2.0 Flash Experimental。 原生图像生成功能上线,说话就能PS照片的梦想实现。通过聊天任意编辑图像的局部或者全部,有点类似Adobefirefly版本。

我们用英伟达CEO黄仁勋此前发布会的图片,来试试是否可以随意PS。

我们先要求换背景,让黄仁勋在直播间中带货。这个难度不大,是不是抠图也不好说。

“321上链接”,5090显卡刀法精准,直接卖爆了,我们让黄仁勋开心地笑起来。看得出来表情有些崩,但整体还是做到了AI改变人物表情。

再要求把脸从黄仁勋换成马斯克,这个挺顺畅完成了,马斯克的脸部还挺逼真,表情也比较自然。一个小细节,摄像机上手机屏幕中的人物也跟着换成了马斯克。

还有一个这两天大家很爱玩的功能,就是这个合成图片的功能,熊的视角略微有一些转向,但是合成图片中还原的还不错。

很多人会质疑这个功能有什么用,国外有小伙,利用gemini-2.0 新推出的图片编辑 API,连夜肝了个工具,实现白底图到产品实拍图的批量自动化生成。

他是这样评价这个产品:“效果炸裂,特别是对产品的特征保留的很好,相比 ComfyUI 工作流调个半死,这不强多了。”

当然它还能给线稿上色,鲸哥生成了“猿力崛起”类似的图片。生成效果确实还没有Midjourney强,但是能力很连贯,这是生成式AI的体现,这是预言挑战画家的颠覆性一步。

Gemini-2.0不仅改图能力强,还能生成连续性的图片故事集,效果也不错。以下是鲸哥测试的成果。

“生成一个关于爆炒羊杂教程系列图片。对于每个场景,生成一个图像和一段介绍文字。”Google生成的教程显示有点长,我在排版时用SVG动画显示了,大家点击下方即可查看。

羊杂切碎,调好备料最关键是羊杂焯水

羊杂切碎,调好备料最关键是羊杂焯水

放油,先炒调料再加入羊杂爆炒·

放油,先炒调料再加入羊杂爆炒

放入蔬菜,炒至断生加入勾芡,炒熟装盘·

放入蔬菜,炒至断生加入勾芡,炒熟装盘

感谢Google,终于知道中午做的爆炒羊杂为啥不好吃了,原来没有先把羊杂焯水(直男落泪)。

此前的 2 月,Google Veo 2 已通过 Freepik 发布了图像转视频功能,现在与2.0 Flash有很好的结合了。

这个视频是JP博主制作,用一张AI生成的美女和商品图结合,先是生成了带货图片,然后转成了视频,神奇的是视频中饮料的商标都没有变,目前在X上很火。

最后再讲一个很有用的东西,应该比以上视觉工具更加落地。

是不是大家仍没有Manus邀请码,感觉也不用苦苦等待了。Google deep Research 现在可以免费使用,由 2.0 Flash Thinking模型提供支持,而且可以展示研究过程(chain of research),甚至支持链接你的搜索记录对 Gemini 进行个性化设置。

这是我做的“中国视频类科技商业博主起号及爆款”研究专题,要求生成30页以内的PPT报告。

还能根据这份报告继续提问,我问了下最适合普通人学习的博主是谁,回答结果如下,额,不知道大家怎么看这个结果。

Deep Research能罗列Researching websites,这样你可以清楚看到引用的哪些网站内容,靠不靠谱。同时这也是Google deep Research 的优势,搜索内容的广度上要比OpenAI 大很多,甚至能索引 YouTube 内容。

最重要的是,它输入框底下有行字,“Gemini can make mistakes, so double-check it”,避免出错进行了双倍检查。这就极大避免了幻觉率,确保提供的信息,一定范围内的准确性。

当然问题也有,就是这个产品不太Agent,让生成PPT最终没有生成,估计是因为调用不了其他工具。我体验导出报告,调用Chrome文档也不流畅。以后使用MCP协议估计效果会更好。

在基础语言模型方面,最大的更新是发布最新开源模型 Gemma 3 。

最大仅为27B,性能超越DeepSeek V3、o3mini,为全球第二强开源模型,仅次于DeepSeek R1,但是模型小很多,达到差不多的性能。

其他几个模型分别为 1B、4B、12B 和 27B,微型模型意味着可在手机、电脑上跑。

虽然模型小,但是各方面能力都具备。比如增强文本和视觉能力,可理解文本、图片、短视频。支持128K上下文窗口 ,支持函数调用,支持AI 代理开发,自动执行任务。

不仅是通用LLM模型更新,Google还在具身智能领域做了很大的改进。

Google DeepMind 推出基于 Gemini 2.0 研发的新一代 机器人 AI 模型Gemini Robotics 。

首先是具备泛化能力:Gemini Robotics利用Gemini 2.0的世界理解能力,机器人能够处理未见过的新物体、新指令和新环境,甚至完成训练中未见过的新任务。

在综合泛化基准测试中,Gemini Robotics的性能比其他最先进的VLA模型高出一倍以上。

例如,它能完成未训练过的任务,如扣篮一个新篮球。-

其次是交互性:它能理解日常语言指令(包括不同语言),并快速响应环境或指令的变化。例如,当物体被移动时,它能迅速重新规划行动路径,无需额外输入即可继续任务。

然后还具有灵活性与灵巧性:通过多模态推理(结合视觉、语言和动作),机器人能精确操控物体,完成多步骤任务。支持执行需要精细动作的复杂任务,如折叠纸鹤、将零食装进拉链袋或轻柔放置眼镜。

要知道,一开始,Google在大模型这波生成式AI浪潮中确实落后了。通过这两年的蛰伏,Google还是证明了其技术储备,完成了一场AI逆袭。

作者丨鲸哥

本文由人人都是产品经理作者【AI鲸选社】,微信公众号:【鲸选AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
12604人已学习13篇文章
随着互联网在大众生活中的不断普及与深入发展,互联网医疗这一全新的医疗健康服务业态发展趋势向好。本专题的文章分享了互联网医疗行业分析和竞品分析报告。
专题
14054人已学习12篇文章
“产品架构能力”是B2B产品经理中泛指设计产品系统架构的能力,这是产品经理非常重要的一个能力。本专题的文章分享了产品架构的设计指南。
专题
15290人已学习10篇文章
再好的产品,没有优质的推广渠道加持和App投放增长的方法,也很难实现有效传播和增长。本专题的文章分享了App投放推广指南。
专题
12725人已学习17篇文章
在一些老系统可能会有流程复杂、扩展性不强的问题,此时便需要进行重构。本专题的文章分享了产品重构指南。
专题
13316人已学习13篇文章
情绪板由能代表用户情绪的文本、元素、图片拼贴而成,能够很好地帮助我们定义设计的方向。本专题的文章分享了如何应用情绪板。
专题
15283人已学习16篇文章
随着互联网时代的蓬勃发展,互联网平台活动运营对于互联网企业业务十分重要。本专题的文章分享了如何做活动运营。