言变图的“LLM时刻”,还有AI全家桶,Google杀疯了

鲸选AI
0 评论 514 浏览 0 收藏 13 分钟
🔗 产品经理的核心价值是能够准确发现和满足用户需求,把用户需求转化为产品功能,并协调资源推动落地,创造商业价值

在AI的世界里,谷歌一直像是那个憋着大招的“学霸”,虽然之前在大模型的风潮中似乎慢了半拍,但最近它直接祭出了“全家桶”,把大家惊得目瞪口呆!开源模型、AI文生图、机器人AI模型……每一项都像是在说:“看我的厉害!”这篇文章就是这场AI盛宴的“菜单”,带你一探谷歌到底有多“杀疯”!

对于Google来说,作为Transformer等核心技术的发明者,在“AI 4巨头”的讨论中没有它,是一件很尴尬的事情。

这让其一直憋着一口气,决心证明自己。最近Google的系列更新就颇具看点:

“发布开源模型 Gemma 3,性能超越DeepSeek V3、o3mini为全球第二强开源模型,但是模型大小仅为7B。发布Gemini 2.0 Flash Experimental,动动嘴就能PS的AI文生图产品。不仅如此,对指令理解也相当到位,能连续生成一致性图片,并评为AI生图的GPT时刻,这几天在推特传疯了。Deep Research开放免费使用,背后是2.0 Flash Thinking Experimental 提升推理能力并扩展上下文窗口。还有新一代 机器人 AI 模型Gemini Robotics ,对物理世界更懂了。”

国外有网友评价Google这次更新,是几乎每项到了最佳:

到底有没有这么强呢,鲸哥认为是大差不差,有惊喜,也有吹嘘。

先说这次最被热议的更新—Gemini 2.0 Flash Experimental。 原生图像生成功能上线,说话就能PS照片的梦想实现。通过聊天任意编辑图像的局部或者全部,有点类似Adobe firefly 版本。

我们用英伟达CEO黄仁勋此前发布会的图片,来试试是否可以随意PS。

我们先要求换背景,让黄仁勋在直播间中带货。这个难度不大,是不是抠图也不好说。

“321上链接”,5090显卡刀法精准,直接卖爆了,我们让黄仁勋开心地笑起来。看得出来表情有些崩,但整体还是做到了AI改变人物表情。

再要求把脸从黄仁勋换成马斯克,这个挺顺畅完成了,马斯克的脸部还挺逼真,表情也比较自然。一个小细节,摄像机上手机屏幕中的人物也跟着换成了马斯克。

还有一个这两天大家很爱玩的功能,就是这个合成图片的功能,熊的视角略微有一些转向,但是合成图片中还原的还不错。

很多人会质疑这个功能有什么用,国外有小伙,利用gemini-2.0 新推出的图片编辑 API,连夜肝了个工具,实现白底图到产品实拍图的批量自动化生成。

他是这样评价这个产品:“效果炸裂,特别是对产品的特征保留的很好,相比 ComfyUI 工作流调个半死,这不强多了。”

当然它还能给线稿上色,鲸哥生成了“猿力崛起”类似的图片。生成效果确实还没有Midjourney强,但是能力很连贯,这是生成式AI的体现,这是预言挑战画家的颠覆性一步。

Gemini-2.0不仅改图能力强,还能生成连续性的图片故事集,效果也不错。以下是鲸哥测试的成果。

“生成一个关于爆炒羊杂教程系列图片。对于每个场景,生成一个图像和一段介绍文字。”Google生成的教程显示有点长,我在排版时用SVG动画显示了,大家点击下方即可查看。羊杂切碎,调好备料最关键是羊杂焯水·

羊杂切碎,调好备料最关键是羊杂焯水放油,先炒调料再加入羊杂爆炒·

放油,先炒调料再加入羊杂爆炒放入蔬菜,炒至断生加入勾芡,炒熟装盘·

放入蔬菜,炒至断生加入勾芡,炒熟装盘

感谢Google,终于知道中午做的爆炒羊杂为啥不好吃了,原来没有先把羊杂焯水(直男落泪)。

此前的 2 月,Google Veo 2 已通过 Freepik 发布了图像转视频功能,现在与2.0 Flash有很好的结合了。

这个视频是JP博主制作,用一张AI生成的美女和商品图结合,先是生成了带货图片,然后转成了视频,神奇的是视频中饮料的商标都没有变,目前在推特上很火。

最后再讲一个很有用的东西,应该比以上视觉工具更加落地。

是不是大家仍没有Manus邀请码,感觉也不用苦苦等待了。Google deep Research 现在可以免费使用,由 2.0 Flash Thinking模型提供支持,而且可以展示研究过程(chain of research),甚至支持链接你的搜索记录对 Gemini 进行个性化设置。

这是我做的“中国视频类科技商业博主起号及爆款”研究专题,要求生成30页以内的PPT报告。

还能根据这份报告继续提问,我问了下最适合普通人学习的博主是谁,回答结果如下,额,不知道大家怎么看这个结果。

Deep Research能罗列Researching websites,这样你可以清楚看到引用的哪些网站内容,靠不靠谱。同时这也是Google deep Research 的优势,搜索内容的广度上要比OpenAI 大很多,甚至能索引 YouTube 内容。

最重要的是,它输入框底下有行字,“Gemini can make mistakes, so double-check it”,避免出错进行了双倍检查。这就极大避免了幻觉率,确保提供的信息,一定范围内的准确性。

当然问题也有,就是这个产品不太Agent,让生成PPT最终没有生成,估计是因为调用不了其他工具。我体验导出报告,调用Chrome文档也不流畅。以后使用MCP协议估计效果会更好。

在基础语言模型方面,最大的更新是发布最新开源模型 Gemma 3 。

最大仅为27B,性能超越DeepSeek V3、o3mini,为全球第二强开源模型,仅次于DeepSeek R1,但是模型小很多,达到差不多的性能。

其他几个模型分别为 1B、4B、12B 和 27B,微型模型意味着可在手机、电脑上跑。

虽然模型小,但是各方面能力都具备。比如增强文本和视觉能力,可理解文本、图片、短视频。 支持128K上下文窗口 ,支持函数调用,支持AI 代理开发,自动执行任务。

不仅是通用LLM模型更新,Google还在具身智能领域做了很大的改进。

Google DeepMind 推出基于 Gemini 2.0 研发的新一代

机器人 AI 模型Gemini Robotics 。

首先是具备泛化能力:Gemini Robotics利用Gemini 2.0的世界理解能力,机器人能够处理未见过的新物体、新指令和新环境,甚至完成训练中未见过的新任务。

在综合泛化基准测试中,Gemini Robotics的性能比其他最先进的VLA模型高出一倍以上。

例如,它能完成未训练过的任务,如扣篮一个新篮球。-

其次是交互性:它能理解日常语言指令(包括不同语言),并快速响应环境或指令的变化。例如,当物体被移动时,它能迅速重新规划行动路径,无需额外输入即可继续任务。

然后还具有灵活性与灵巧性:通过多模态推理(结合视觉、语言和动作),机器人能精确操控物体,完成多步骤任务。支持执行需要精细动作的复杂任务,如折叠纸鹤、将零食装进拉链袋或轻柔放置眼镜。

要知道,一开始,Google在大模型这波生成式AI浪潮中确实落后了。通过这两年的蛰伏,Google还是证明了其技术储备,完成了一场AI逆袭。

本文由人人都是产品经理作者【鲸选AI】,微信公众号:【鲸选AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
12714人已学习13篇文章
在产品的不同生命周期,需要有对应的产品战略以应对市场。本专题的文章分享了如何做好产品战略规划。
专题
11893人已学习13篇文章
2023年已结束,你的年终总结写好了吗?本专题的文章分享了如何做好年终总结。
专题
38714人已学习11篇文章
世间万物皆有套路,面试更是如此,多拿几个靠谱offer。
专题
60776人已学习12篇文章
业务流程图是最常见的图表之一,能看懂读懂是必修课,能绘制便是非常重要的选修课。
专题
11545人已学习12篇文章
任何理论都有它的局限性和前提条件,没有一种方法论是永远有效的。品牌方法论一直处在变化阶段,它随着时代发展的变化而变化。本专题的文章分享了品牌方法论。
专题
12050人已学习10篇文章
对于产品、运营人,在不同的职业发展阶段,所需要关注的重点也不同。本专题的文章分享了运营人如何规划职业生涯。