多模态 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

"多模态"相关的文章

AI

GPT-5.2 发布：信息全整理

GPT-5.2 发布：信息全整理

GPT-5.2的发布标志着AI能力的又一次飞跃，三个版本各有所长：Instant快如闪电，Thinking专攻深度任务，Pro版则是解决难题的终极武器。在AIME 2025斩获满分、GDPval测试中74.1%任务超越人类专家，这款模型不仅在代码、长文档处理上大幅提升，更以11倍于人类的速度重塑工作流程。价格虽涨40%，但效率提升让总成本更低。

灵山下的小妖怪

AI模型 GPT-5 代码生成

AI,个人随笔

AI×IP：一场关于“可计算内容”的产业革命正在发生

AI×IP：一场关于“可计算内容”的产业革命正在发生

在多模态AI与全球文娱产业融合的背景下，IP的生产方式正在经历根本性变革。AI技术的进步使得IP创作、生产与分发从人力驱动转向算法驱动，行业变革的关键已从中腰部公司转向工具层与场景层。

AI技术 IP经济多模态

AI,个人随笔

Gemini Generative UI 深度分析（一）：基于谷歌官方博客与研究团队论文的初步介绍

Gemini Generative UI 深度分析（一）：基于谷歌官方博客与研究团队论文的初步介绍

Gemini 3 的重大更新不仅带来了更强大的智能，还解锁了全新的 Generative UI 界面，能够根据用户需求即时构建可交互的界面。本文将深入解析这一创新功能的技术实现及其对未来交互方式的深远影响。

游游的产品笔记

AI交互 Gemini 产品分析

AI

生成式UI+多模态融合：Gemini 3如何重塑人机交互未来

生成式UI+多模态融合：Gemini 3如何重塑人机交互未来

Gemini 3的发布标志着人机交互从对话迈向共同创造的新纪元。其原生多模态能力与硬件调用，让用户能以自然语言生成交互界面，在教育、娱乐、企业服务等领域实现即时定制。本文深度解析技术底座与应用场景，探讨生成式UI如何降低创造门槛，释放无限想象力。

进化之家BRN

Gemini 产品分析人机交互

产品设计

AI+财税：多模态财税问答系统项目方案书

AI+财税：多模态财税问答系统项目方案书

在财税数字化转型的浪潮中，AI 不再只是工具，而是重塑业务逻辑的核心力量。本文聚焦多模态财税问答系统的方案设计，旨在探索如何以智能化交互提升效率、降低风险，并为企业构建更具前瞻性的财税管理体系。

敏尔说财税

AI应用多模态经验分享

AI

抢占VQA多模态风口：产品经理的场景挖掘与产品创新价值转化指南

抢占VQA多模态风口：产品经理的场景挖掘与产品创新价值转化指南

在AI多模态浪潮席卷而来的当下，VQA（视觉问答）正成为产品创新的新高地。面对这一技术风口，产品经理如何从场景出发，挖掘真实需求、构建差异化价值，并实现从技术亮点到商业落地的跃迁？本文将以系统化视角，拆解VQA的产品机会地图，助你在多模态时代占领先机。

产智AI 城南

VQA 创新价值场景挖掘

AI

多模态文生图 / 文生视频模型：应用、训练与规则维度全景解析

多模态文生图 / 文生视频模型：应用、训练与规则维度全景解析

文生图、文生视频模型不只是“生成能力”的升级，更是“表达机制”的系统跃迁。本文系统梳理多模态模型在应用、训练与规则维度的全景路径，帮助产品人理解如何在“能力边界”与“合规表达”之间构建新的认知闭环，实现从“能生成”到“能落地”的跃迁。

多模态大语言模型技术原理

AI

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

两个月内连发三弹，小红书今天把「看懂世界」的大招也开源了！全新多模态大模型 dots.vlm1 基于 12 亿参数自研视觉编码器 + DeepSeek V3，色盲图、数独、高考数学题、李白风格写诗统统拿下，视觉推理直逼 Gemini 2.5 Pro，代码已全量公开，实测惊艳到尖叫！

产品分析多模态小红书

AI

多模态都是假的：最强模型数不清手指、认不出雷碧

多模态都是假的：最强模型数不清手指、认不出雷碧

把六指图喂进“最强”多模态模型，它依然坚称只有五根手指；让它认“雷碧”，也会被文字带偏。作者用一连串实测拆穿幻象：模型并非“看见”，只是高维概率复读机。数据偏差、任务粒度、长尾缺失才是幻觉根源。认清边界，才能补数据、改架构，把 AI 真正用在刀刃上。

产品评估多模态大模型

AI,个人随笔

多模态提示词的设计（五）

多模态提示词的设计（五）

大型模型不仅仅只有“语言”模型，它们正演变为能够同时理解和处理多种信息类型（或称“模态”）的“多模态模型”。这为产品设计开辟了全新的维度，也对提示词工程提出了新的要求。

猫猫观察员的AI思考

AI应用多模态提示词

AI

AI infra赛道再现3000万美元大额融资，当数据处理遇上AI，如何重新定义多模态数据的未来

AI infra赛道再现3000万美元大额融资，当数据处理遇上AI，如何重新定义多模态数据的未来

Daft 以 “工具适应数据” 为设计理念，原生支持多模态数据处理，具备无缝扩展、深度优化 AI 工作流等优势，正试图解决多模态数据处理的核心难题。本文将深入探讨 Eventual 的解决方案、技术创新及背后的行业意义，解析多模态数据处理领域的现状与未来。

AI产品创业公司多模态

AI,个人随笔

最新结论·多模态视觉语言模型测评报告：引发我从技术突破到产业挑战的思考

最新结论·多模态视觉语言模型测评报告：引发我从技术突破到产业挑战的思考

从“看图说话”到“图文共创”，多模态视觉语言模型正以前所未有的速度突破边界。但在技术惊艳的背后，真正的产业落地却远比想象中复杂。这篇测评报告不仅系统梳理了当前主流多模态模型的能力表现，更结合一线实践，深入探讨它们在真实业务场景中面临的瓶颈与挑战。

分析报告多模态行业观察