基于生成式AI的AI相机简易设计方案

0 评论 3409 浏览 6 收藏 30 分钟

生成式AI的爆火,给产品设计带来了更多可能性,产品工作人员可以尝试将AI技术落地至应用中,比如本篇文章里,作者就尝试基于生成式AI梳理了一份AI相机应用的设计方案,一起来看看。

文章结构:

一、用户群体

1. 一般用户

女性,不了解AI生成技术,不会使用,对于繁琐操作不了解,没有系统学习过摄影技术的用户(绝大部分女性)。

产品核心,简单,可视化,比起繁琐的操作,越简单这类用户使用的可能性就越大,越是视觉化的展示,该类用户的操作可能性就越大。

产品一定要具有社交功能,同时要有追随热度的准备。

产品效果一定要好看,而且玩法功能要是不是更新/推出新玩法,保证用户热情。

2. 核心用户

一般用户中,对于AI写真/艺术照片等功能感兴趣,同时愿意尝试的用户,该类用户付费使用会导致部分用户流失(先付费再使用不合理)。

妙鸭相机模式:

应该先尝试后定制模式,用通用模型生成结果加AI换脸,使得结果更像用户,这样用户尝试满意后再定制,可能机会更高。

3. 专业型用户

对AI绘画/摄影有了解的用户,该类用户需要在平台获利,才能长久的为产品带来优质的模版。可以考虑在社交版块对这些用户生成的模版进行付费买断,或者感知使用次数付费。

二、用户需求

1. 社交性需求

社交需求是最常见的用户需求,主要分为三类。

第一类,跟风爆点/热门类话题。

该类需求和当下热度时刻相关,2022年的原神大头特效就是最好的例子。

该类特效可以通过开源的deepfacelab完成,AI相机想要满足该类用户的需求,必须做到紧追互联网热点,如在2023年4月推出AI相机,最好的模型应该是“多巴胺服饰模型”

关注社交热度完成部分可行功能,是AI相机长期运营的一种模式。

第二类,创造新话题内容/热度的需求。

这类主要是内容创作者长期需求,在互联网的主要表现为,新内容/风格的传播,如“复古风”复刻DVD的质感特效,获得流量。

对于该类用户的需求,满足一次就是一次巨大的风口他们本身就是流量的创造者,同时该类用户的需求是最难满足的,互联网的流量不可确定性的因数太多,对于AI相机(核心为生成式AI)来说,满足多样化的风格是基础,如前些年流行复古,为了流行赛博朋克/革命元素都有可能,尽可能满足模型的多样性是对于这类用户最好的回应。

第三类,好看/有趣/艺术/独特的内容分享。

这类用户需求更贴合AI相机的能力,该类需求满足方向为——引起用户的分享欲望,这类社交需求核心就是分享欲,AI相机通过生成内容让用户产生正向落差(远超预期的照片),会激发该类用户的分享需求。

同时该类用户的自发推广,是产品推广必要的推动。AI相机需要满足的是夯实内功,打磨AI生成与人物融合的质量,AI生成模型的出图率与质量等最基础的质量问题。

2. 自我满足性需求

自我满足性需求,同样是AI相机最核心的用户群体,AI相机在某种程度上是和美颜相机是一样的。都能提供快速的,低成本,无痛的身体改造。

美颜相机的出现给予外貌普通的女生快速获得外貌资本的可能性,这也是美颜相机在需要展示外貌资本行业——直播行业普遍存在的原因,AI相机在某种程度上能部分(随着技术提升完全)取代美颜相机。

自我满足需求在用户个体的表现有以下几点:

1)外在的展示需求

该类需求和美颜相机一样,希望通过技术手段获得外貌资本,用于在社交/聊天/直播等地方获得优势。

技术不完善的Stable Diffusion直播生成变脸:

技术较为完善的deep face live直播换脸:

AI相机在实时直播行业的影响在不断的冲击美颜相机的市场份额,在该需求层面下,AI相机能完成的结果远高于美颜相机的,在个人信息的保留——用户更想她自己,这一核心领域AI相机的表现出色,而这一点恰恰是用户内心最敏感的点,美颜相机下的五官信息变化较大,AI换脸相机保留用户五官信息,这能给予用户心理上的慰藉,

但是deepface核心问题在于肖像权,所有生成式AI的脸部融合结果比起换脸更加安全。

2)内在展示需求

于外在展示需求不同,内容展示需求更具有私密性,内在展示需求的核心在于,用户的自我取悦。其表现形式上个人写真等不外传隐私性极高的照片上, 这类需求主要是女性用户对于自身“美”记录的想法,是绝对私密的内容,同时私房照行业的乱象对于这些用户来说也是“劝退”的关键。

AI相机如今的技术能满足这类用户的部分需求,而且AI相机更具有私密性,不存在人为的数据泄露问题,同时也减少了用户家庭环境对于该类用户指责。

(该类用户转化为付费用户的概率高——定制个人模型的可能性高)

通过生成式AI,获得用户喜欢的写真结果,让用户能获得取悦自己的照片,并且让用户几乎免费获得高费用写真的结果(穿搭/妆容/专业摄影费用高昂),同时用户有选择风格的权利(“私房照”的选择权利大部分在拍摄者手中,用户选择权利较少)在AI生成恰恰是用户权利最大的情况,用户可以按照心情生成自己想要的结果,同时还有指导拍摄的样式(在现有的结果上提出需要,能减少摄影者的“主观想法”)。

技术要求为更精细的人体生成结果/环境生成结果,对于平台的要求为绝对私密的内容保护,可指定的后期修图。保证用户内容不会外泄。

3. 记录型需求

1)情侣记录需求

这是最普遍的用户需求,一般情侣用户喜欢记录自己相处中的美好细节,这时候AI相机能提供场地/服饰等选择,对于用户来说会使得照片的背景环境更加丰富,照片的实际出片效果更好(满足用户背景优化/色调优化)。

对于某些原因无法相遇的异地恋用户,定制一张二人的情侣照片也是对于遗憾的一种弥补(AI生成式的照片定制)。

对于情侣来说头像也是具有重要记录意义的,但是网上找头像容易出现问题,个人定制头像比较麻烦,不能随心所欲,AI生成的恰好能满足部分用户需求(如q版头像),生成结果完全能作为情侣的头像。

2)宠物记录需求

这类需求的主要表现如猫狗vlog,用户会记录宠物的日常生活,该类用户对于宠物的感情深消费大,构造宠物的独立模型,生成一些宠物私房照对于该类用户来说有不错的吸引力。同时AI相机可以获得宠物的独特照片,让其具有不可替代性。效果如下。

有关于自己狗狗的有趣照片,对于有宠物记录需求的用户而言,这是非常有趣的记录信息。

3)怀旧记录需求

照片原初的作用其实是记录,在相机价格高昂的年代,照片承担的是用户记忆载体的需求,如今的照片功能更偏向于社交,让照片的记录本质其实是很多用户潜藏的需求,用户可能遇到过图片太多要清空的情况,然后很多照片处于“食之无味,弃之可惜”的情况,其核心原因是该类照片的记录回忆不足以让用户产生强烈情感波动,这类照片在摄影价格高昂的年代其实不具备拍摄可能。

限制拍摄/照片的产生结果,某种程度上是可以减少这样的照片,我们可以在AI相机中推出“每日照片功能”,用户每天上传一张照片,同时接合chatgbt的辅助,让用户写下简短的“今日心情”,AI相机会将图片/文字/时间/风格接合做出一张日历图片,“每日图片”上传时间满一年,我们会将日历打印送给用户,让用户重新捡起这一年的记忆,通过唤起用户记录需求,培养用户“日记习惯”。

4. 商业化需求(B端需求涉及到sd工作流暂时不做介绍)

1)产品设计图

AI生成图片,高效准确,对于如汽车/音响/建筑物等存在现实模型的产品,用户可以根据pormpt获得批量产品结果,对于设计来说是生产力工具。

产品设计工作主要涉及到lora训练/contrelnet使用等,非c端功能,具体工作流,有需要我下期再讲。

2)买量广告素材

买量游戏需要海量的游戏素材,生成AI的搞笑低价对于买量游戏来说是最好的生产工具。

3)服装模特

众所周知,略。

三、技术路线与其优势方向(简易说明)

1. 常见的图像生成模型

1)对抗生成网络

优势:

  1. gan网络在图像对图像的生成中,对于原信息的保护好。
  2. 生成输出快,显卡占用小。
  3. 单一风格变化稳定高效。
  4. 模型单一,不需要其他操作能实现用户一件操作。

gan模型实例——年龄变化:

风格变化:

gan实例,风格迁移(CycleGAN):

gan实例,高保真人像图片生成(stylegan3模型的人体毛发生成效果逼真,gan网络在高保真图像生成上有很强的效果):

gan网络对于AI相机的意义在于,能给予用户一个稳定照片玩法,如脸部变老,变风格等,这些在视频软件工具中的常见功能,用户可以通过这件功能的吸引去开始使用AI相机,低成本的内容生成,可以提升c端用户数量。

2)Diffusion Model扩散模型

优势:

  1. 生成内容丰富,可以根据语义变化。
  2. 对于图片信息的学习较为完整,比起gan网络限制较少。
  3. 接合姿态点,景深图可以稳定生成指定姿势。
  4. lora训练过程稳定,样本需求小。
  5. 能完成去噪超分等工作。
  6. 能满足多样化需求。

diffusion实例,风格迁移:

目标图片:

生成结果:

diffusion实例,prompt(提示词在AI绘画具有很重要的地位,有可能以后再讲)生成。

lora的使用(dva风格的lora)

sd还有很多实际上不错的生成效果/生成方式,在这暂时不介绍,有兴趣可以在sd工作流梳理中进一步介绍。

diffusion是AI相机的核心,作为生成AI负责用户需求的生成,但是生成的消耗较大,如果免费c端成本较高,可以通过gan满足部分用户好奇,在给予每个新用户部分使用通用模型的权限,方式将用户数量提升。

2. 其他基础技术

图像融合。

图像融合技术是生成式AI和用户实际数据产生效果的最后一步,融合产生问题会很大程度上减少用户对AI相机的依赖性,同时图像融合式实时AI相机的重要攻克难关。

姿态点估计/景深估计/边缘检测/图像檫除。

略。

四、产品设计——功能设计

1. 用户权限设计

1)基础用户权限

开放部分显卡算力消耗低的功能免费使用,如stylegangan的年龄变化功能,风格迁移等功能。

开放有限次数的AI写真/艺术照等,AI写真照采用通用人物模型生成(在生成结果融合用户目标图片给予用户初次体验AI写真的效果)对标妙鸭相机的功能。采用先体验后定制模式。

开放社区功能,用户可以浏览社区用户的生成结果和操作步骤,但是无法复制粘贴内容。

开放付费渠道/推广渠道,用户可以通过系统任务获得付费货币(推广产品/推广链接/推广码),然后使用单次付费渠道享受付费功能,

2)付费用户权限(定制模型用户)

  • 定制模型用户可以获得一定的付费货币,付费货币用于照片的高清下载画册定制等。
  • 开放社区全部权限,如一键生成社区效果,复制prompt(prompt笔记),社区推荐权利。
  • 开放AI写真/艺术照的全部权限,用户可以定制写真/艺术照等。
  • 开放指定后期功能,用户可以选择指定的后期需改自己的照片。
  • 开放隐私功能。用户的生成结果不保留,同时在用户保存下载后,会清除app内容的生成结果记录,保证用户的个人隐私。

3)会员付费用户

  • 会员用户可以无限次数下载内容
  • 会员用户可以获得有限排队权
  • 会员用户的后期定制权利提升(选择后期的权利>一般用户)
  • 会员用户可以在社区发布悬赏贴(提出自己需求,由其他用户尝试得到prompt)
  • 开放高级定制模块(输入个人需求prompt)
  • 开放具备重绘功能
  • 开放controlnet功能

4)企业级用户

对于需要批量生成结果用于推书/买量素材等的用户,开放批量生成渠道。

对于有AI相机直播需求的用户,可以定制AI相机直播软件,适配用户电脑,同时提供后勤服务。

2. 写真功能

stable Diffusion 对于图像生成效果有部分是极好的(在特定的prompt下),该类结果对于用户而言是社交/收藏的选择。

1)一般写真使用流程

写真功能是AI相机最核心的功能之一,我将工作流程中的用户反馈细分,AI绘图的关键问题有两种,一种是用户对生成结果直接不满意,一种是对脸部表情不满意,二者的实际处理方式不同,生成结果不满——选择重新生成的,脸部结果不满意——采用模型中的脸部修复功能/选择直接融合用户脸部信息等,保证尽可能的想用户,如何还不满意开方人工服务。

同时在用户重绘内容时,不应该再次排队,应当预留用户的操作响应时间,保证用户的良好使用体验,用户结果生成后的10s内,服务器依旧分配给该用户,在10s没有进行再次生成,结束任务用户重新排队。

2)私密写真

私密写真是部分自我满足需求用户取悦自己的一种方式,如暴露的衣物加诱人的姿势构成的图片,这些图片女性部分是用作收藏(同时部分用户会用作贩卖——福利姬模式)是否开放私密写真模式这存在很大的讨论空间,但是不变的是,在这发面无论是有需求的一般用户也好,还是有商业目的用户也好,她们都有很高的消费欲望(一套私房照500起步,同时会有不利的情况发生)。

私密照片应该作为限制功能,划分到提示词的高级模块,保证该类功能不会被滥用,具体功能为用户选择了高级模块后,可以自主输入prompt,用户同时在图片prompt(给用户选择的生成内容提示词用图片展示)内容扩展——增加部分普通模式不具备提示词。后续会介绍。

3)艺术图片生成

艺术照片和写真不同,用户能接受图片的怪异程度/不想自己的程度高,核心是艺术照片好不好看。

艺术中用户的五官没有图片效果重要,艺术照片的核心是效果,同样的部分艺术照片想要实现AI换脸的难度极大,不太现实,所以艺术照片的生成流程应该增加是否检测到人脸布置。

艺术照片的流程:

同样艺术照片也开设立高级模块(高级模块中也有艺术照片)。

4)背景照片/情侣头像生成功能

用于用户生成喜好背景,用于手机壁纸/生成画面选择等(高级模块)。

用户根据需求生成情头。

具体功能设计略(功能较为场景)。

5)图片玩法功能

单张图片说话功能Stable diffusion+wav2lip效果如下(无法展示动态额)。

这是生成结果,限制图片结果真实256*256,限制较大。

玩法2,生成动图Stable Diffusion AnimateDiff软件效果。

效果中会出现很诡异的生成结果,现阶段实用性一般,同时真人模型效果一般。

玩法生成漫画,输入买火柴的女孩。

生成结果存在问题,但是效果能接受,后续添加用户写台词功能,会是很不错的一种玩法。

玩法gan网络的年龄变化,风格迁移等。

6)指导拍摄功能

生成式AI对于用户来说是全新的获得照片模式,但是很多时候AI商用往往是通过特效/图生图改变风格将AI作为获得图像玩法的一个工具。我简单的梳理一下美颜相机和和AI相机的操作逻辑。

其实AI生成,用户是没有操作干预的,AI是基于提示词的生成结果,这里就会有一个巨大优势,当下环境无法满足摄影需求,但是AI可以提前生成相似结果。生成不受到环境的干预。

场景案例:

明天和朋友外出游玩,需求拍摄好看的外景照片。

AI相机可以提前预设场景/用户姿势/光线/镜头等摄影参数,生成结果,用户对于生成结果满意。相机可以更加生成图片的prompt,在现实中找到对应的教程,提前知道用户操作,或者用户可以记录为笔记,在有需求的时候进行系统指导拍摄(人物框模式)。

通过指导拍摄,用户会获得实际的参与感,让AI相机发挥相机的基础职能。

7)预测拍摄功能

上面提到AI相机生产不受到环境影响,同时AI还能做出预测结果。

场景案例:

用户健身;

用户健身其实是个长期坚持的结果,用户短期很难获得成效,但是AI可以根据用户训练模型针对的做出预测训练效果图,给予健身用户目标。

用户减肥——同理;

房间装修预测;

用户根据生成结果,廉价的获得无数方案,用于指导装修。

预测效果对于AI相机来说是个实用性很高的功能,特别是涉及到设计类方面其实是个tob的工作流。

8)社区功能(简单版)

社区交流版块:

用户分享生成/拍摄/有趣的事情。

功能:

  1. 一件复制商城图片的prompt,并且收录到用户的笔记本中,方便用户使用。
  2. 定期评选最佳摄影作品,该最佳作品会生成固定模板供用户使用。
  3. 推出悬赏机制,用户吧自己想要的风格做悬赏,用户完成相应的prompt获得奖励。
  4. 推出用户表情包制作功能。
  5. 推出照片后的故事,用户赋予自己照片的故事(真实/杜撰),每月评选最佳的照片故事给予奖励。

社区商业版块:

  1. 用户衣服定制,用户生成结果的衣服可以在商城中发起我想要定制图片衣物/首饰等,我们会将定制的价格公示,(价格随着用户数量的提升不断减少,最低为成本价格的5倍)假设用户数量不满足基础数量,则告知用户,商品无法生成。
  2. 推出立牌/扑克牌/明信片等定制服务。
  3. 推出生成结果相识衣物推荐等。
  4. 图片修复/精修功能。

9)用户付费功能(简易)

  • 参考用户权限
  • 高级提示词付费
  • 模型定制付费(普通模型/高定模型)
  • 会员付费
  • 直播软件工具付费(暂时不提)

3. 提示词设计

1)一般模块

采用图片展示代替输入prompt的形式,让用户可以完成视觉操作。

如提示词雪山,改为的图像展示。

相机镜头的选着也是如此,繁琐的提示词不利于用户的选择。

其中的镜头语言更是让人摸不着头脑,光线也是繁琐。

同样采用图片展示加标签模式,方便用户使用。

参考常见相机的滤镜功能。

简化用户操作,让小白也能懂怎么玩AI相机。

提升词模版化。

根据基础模板设计用户选择的提示词(视觉操作)。

prompt对于专业使用的人来说是有迹可循的,但是对于普通用户来说属于是云里雾里,所以模版化提示词是必须的(举例说明:prompt就想做饭,调料的多少对于厨师来说不是问题,对于小白就不一样了,模板化prompt就是方便面调料包,保证用户最基本的产出结果)。

4. 高级模块

开放提示词输入权限。

添加局部重绘功能。

添加更多的提示词展示功能以及AI支援功能,让用户更了解这个参数的效果。

五、风险

1. 色情内容生产

核心问题,如何限制捏,我也不知道呀。

2. 肖像权问题

同理。

备注:有不足的地方希望大伙多多指点,小白真的很想转行去做产品捏,如果有想要我分析的行业也能告诉我哦,跨行找工作太难了,呜呜呜。

本文由 @杨文洪 原创发布于人人都是产品经理,未经授权,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!