基于生成式AI的AI相机简易设计方案

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

基于生成式AI的AI相机简易设计方案

杨文洪

2023-09-21

0 评论 3464 浏览 6 收藏

30 分钟

生成式AI的爆火，给产品设计带来了更多可能性，产品工作人员可以尝试将AI技术落地至应用中，比如本篇文章里，作者就尝试基于生成式AI梳理了一份AI相机应用的设计方案，一起来看看。

文章结构：

一、用户群体

1. 一般用户

女性，不了解AI生成技术，不会使用，对于繁琐操作不了解，没有系统学习过摄影技术的用户（绝大部分女性）。

产品核心，简单，可视化，比起繁琐的操作，越简单这类用户使用的可能性就越大，越是视觉化的展示，该类用户的操作可能性就越大。

产品一定要具有社交功能，同时要有追随热度的准备。

产品效果一定要好看，而且玩法功能要是不是更新/推出新玩法，保证用户热情。

2. 核心用户

一般用户中，对于AI写真/艺术照片等功能感兴趣，同时愿意尝试的用户，该类用户付费使用会导致部分用户流失（先付费再使用不合理）。

妙鸭相机模式：

应该先尝试后定制模式，用通用模型生成结果加AI换脸，使得结果更像用户，这样用户尝试满意后再定制，可能机会更高。

3. 专业型用户

对AI绘画/摄影有了解的用户，该类用户需要在平台获利，才能长久的为产品带来优质的模版。可以考虑在社交版块对这些用户生成的模版进行付费买断，或者感知使用次数付费。

二、用户需求

1. 社交性需求

社交需求是最常见的用户需求，主要分为三类。

第一类，跟风爆点/热门类话题。

该类需求和当下热度时刻相关，2022年的原神大头特效就是最好的例子。

该类特效可以通过开源的deepfacelab完成，AI相机想要满足该类用户的需求，必须做到紧追互联网热点，如在2023年4月推出AI相机，最好的模型应该是“多巴胺服饰模型”

关注社交热度完成部分可行功能，是AI相机长期运营的一种模式。

第二类，创造新话题内容/热度的需求。

这类主要是内容创作者长期需求，在互联网的主要表现为，新内容/风格的传播，如“复古风”复刻DVD的质感特效，获得流量。

对于该类用户的需求，满足一次就是一次巨大的风口他们本身就是流量的创造者，同时该类用户的需求是最难满足的，互联网的流量不可确定性的因数太多，对于AI相机（核心为生成式AI）来说，满足多样化的风格是基础，如前些年流行复古，为了流行赛博朋克/革命元素都有可能，尽可能满足模型的多样性是对于这类用户最好的回应。

第三类，好看/有趣/艺术/独特的内容分享。

这类用户需求更贴合AI相机的能力，该类需求满足方向为——引起用户的分享欲望，这类社交需求核心就是分享欲，AI相机通过生成内容让用户产生正向落差（远超预期的照片），会激发该类用户的分享需求。

同时该类用户的自发推广，是产品推广必要的推动。AI相机需要满足的是夯实内功，打磨AI生成与人物融合的质量，AI生成模型的出图率与质量等最基础的质量问题。

2. 自我满足性需求

自我满足性需求，同样是AI相机最核心的用户群体，AI相机在某种程度上是和美颜相机是一样的。都能提供快速的，低成本，无痛的身体改造。

美颜相机的出现给予外貌普通的女生快速获得外貌资本的可能性，这也是美颜相机在需要展示外貌资本行业——直播行业普遍存在的原因，AI相机在某种程度上能部分（随着技术提升完全）取代美颜相机。

自我满足需求在用户个体的表现有以下几点：

1）外在的展示需求

该类需求和美颜相机一样，希望通过技术手段获得外貌资本，用于在社交/聊天/直播等地方获得优势。

技术不完善的Stable Diffusion直播生成变脸：

技术较为完善的deep face live直播换脸：

AI相机在实时直播行业的影响在不断的冲击美颜相机的市场份额，在该需求层面下，AI相机能完成的结果远高于美颜相机的，在个人信息的保留——用户更想她自己，这一核心领域AI相机的表现出色，而这一点恰恰是用户内心最敏感的点，美颜相机下的五官信息变化较大，AI换脸相机保留用户五官信息，这能给予用户心理上的慰藉，

但是deepface核心问题在于肖像权，所有生成式AI的脸部融合结果比起换脸更加安全。

2）内在展示需求

于外在展示需求不同，内容展示需求更具有私密性，内在展示需求的核心在于，用户的自我取悦。其表现形式上个人写真等不外传隐私性极高的照片上，这类需求主要是女性用户对于自身“美”记录的想法，是绝对私密的内容，同时私房照行业的乱象对于这些用户来说也是“劝退”的关键。

AI相机如今的技术能满足这类用户的部分需求，而且AI相机更具有私密性，不存在人为的数据泄露问题，同时也减少了用户家庭环境对于该类用户指责。

（该类用户转化为付费用户的概率高——定制个人模型的可能性高）

通过生成式AI，获得用户喜欢的写真结果，让用户能获得取悦自己的照片，并且让用户几乎免费获得高费用写真的结果（穿搭/妆容/专业摄影费用高昂），同时用户有选择风格的权利（“私房照”的选择权利大部分在拍摄者手中，用户选择权利较少）在AI生成恰恰是用户权利最大的情况，用户可以按照心情生成自己想要的结果，同时还有指导拍摄的样式（在现有的结果上提出需要，能减少摄影者的“主观想法”）。

技术要求为更精细的人体生成结果/环境生成结果，对于平台的要求为绝对私密的内容保护，可指定的后期修图。保证用户内容不会外泄。

3. 记录型需求

1）情侣记录需求

这是最普遍的用户需求，一般情侣用户喜欢记录自己相处中的美好细节，这时候AI相机能提供场地/服饰等选择，对于用户来说会使得照片的背景环境更加丰富，照片的实际出片效果更好（满足用户背景优化/色调优化）。

对于某些原因无法相遇的异地恋用户，定制一张二人的情侣照片也是对于遗憾的一种弥补（AI生成式的照片定制）。

对于情侣来说头像也是具有重要记录意义的，但是网上找头像容易出现问题，个人定制头像比较麻烦，不能随心所欲，AI生成的恰好能满足部分用户需求（如q版头像），生成结果完全能作为情侣的头像。

2）宠物记录需求

这类需求的主要表现如猫狗vlog，用户会记录宠物的日常生活，该类用户对于宠物的感情深消费大，构造宠物的独立模型，生成一些宠物私房照对于该类用户来说有不错的吸引力。同时AI相机可以获得宠物的独特照片，让其具有不可替代性。效果如下。

有关于自己狗狗的有趣照片，对于有宠物记录需求的用户而言，这是非常有趣的记录信息。

3）怀旧记录需求

照片原初的作用其实是记录，在相机价格高昂的年代，照片承担的是用户记忆载体的需求，如今的照片功能更偏向于社交，让照片的记录本质其实是很多用户潜藏的需求，用户可能遇到过图片太多要清空的情况，然后很多照片处于“食之无味，弃之可惜”的情况，其核心原因是该类照片的记录回忆不足以让用户产生强烈情感波动，这类照片在摄影价格高昂的年代其实不具备拍摄可能。

限制拍摄/照片的产生结果，某种程度上是可以减少这样的照片，我们可以在AI相机中推出“每日照片功能”，用户每天上传一张照片，同时接合chatgbt的辅助，让用户写下简短的“今日心情”，AI相机会将图片/文字/时间/风格接合做出一张日历图片，“每日图片”上传时间满一年，我们会将日历打印送给用户，让用户重新捡起这一年的记忆，通过唤起用户记录需求，培养用户“日记习惯”。

4. 商业化需求（B端需求涉及到sd工作流暂时不做介绍）

1）产品设计图

AI生成图片，高效准确，对于如汽车/音响/建筑物等存在现实模型的产品，用户可以根据pormpt获得批量产品结果，对于设计来说是生产力工具。

产品设计工作主要涉及到lora训练/contrelnet使用等，非c端功能，具体工作流，有需要我下期再讲。

2）买量广告素材

买量游戏需要海量的游戏素材，生成AI的搞笑低价对于买量游戏来说是最好的生产工具。

3）服装模特

众所周知，略。

三、技术路线与其优势方向（简易说明）

1. 常见的图像生成模型

1）对抗生成网络

优势：

gan网络在图像对图像的生成中，对于原信息的保护好。
生成输出快，显卡占用小。
单一风格变化稳定高效。
模型单一，不需要其他操作能实现用户一件操作。

gan模型实例——年龄变化：

风格变化：

gan实例，风格迁移（CycleGAN）：

gan实例，高保真人像图片生成（stylegan3模型的人体毛发生成效果逼真，gan网络在高保真图像生成上有很强的效果）：

gan网络对于AI相机的意义在于，能给予用户一个稳定照片玩法，如脸部变老，变风格等，这些在视频软件工具中的常见功能，用户可以通过这件功能的吸引去开始使用AI相机，低成本的内容生成，可以提升c端用户数量。

2）Diffusion Model扩散模型

优势：

生成内容丰富，可以根据语义变化。
对于图片信息的学习较为完整，比起gan网络限制较少。
接合姿态点，景深图可以稳定生成指定姿势。
lora训练过程稳定，样本需求小。
能完成去噪超分等工作。
能满足多样化需求。

diffusion实例，风格迁移：

目标图片：

生成结果：

diffusion实例，prompt（提示词在AI绘画具有很重要的地位，有可能以后再讲）生成。

lora的使用（dva风格的lora）

sd还有很多实际上不错的生成效果/生成方式，在这暂时不介绍，有兴趣可以在sd工作流梳理中进一步介绍。

diffusion是AI相机的核心，作为生成AI负责用户需求的生成，但是生成的消耗较大，如果免费c端成本较高，可以通过gan满足部分用户好奇，在给予每个新用户部分使用通用模型的权限，方式将用户数量提升。

2. 其他基础技术

图像融合。

图像融合技术是生成式AI和用户实际数据产生效果的最后一步，融合产生问题会很大程度上减少用户对AI相机的依赖性，同时图像融合式实时AI相机的重要攻克难关。

姿态点估计/景深估计/边缘检测/图像檫除。

略。

四、产品设计——功能设计

1. 用户权限设计

1）基础用户权限

开放部分显卡算力消耗低的功能免费使用，如stylegangan的年龄变化功能，风格迁移等功能。

开放有限次数的AI写真/艺术照等，AI写真照采用通用人物模型生成（在生成结果融合用户目标图片给予用户初次体验AI写真的效果）对标妙鸭相机的功能。采用先体验后定制模式。

开放社区功能，用户可以浏览社区用户的生成结果和操作步骤，但是无法复制粘贴内容。

开放付费渠道/推广渠道，用户可以通过系统任务获得付费货币（推广产品/推广链接/推广码），然后使用单次付费渠道享受付费功能，

2）付费用户权限（定制模型用户）

定制模型用户可以获得一定的付费货币，付费货币用于照片的高清下载画册定制等。
开放社区全部权限，如一键生成社区效果，复制prompt（prompt笔记），社区推荐权利。
开放AI写真/艺术照的全部权限，用户可以定制写真/艺术照等。
开放指定后期功能，用户可以选择指定的后期需改自己的照片。
开放隐私功能。用户的生成结果不保留，同时在用户保存下载后，会清除app内容的生成结果记录，保证用户的个人隐私。

3）会员付费用户

会员用户可以无限次数下载内容
会员用户可以获得有限排队权
会员用户的后期定制权利提升（选择后期的权利＞一般用户）
会员用户可以在社区发布悬赏贴（提出自己需求，由其他用户尝试得到prompt）
开放高级定制模块（输入个人需求prompt）
开放具备重绘功能
开放controlnet功能

4）企业级用户

对于需要批量生成结果用于推书/买量素材等的用户，开放批量生成渠道。

对于有AI相机直播需求的用户，可以定制AI相机直播软件，适配用户电脑，同时提供后勤服务。

2. 写真功能

stable Diffusion 对于图像生成效果有部分是极好的（在特定的prompt下），该类结果对于用户而言是社交/收藏的选择。

1）一般写真使用流程

写真功能是AI相机最核心的功能之一，我将工作流程中的用户反馈细分，AI绘图的关键问题有两种，一种是用户对生成结果直接不满意，一种是对脸部表情不满意，二者的实际处理方式不同，生成结果不满——选择重新生成的，脸部结果不满意——采用模型中的脸部修复功能/选择直接融合用户脸部信息等，保证尽可能的想用户，如何还不满意开方人工服务。

同时在用户重绘内容时，不应该再次排队，应当预留用户的操作响应时间，保证用户的良好使用体验，用户结果生成后的10s内，服务器依旧分配给该用户，在10s没有进行再次生成，结束任务用户重新排队。

2）私密写真

私密写真是部分自我满足需求用户取悦自己的一种方式，如暴露的衣物加诱人的姿势构成的图片，这些图片女性部分是用作收藏（同时部分用户会用作贩卖——福利姬模式）是否开放私密写真模式这存在很大的讨论空间，但是不变的是，在这发面无论是有需求的一般用户也好，还是有商业目的用户也好，她们都有很高的消费欲望（一套私房照500起步，同时会有不利的情况发生）。

私密照片应该作为限制功能，划分到提示词的高级模块，保证该类功能不会被滥用，具体功能为用户选择了高级模块后，可以自主输入prompt，用户同时在图片prompt（给用户选择的生成内容提示词用图片展示）内容扩展——增加部分普通模式不具备提示词。后续会介绍。

3）艺术图片生成

艺术照片和写真不同，用户能接受图片的怪异程度/不想自己的程度高，核心是艺术照片好不好看。

艺术中用户的五官没有图片效果重要，艺术照片的核心是效果，同样的部分艺术照片想要实现AI换脸的难度极大，不太现实，所以艺术照片的生成流程应该增加是否检测到人脸布置。

艺术照片的流程：