我用Suno给你写了首歌

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

王智远

2024-03-24

0 评论 4859 浏览 4 收藏

18 分钟

ChatGPT爆火之后，大家才知道生成式AI原来如此强大。Sora消息一出，文生视频的强悍能力更是让人眼前一亮。但文生音频，一直以来都没有多少声音，是因为没有代表性的产品吗？这篇文章，我们就来给大家普及一下相关知识。

我对生成式AI特别感兴趣。

这个领域涵盖文本、图片、声音、视频和3D模型五个方面。我猜你也听说过，甚至用过一些；对我来说，音乐很重要，因为每天差不多有1/12的时间都在听歌。

去年5月，有件事特别火。

有人用AI技术翻唱一首孙燕姿的歌曲，不少人听完后表示，唱的跟本人一样好听，本人还在社交媒体上表达说：拥抱AI，人类比不过AI，做好自己就行。

紧接着一个月内容，市面冒出来上千首用AI技术翻唱的歌，这些歌横跨了几十年的流行音乐。

当时，我还研究一阵。发现这些歌曲用音色替换的技术制作而成，该技术基于so-vits-svc开源项目开发，门槛非常低，你要感兴趣，也能学会。

但后来，由于工作关系加上下半年AIGC（AI生成内容）技术爆炸式发展，我的兴趣点也就跟着转移了。不过，最近发现，AI音乐技术又有了新的进步。

01

进步在哪呢？

以前用so-vits-svc工具时，要懂一些基础、且专业知识。

像怎么采集音频、编辑波形、把人声伴奏分开，以及音频训练推理技巧等，这些是处理和生成音频文件必要的基础。

如果你要用自己的声音来做歌曲，得先上传几段自己的声音，让系统学习。这个所谓“训练”过程会电脑显卡负荷很大，通常持续好几个小时。

过程中，还会用到一些插件。

比如有8种不同的编码器，每种都适用于不同的情景，有些插件不提供预先训练的模型，你还得自己训练一番；所以，看似简单的步骤对小白来说，也有点复杂。

现在不一样了。

3月22日，位于美国加州旧金山的一家人工智能公司Anthropic，他们开发的音频软件Suno AI进行一次重大升级，几个简短文字，一闪而过的灵感，立马变成一首歌曲。

Suno AI的官网：https://app.suno.ai/

可以先用谷歌注册一个账号，然后点击右上角的“make a song”按钮，接下来点击“create”，就能进入创作页面了。

目前官网上，有很多用户上传了他们用AI创作的歌曲，可以随便听听，其中不少华人创作的。

●Pic©https://app.suno.ai官网

比如：

有一首是用“中国传统民乐、慢板、空灵、天使之音”几个关键词生成的全新版本《水调歌头（明月几时有）》（和我们熟悉的《但愿人长久》不一样的版本）。

还有一首用“歌剧”这个提示词创作的《宫保鸡丁》，歌词，居然是一整套宫保鸡丁的菜谱，简直不要太离谱。

suno有免费模式可以使用，每日赠送50积分，而每次生成都会一起生成2首歌，每首歌小耗5积分，性价比比较高。

也有专业计划和尊贵计划，前者8美金/月；附带2500积分（500首歌曲）；后者24美金/月，附增10,000 个积分(2.000 首歌曲)。

如果不是专业选手使用，免费的玩玩还可以，对了，我特别找了下，国内有个网站跟它挺像，功能差不多，还能免费试用，不过，如果要充值，得注意真假。

目前suno ai创作模式有两种：

1. 半自动模式‍

只要提供一些简单的信息，比如，你想要的音乐风格、描述和氛围等关键词，然后点击“创建”，剩下的交给AI来完成，它能把歌词曲调都帮你弄好。

2. 自定义模式

这个模式下，你可以详细输入想要的歌词、音乐类型、风格和氛围等，AI会根据这些信息来为你创作歌曲。过程也比较快，基本上几秒钟就能完成。

而且，在创作页面如果开启了Instrumental（器乐）选项，它还会为你制作一首不含歌词的纯音乐；个人而言，我更喜欢自定义模式。

02

问题来了：很多人说我不会写歌词流派怎么办？

也不用担心，用AI工具生成歌词后再给Suno，这样效果会更好。我总结了一下，一首歌曲的有效提示词包括四个因素，分别是音乐风格、情绪、乐器，以及节奏。

什么是音乐风格呢？

比如，通俗易懂的流行风（Pop）、强调节奏的摇滚风（Rock）、即兴演奏爵士风（Jazz）、欧洲传统巴洛克的浪漫古典风（Classical）。

以及电子风（Electronic）、嘻哈音乐（Hip Hop/Rap）、R&B（Rhythm and Blues）、乡村音乐（Country）、民谣音乐（Folk）等等。

情绪你应该知道，是欢快、悲伤、浪漫还是激动人心的？乐器方面，你倾向于钢琴、吉他、小提琴还是鼓？至于节奏，有快节奏、慢节奏适中的节奏等等。

举几个例子：

如果你想要一首活力四射的流行电子舞曲，就跟AI说，我想写一首欢快、流行、电子、舞曲、快节奏的歌曲；
假如你想要一首温柔又浪漫的古典钢琴曲，那就告诉AI，你想要一首浪漫、古典、用钢琴弹奏的，而且节奏要慢的曲子。
如果你想听一首让人陷入深思的悲伤爵士萨克斯曲，就用这些关键词：忧郁、爵士、萨克斯风、即兴演奏，节奏保持在中等。

对于那种能让人热血沸腾的摇滚吉他曲，你可以这么说：我想要一首充满激情的摇滚歌，用电吉他弹奏，节奏要快；而如果你希望听到一首暖心的民谣木吉他曲，那就描述成：想听一首温馨的民谣，用木吉他演奏，风格轻柔。

……

你可以自由地混搭各种音乐风格，像电子即兴演奏、钢琴土嗨这样的组合，只有想不到没有做不到，写的越详细，生成的越精准，

你还可以选择直接在Suno上填入这些关键词，或利用AI工具，先生成好，然后把结果复制粘贴进去，这样，也能轻松创作出符合你想法的音乐了。

至于歌词上，目前支持随机生成和自己填写。

随机生成是系统自带，自己填写顾名思义，是写好再给它，我最近这几天一直让AI帮我写词。

想快速形成，就用「角色扮演」。基础prompt是这样：

想象你是个音乐天才，在音乐界深耕了20年。谱曲和写词是你的专业，现在，我希望你能当作曲家，用中文来创作。

我们要的风格是流行而且有治愈感的，就像周杰伦的《稻香》那样，你给我写一段歌词。

当它给完之后，你还可以说：你可以做得更好。歌词要有节奏感，要能感受到情感波动，既美又简洁，避免用那些听起来像口号的词句。

第二个方法也相对简单，即「仿写」。

原创要自己设定情节并总结，然后投喂给AI，让AI按照自己的设定去写；仿写是模仿对标歌曲的内容大纲、写作风格、语言特色等。

你可以说，帮我写一个歌词，类似于李荣浩的《老街》，或者某某的什么歌。对了，也许原歌词所对应的歌曲是流行风，你也可以投喂给Suno，让它生成摇滚风，也不是不可以。

目前多次体验来看，它生成和模仿歌曲还是有区别的。

第三个方法是，先建立一个大致结构框架。

一首完整的歌曲，它由前奏、诗句（或称为节）、副歌、桥段、尾奏五个部分组成，有点像写小说时会有的开场、发展、高潮和结尾四个环节。

划分结构后，按部就班地展开创作。这个过程中，你可以采用各种不同的技巧，比如押韵法。押韵法本身就有很多种形式，包括不限于ABAB、AABB、ABBA、ABCA等模式。

除押韵法以及增加歌词的韵律节奏感外，还可以要求AI多增加一些技巧，以及情感深度在里面，比如，用描述法，或者比喻，反复叠唱，以及具体抽象的结合等。

所以，AI写歌词本身和AI进行其他领域的创作底层相似，唯一区别在于，一旦你理解了一些特定领域专业术语，掌握它的难度就会大大降低。

不过，目前这个平台最多只能生成两分钟的歌曲，你给的词过多，后面也未必能用上，但也不要担心，它提供了一个连续创作功能。

你可以选择一首歌的任何部分，继续创作接下来的部分，然后把它们组合起来，就能突破两分钟的限制，创作出一首完整的歌曲。

03

生成音乐后你可以以下载（视频，音频）分享，也可以选择公开。

看起来是不是蛮爽的？‍

说回Suno这个平台，官方宣称目前不少知名艺术家在用，但主要用户群体依然是没有经验的普通人。的确，最新v3版本在音乐质量、使用提示词上都有明显提升。

而且，这一版本他们还搞了AI音乐水印系统，如此也能保护用户作品不被抄袭，防止别人滥用平台上的音乐去分发，目前我已经看到不少人用AI音乐开始赚钱了。

虽然这听起来不错，但我作为一个深度AI使用者，和深度听歌人士，还是想说几个问题，或几个特性。

一方面，平台简单提示词的确很棒，AI有更多自由度，但同时也意味着我们控制得少了，有时候，我给的提示词AI可能不会完全按照原意去写歌词。

另一方面在功能上，虽然我不是专业音乐人，但觉得AI音乐应该有一些基础、或专业功能，比如像音色克隆、转midi、分轨等。

转midi和分轨技术上比较难，但音色克隆（SVC）相对容易些，已有的开源模型也在不断进化，稍作调整就能集成进去，这也意味着用户只要上传一段自己的声音，就能定制一首歌，这肯定会吸引不少人付费。

这好比美颜相机的「美颜功能」，你不能总「一键美颜」，还要增加一些大眼睛、瘦脸、磨皮等功能。

我用so-vits-svc时不同，它部分插件看似全英文比较麻烦，但可以训练人声，还可以变换歌曲场景等等，所以，从专业角度来看，Suno更像一锅出的大杂烩。

虽然还不够完美，有点粗糙，但不可否认，这种工业化生产的音乐，已经占据了视频和流媒体平台大部分的流量。

换句话说，就质量而言，现在AI生成的好音乐已经可以媲美一般的音乐创作者了，尽管对于我们不熟悉的音乐流派来说，可能还是听不出太多门道。

目前Suno AI官网没有公开技术文档，我也不清楚模型结构，但可以看出，v3版本在支持中文方面比上一版进步很多，尽管偶尔会有电音；不过，模型迭代是必要的，毕竟遵循AI领域的一个通用规律即：模型越大，效果越好。

04

你听说了吗？

国内昆仑万维推出了「天工AI」搜索后，国外，AI搜索初创公司Perplexity AI一飞冲天。

Perplexity AI的创始人说，他对Suno这家公司很有信心，觉得它有潜力成为下一个AI领域的重磅玩家。

我特意去了解了下这家公司，原来Suno四个创始人之前在剑桥一个叫Kensho Technologies的公司共事的，他们中有两个是业余音乐爱好者。

他们在Kensho的时，主要开发一种AI技术，用来把上市公司的电话会议内容转录下来；后来，他们发现虽然AI在图像和文本生成方面搞出了不少大动作，音频这块却相对冷清。于是，就萌生了自己搞点动静的念头。

尽管有人说他们在炒作，但实不可否认，他们的产品更新快，音质也挺好的；就连Perplexity AI的老板都说，现在他听歌更倾向于用Suno而不是Spotify。

从个人使用角度来说，我自己这一周一直在用，我并不关注它到底是否炒作，或者割韭菜，至少它满足了我的「耳感」，让我愿意去尝试这些新奇的东西。

我觉得，未来个人创作音乐的热潮会跟写作一样，爆发式增长，市场角色已经从单纯的供给方转变为了供需双方互动，这意味着更多人可以参与到创作中来，甚至出现共创的模式。

在国内，音频AI领域也有不少实力派玩家，比如科大讯飞、腾讯音乐娱乐集团（TME）、网易云音乐等，它们在AI音乐上的尝试虽然步伐稍显缓慢，但也在稳步前进。

根据Suno的一个创始人所说，高质量音频采样率一般是44kHz或48kHz，意味着每秒要处理48000个数据点，音乐生成面临的一个挑战是，不像文字那样可以离散处理，音频数据处理要复杂得多。

所以，看似文生图模型大爆发，但在音视频这块，类似产品还只是刚刚起步，或者说它们根本不一样，真心希望国内企业能够加快发展步伐，推出更多像Suno这样的创新产品。

总结而言：

好玩，有趣。

音乐界也终将被AI改变命运，只有亲身体验过，你才会惊叹于自己竟能成为一名音乐家。快去试试吧。

专栏作家

王智远，公众号：王智远，畅销书《复利思维》作者，人人都是产品经理专栏作家。互联网学者，左手科技互联网，右手个体认知成长。

本文原创发布于人人都是产品经理。未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

王智远

公众号：王智远 |畅销书《复利思维》作者；左手营销方法论，右手心智成长。

305篇作品 1528623总阅读量

东方甄选争议背后，抖音获利

12-211629 浏览

产品原型设计的思考过程

06-0317224 浏览

抖音的天平，从电商倒向本地生活

01-064028 浏览

【沟通篇】当开发说这个需求做不了的时候，产品在想什么？

12-261584 浏览

AI 时代，产品能力大图（收藏版）

06-0813211 浏览

目前还没评论，等你发挥！

长视频2022：从内容到商业，新逻辑正在发芽与生长

01-042516 浏览
7000多个小组说关就关，美国贴吧的用户这次彻底疯狂！

06-152048 浏览
产品运营试用期，如何快速融入一家新公司？

12-191496 浏览