立即注册

免费试用

首页 > AI资讯 > 行业研究

今日推荐

AI原创论文写作

毕业论文、学术论文写作

AI长篇写作

写小说、写论文等

AI生成思维导图

一键快速生成思维导图

轻创AI用户注册

免费获取体验账号

AI音乐的生成浪潮：技术科普、变革畅想与伦理应对

来源：腾讯研究院· 2024-06-01 09:43:38

技术科普：热闹的百模大战，着急的音频模型

1.1 从大语言到多模态，AI进入「日更」模式

2023年被誉为「生成式AI元年」。2022年11月，OpenAI 发布以GPT-3.5 模型为内核的ChatGPT。ChatGPT涌现出了上下文学习、思维链等高度智能，被认为具有颠覆式的技术突破、跨领域的应用价值，AI Agent等衍生方向也被认为具有平台和入口级意义。以此为节点，大规模参数、大算力、「暴力求解」风格的大语言模型（LLM）开启了历时性进程。短短几月，大量AI创业公司和科技厂商纷纷入场，LLM领域进入百模大战。

自然语言、图像、视频、音频等不同信息形式，在计算机领域被称为不同「模态」。多模态研究一直是人工智能领域的不同分支。大语言模型爆发后，多模态大模型也成为技术热点。计算机视觉领域，文生图模型在两年内有了快速飞跃。Midjourney在2022年2月发布了初版，同年11月的V4版的真实度和艺术感大幅提升；开源模型Stable Diffusion在2022年8月首次出现，2023年7月推出XL1.0版，体现了出色的写实性和提示词理解力。

视频生成向来被认为是大模型的技术高地，Runway、Pika等公司在此深耕已久。2024年2月，OpenAI推出了Sora模型生成的高质量视频范例，给定一段描述或一张静态图片，就能生成1080P的逼真视频，包含丰富的角色、动作和场景。文生视频领域从此被推入全新阶段。

1.2 音频模型：范式持续发展，爆发来得晚了些

在音乐领域，大模型技术突破似乎比想象中来得更晚一些。直到2024年3月Suno V3的发布，才引起了行业与社会的广泛关注。TME天琴实验室的音频技术负责人赵伟峰介绍到，其实2023年以来，音乐生成领域一直在持续深耕，不断有新模型和范式出现。如今技术范式有了一定共识。主要表现为：从符号音乐到音频模型研究、大模型领域Diffusion和Transformer架构引入、逐渐解决人声唱词问题、文本/语音/音乐/音效综合一体等。

业内代表性的音频模型技术范式：

202301，谷歌的MusicLM（以及202306，Meta的MusicGen）——采用MuLan/Clap跨模态和自回归的Transformer模型。根据文本提示词生成24kHz频率、长达5分钟的音乐，可指定曲风、乐器、情绪等，以纯音乐为主，基本不带人声。

202302，英国萨里大学和帝国理工学院的AudioLDM——采用Latent Diffusion模型架构，明显降低了Diffusion模型对算力的要求。实现了音乐、语音、音效等一体化。

202403，Suno V3（以及202404，Udio）——没有公开技术细节。根据文本提示词，生成不同风格的歌曲，长达2分钟。包含人声唱词，用户也可手动输入歌词。

202404，Stability AI的Stable Audio 2.0——采用类似Stable Diffusion 3的Diffusion Transformer（DiT）架构，长序列处理效果更好。可生成44.1kHz频率、3分钟的歌曲。除了文本提示词，可上传音乐或哼唱来生成。但人声唱词依然存在问题。

*谁是真正的里程碑？

MusicLM & MusicGen：从噪声生成音乐，技术里程碑

一线技术从业者指出，2023上半年，MusicLM和MusicGen就已解决了音乐生成中的大部分问题。在已公开的技术架构中，Transformer也是效果较好的（如何评价生成音乐效果，详见后文）。从技术层面而言，MusicLM和MusicGen更有里程碑意义。因为它将自然语言模态和音频模态进行了连接，并从噪声中生成了音乐。

Suno & Udio：解决人声唱词，成为一个好产品

Suno和Udio则重点解决了另一个问题：人声唱词。这让生成音乐真正变成了生成歌曲。从业者推测，它可能采用了类似MusicLM的架构生成音乐，或是使用一个现成伴奏，再将歌词（用户手动输入或调用大语言模型生成）用TTS技术演唱出来，产生对位效果。由于未公布技术方案，难以断定其技术突破性，但它很好地整合了相关技术，成为了一个好产品。

TIPS：评价AI生成音乐的主要指标（天琴实验室及合作团队经验总结）

1. 音乐性/乐理性：涉及旋律、和弦、编曲、节奏、乐器组合等，音乐的艺术性也作为考量。

2. 标签匹配度：用户希望生成的音乐和最终生成的音乐是否匹配。

3. 唱词（语义）：具有语义能力，包括多语言、语义的可懂度、语义的完整性。

4. 长序列的连贯性和结构性：虽然属于音乐性，但长序列是当前技术瓶颈，所以重点关注。短时的音乐性，不一定具备长序列的音乐性。

5. 音质：音质是否能达到可供用户欣赏的艺术作品水平。

6. 更多功能：比如支持更多输入、可编辑能力等。

1.3 技术路线：音频生成走热，或与符号音乐融合

以上可见，2023至2024年间，音频模型取得了快速的突破发展，这在几年前是不可想象的。在更早的阶段，AI音乐生成的技术热点是另一条技术路线：音乐符号生成。

音乐符号路线：词曲编录混均可控，但整体性不足

技术原理：提取出音频中的音乐知识（如词曲、和弦、乐器），类似MIDI，把它变成类似音乐功能谱的数据形式，拆分成「词曲编录混」各个环节来生成，包含AI作曲、AI编曲、AI歌声合成等技术。

长短版：最大优势是每个环节都可被控制，能更好地嵌入音乐人的工作流，成为辅助创作工具。但由于串联了多种技术，很难做到整体效果好。音乐是词曲编录混的有机融合，有时候词很好、曲很好，组合在一起却比较糟糕。另一个问题是，曲谱的训练数据相对音频要少得多。

音频模型路线：整体效果较好，但编辑/分轨困难

技术原理：端到端直接生成完整音乐。可以理解为，把一段音乐看作一个频谱图，把频谱图当作图片来训练AI，类似图片生成，找到自然语言和音频之间的对位关系。

长短版：生成的作品整体性强，但因为是端到端，想要进一步编辑调整（比如修改单句旋律）比较困难，获取分轨、MIDI这类制作文件也很难实现。另一个问题是，由于音频复杂度高（每秒至少有44100个数据点），提升音质需要投入极高的算力。

*路线之争？路线融合！

两条技术路线的竞赛中，随着MusicLM和Suno等模型产品的发布，让技术热点的天平又转向了音频模型一侧。不得不感叹，大模型的暴力求解风格在音乐领域也在被验证。但是，目前的音频模型依然面临几大技术卡点：可编辑性不足、长序列的音乐性、音质较差。

其中，「可编辑能力」的实用价值和行业呼声都很高，它也正是音频路线的短板，符号路线的长板。端到端模型反向解决编辑问题，则要对音频训练数据做更精细化的标注——回到了符号路线的逻辑。因此，DeepMusic灵动音科技的创始人兼CEO刘晓光认为，未来的音频模型和符号模型一定是协同起来的。我们可以用不同维度的音乐符号，通过音频模型来生成音乐。

应用变革：放下路线之争，各自投石问路

虽然音乐生成的技术架构、路线尚未完全公开和统一，但大方向已被验证，各方的技术竞赛和应用探索也在加速。以Suno、Udio为代表的端到端产品，在热潮过后需要思考其应用价值；DeepMusic作为符号路线的代表，正在新态势下更新自身能力；TME天琴实验室作为平台的技术引擎，更多探索的是AI音乐生成与音娱平台的深层关联。

2.1 Suno/Udio类产品：低阶替代、创作启发及更多？

Suno类产品引发的反响，除了技术突破，很大程度在于它的大众属性：第一次让普通人体会到了「创作」歌曲的美妙。虽然这种近乎「一键生成」的方式很难等同于传统创作，但这种体验的发生，让我们得以更合理地推演AI音乐的未来。

业内几个比较有代表性的认知：

Suno音乐水平：超过X%的音乐人作品。X的范围从50%-80%不等，反映从业者的主观经验而非准确测算。这一方面肯定了AI音乐已达到一个不低水准。另一方面也因为音乐人的参差不齐，许多作品质量本就不够高。

音乐内容过剩，AI音乐难以撼动目前的音乐消费格局。AI音乐来临前，音乐行业就已经供过于求，只有少数作品能获得高热度。这些作品或十分优质，或得益于强大的宣推。因此，达到中庸水平AI音乐，不足以改变现存格局，除非宣推环境也发生变化。

但部分品类将被AI接管：低阶配乐、公播音乐、短视频BGM等。因为它们相对标准化、模式化，AI比人的产出效率更高。此外，这些品类都不具有个人IP属性（听众通常不知道创作者是谁）。许多大热流行歌曲，往往都与创作者的个人IP绑定和相互加成。

音乐人可用Suno们启发灵感，「可编辑」成为大势所趋。虽然Suno音乐离专业音乐人的工作流比较远，但对音乐创作依然有启发性，毕竟创作是一个灵感性的实践活动。但想要往实用性发展，「可编辑能力」是一个刚需，这点在视觉生成领域也已被验证。

一个面向「中度音乐实践者」的简化音乐工作流可能诞生。刘晓光认为，中度实践者是一个爱玩音乐，但未必想了解复杂乐理的人群。因此，音频模型的发展会催生一种简化的音乐工作流：1)大模型生成伴奏+歌词 2)带有自己音色的AI歌手演唱 3)简单交互实现任意颗粒度修改 4)大模型制作专辑图、MV等发行物料。目前还受制于编辑能力和音质，但未来1-2年，这样的生产体验就能比较成熟。

TIPS：音乐市场人群细分（DeepMusic的市场研究）

根据对音乐的参与度和专业性不同，音乐人群可分为3类：专业音乐人、音乐实践者、泛音乐爱好者。音乐实践是一种介于专业生产和纯粹消费之间的状态。

1.专业音乐人：规模100万级。主要参与方式为创作与表演，约10万有制作能力。

2.音乐实践者：规模1亿级。参与方式包括玩乐器、音乐APP、音乐社团等。可再分为深度、中度实践者，最大的区别在于：中度实践者不一定有创作意愿，不需要精细控制音乐内容。

3.泛音乐爱好者：规模10亿级。绝大部分为听歌，也包含唱K、看音乐演出等行为。

2.2 DeepMusic和弦派：从专业工具扩散到不懂乐理的人

与Suno类端到端产品相比，符号音乐生成天然具有可编辑性，在服务专业音乐人上更具优势。DeepMusic是一家深耕符号路线的国内代表性的AI音乐创业公司。刘晓光对此分析到：音频模型如同「大力出奇迹」，具很高的不确定性，且国内训练成本是国外的10倍。去赌一个不一定花费多高和多久能成功的音频模型，ROI非常低；但符号模型在效果不够好时，有中间产物让用户自行修改，更具有阶段性价值。

随着音频模型的突破，DeepMusic会等到基础音频模型开源后跟进；并且发挥自身积累的优势，用精细化标注的闭源数据对音频模型进行控制。可见，从端到端产品突破可编辑能力，到符号路线公司整合音频模型，两种技术路线正在发生融合回归，且看谁能跑出更理想的成果。

DeepMusic的旗舰产品「和弦派」是一款辅助创作工具。2024年初进行过一次智能化升级，融入AI编曲、AI歌声等功能，能够一站式生成高质量Demo，并且各环节可控。但用户还需面对门槛较高的音乐功能谱。当前用户构成也偏专业化：20%音乐人、30%音乐老师、25%懂乐理的中度实践者、25%不懂乐理的中度实践者。4月底「和弦派」2.0版上线，刘晓光指出，下一步目标用户会泛化，面向不懂乐理和功能谱的人，正式进入中度实践者赛道。

2.3 TME天琴实验室：技术能力先行，寻找B/C端价值场景

大模型技术爆发后，国内不少互联网及硬件厂商均以不同程度加入竞赛。作为音乐娱乐平台的TME，面对语言、视觉、音频模型的技术演进，思考也从未停止。

TME天琴实验室高级总监吴斌认为，大模型有一个重要特点：核心模型数量很少，当结构足够通用时，就要靠堆算力堆数据去实验。与此同时，更优秀的开源模型不断出现，让许多公司的早期投入失去意义。整个行业还处在一个很动荡的状态，盲目投入并不可取。最关键的决策在于「怎么去跟进大模型趋势才最合理」。平台的核心能力是用户与场景，我们可以在开源模型基础上，重新理解场景，做更好的应用服务。

即便没有选择「All IN大模型」，但在技术快速更新期，天琴实验室仍做了这3件事：

认知能力跟进：吴斌强调，哪怕不去硬训模型，对它的一线认知、训练能力还是要先具备。等到时机成熟，能够马上发力。视觉模型成为天琴的早期大模型发力点，2022年7月开始自主研发了Muse音乐视觉技术，并从图片进阶到视频领域。2024年3月，MuseV虚拟人视频生成框架正式开源，在视频一致性、时长和口型生成方面领先行业，受到业界好评。

AI应用试点：基于技术储备，天琴也活跃地进行应用试点。例如应用于直播间的礼物生成，可让用户文字生成有创意、个性化定制的礼物，丰富了直播玩法，带来了可观的商业收益。有时看似微小的场景，会有超出预期的反响，这也进一步加深了平台对用户场景的理解。

大模型加速：大模型的技术特点决定了它的高昂的调用成本。大模型加速，即是降低模型的推理成本。天琴研发了MUSELight大模型推理加速引擎，并发现加速版Stable Diffusion的成本能达到原版的1/10甚至更低。这对一个服务海量用户的C端平台，非常有意义。2023年5月，天琴也将关联的3项加速版本向全行业开源。

由于视觉、语言模型技术成熟较早，早期天琴的音频模型投入占比并不高。赵伟峰介绍到：2023至2024年，天琴的音频模型投入在不断加大，研发重点也从歌声合成模型「琴韵」转向了歌曲生成模型「琴乐」。

「琴韵」歌声合成：2023年起，天琴的「琴韵」歌声合成模型逐渐成熟。与此同时，业内出现了「AI孙燕姿」事件，反映出歌声技术可能被滥用的风险。于是，天琴找出了两个合规应用的场景：一是作为用户玩法，在K歌场景下用户上传自己的声音，生成任意演唱作品；二是歌手授权合作，促成了「AI王力宏」演唱《Letting Go》等大热歌曲的事件。

「琴乐」歌曲生成：去年以来，基于符号路线的AI作曲、编曲技术已在QQ音乐上线多个应用。2024年，天琴发力音频生成模型「琴乐」。4月完成了文生纯音乐的1.0版，已整合到「启明星」音乐制作服务平台中。「琴乐」还参与到上海民族乐团的音乐会创作中，取得了不错反响。歌曲生成等复杂能力可以拭目以待。作为这一轮AI技术下的用户平台，TME选择踊跃但理性投入，争取打造技术能力与用户价值之间的最佳桥梁。

AI安全：应对未知的一道防线，重要的应是多方参与

AI技术与应用昭示着潜在巨大的产业变革和社会影响，如今这些变革已近在眼前。反思技术的社会影响，以科技伦理视角，尽可能干预技术走向，是我们应对不确定性的底线。在大语言模型领域，价值观对齐问题已经成为产学界和政策制定者的关注重点。在AI音乐领域，围绕音乐版权、创作者生存的议题也成为了讨论焦点。

3.1 音乐版权：回到「鼓励创作」的初衷

在语言、视觉、音频模型领域，相关版权争议同时存在。主要涉及两个关键问题：①模型训练阶段，训练数据的版权合规问题；②内容生成阶段，AI生成物的可版权性问题。

在训练阶段，AI模型需要使用海量数据做预训练。如果训练数据中包含受著作权法保护的版权作品，需要符合著作权法中「合理使用」规则，或得到版权方授权。

在这一问题上，ChatGPT、Stable Diffusion等产品及背后公司都面临着来自《纽约时报》等版权方或艺术家的诉讼，案件尚在推进中。一方面，通过版权保护来鼓励创作，是内容行业长远发展的命脉；另一方面，新技术带来的潜在机会、竞争者挑战正在倒逼产业加速。两种诉求需要得到平衡共赢。目前全球范围内，这一问题还没有明确进展。随着技术产品走向成熟，AI公司与版权方也正积极谋求谈判，寻求许可授权并分享收益，这是未来的一个重要推动方向。

在生成阶段，AI生成的内容是否具有版权？版权归属于谁？目前在大部分国家，著作权法都不认可人类以外的主体。但生成式AI发展至今，各国立法、司法都在积极探讨相关保护方式，一个重要原因在于：人类在AI生成中还起着非常重要的作用。以ChatGPT为例，人类在3个环节中体现了干预或创造：①模型训练中的“人工反馈强化学习”环节、②用户使用中的创造性提问、③内容生成后的调整优化。注：参考《2023植德人工智能年刊》

2023年末，国内首个「AI文生图」著作权案件在北京互联网法院审结，做出了开创性探索。了解这一案件的审理思路，有助于我们理解问题的实质和走向。

国内首个「AI文生图」著作权案件：（参考人民法院报）

案件回顾：原告李某使用Stable Diffusion，通过提示词生成图片，发布于小红书平台；此后被告刘某在百家号的一篇文章配图中使用此图，未获原告许可，并截去了署名水印。

审理要点及结果：原告在最初构思到最终选定图片过程中，通过设计人物呈现方式、选择提示词、设置参数、多轮图片优化等活动，投入了原告的审美选择和个性判断。涉案图片体现出原告的「独创性智力投入」，故被认定为作品，著作权归属原告，被告侵害了信息网络传播权和署名权。

裁判解析：利用AI生成的内容，是否构成作品，需要个案判断，不能一概而论。本案坚持著作权法只保护“自然人的创作”的观点，同时进行两点考量：①传统理论的全新应用场景。AI时代，人类创作工具已发生根本性变化，但并不意味着人类对画面元素不需要选择和安排；二是法律判断之外的价值判断。认可「作品」属性和「创作者」身份，有利于鼓励人利用AI工具进行创作，促进AI生成内容的标识和监管，强化人在AI发展中的主导地位，推动AI技术的创新发展和应用。

业内法律专家也指出，这一判决只适用于案件自身，还不能作为类似案件的参照。AI生成内容的「可版权性」依然存在争议。一个较为普遍的操作思路是：并非有人参与的就是创作，需要判断人的参与程度。且在语言、视觉、音频等不同领域，参与程度有不同的认定方法。

这两个问题均有很高的复杂性，找到共赢解法仍需时间。但我们能看到，背后一以贯之的价值逻辑：著作权法的立法目的，是通过保护人类的「独创性智力投入」，来「鼓励创作和传播」。AI技术有着解放生产力、促进内容行业发展的巨大潜力，却不能以牺牲人类创造力为代价。我们期望通过辨析、约束和利用，让它能正向推动创造力的繁荣。

3.2 人机关系：放下竞争，寻求协作

人类创作者会不会被AI替代？是另一个讨论热点。不只AI音乐，大模型技术乃至每一轮技术革命出现时，人们都有类似的不安。但历史结果表明，新技术一定会淘汰一部分低阶工种，但它不替代整体人类。并且随着低阶工种的淘汰，倒逼人们去创造更能体现自身价值的工作。于是就有了这句调侃：淘汰你的不是AI，而是会用AI的人。

具体到AI音乐行业，前文对Suno的几则判断也大致表明：由于音乐内容供过于求，想要获得市场认可，往往需要做到极高水准，或被强大的宣推驱动，这是AI音乐所不具备的。优质作品中蕴含了人类艺术家的独特个性、经验与情感，这也是AI音乐所不具备的。但是，罐头音乐等低阶工种，应该逐渐就被AI接管了。

与此同时，速成的AI音乐能够启发音乐人的灵感，AI工具能够解决音乐人工作流中的非创造力劳动。所以，更好的视角不是与之竞争，而是站在AI的肩膀上。知名音乐人、制作人陈珊妮曾鲜明地表达：创作人该在意的或许不是「我们是否会被取代」，而是「我们还可以做些什么」。回到人类的能动性。对于音乐人发展，技术从业者们也给出了一些友善建议：

技术从业者对音乐人的友善建议：

吴斌：我觉得大家不妨多听一下，多玩一下。因为这个趋势是挡不住的，哪怕你不拥抱，大部分音乐人也会拥抱，最后还是被倒逼，那不如早一点。去了解AI能轻易做到什么，做不到的是什么。有些东西AI就是做不好，这时候音乐人就能发挥自己的优势了。

刘晓光：简化的音乐工作流将一定程度上成为新的音乐生产方式，建议音乐人了解，并和AI配合。也请相信AI会越来越可控，让音乐人实现自己想要的创作。但是非IP化歌曲，应该慢慢就真做不过AI了，音乐人需要越来越注重自己的IP属性，做自己的专属表达。

3.3 多元视角：再强调也不为过

李飞飞（斯坦福大学首任红杉讲席教授、前谷歌云人工智能及机器学习首席科学家）曾指出，训练人工智能的高昂成本，正在将学术界排除在外，成为商业公司的特权。斯坦福大学报告指出，2022年科技行业贡献了32个关键的机器学习模型，而学术界仅有3个。这导致一个问题：商业用途的技术快速发展，公共价值、解决社会风险的技术显著落后。

虽然这一问题难被彻底解决，但当质疑之声变大之后，也会带来更多公共领域的保障行动发生，并能激发商业公司的更多自省和安全部署。

技术、产业、学界、第三方等，拥有不同的价值导向和专业能力，这种多元视角的参与，更可能让新技术朝符合人类价值的方向发展。在音乐领域，艺术家与产业、技术之间也存在多元视角。但由于高昂的技术门槛、艺术门槛，这两类人群之间存在很大的信息差。

赵伟峰指出，在天琴实验室，研发团队8成以上的人员都要具备一定音乐素养，尤其符号路线需要更深的音乐知识。音频模型路线中，还需与专业音乐团队合作，对AI生成内容做评判。这样的互动才能让AI音乐更符合艺术家的标准。

专业评判只是最基础的参与形式，这种多元视角的对话协作，还有助于解决更为重大的问题。例如，陈珊妮曾提出一个锐利的见解，认为如今特异的音乐越来越少。因为数字音乐以来，音乐一直在被分类，让人便于管理和更快聆听。但如果有个人特质的东西不在电子类、嘻哈类，那它是什么？它的流量就会降低。AI音乐也类似，它容易让各种技术指标趋于均值，但美感并不是这样的。

又例如，吴斌从技术原理视角给出了对于AI音乐水准上限的判断：大模型技术路线的实质是，从人类内容中学习，它本质上没有一个抓手去超越人类内容；但如果我们讨论AGI，就涉及另一个技术路线：强化学习。它能让AI在一个环境中自行探索试错，理论上就有可能突破人类已有内容的瓶颈。

我们需要来自艺术家的审美经验、人文关怀及理性的质疑声音，也需要来自技术从业者从底层原理出发的可靠推论，以及产业、学界及更多人......通过多元视角，用理性精神和技术力量去修复技术变革中的偏误，引导人工智能领域的良性发展。

AI音乐在线生成：https://ai.cy211.cn/

您可能关注: AI音乐 AI技术

专业AI论文写作一键生成万字论文只需5分钟

文章来源: https://cy211.cn/aizixun/3114.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑，如存在版权问题请发送邮件至398879136@qq.com，我们会在3个工作日内处理。非原创标注的文章，观点仅代表作者本人，不代表本站立场。

上一篇人工智能行业未来的发展和就业前景

下一篇 AI化身恋爱军师，大模型分析爱情靠谱吗?