【原】全球AI音频研究艺术家：趣加张志伟告诉你如何用AI创作音乐

游戏葡萄 2023-05-30 发布于广东

展开全文

关键在于如何使用。

整理/灰信鸽

关于AI的争吵一直没停过，从最早的美术，波及到文案、运营等各个岗位。但在许多人还在忙着争吵时，不少游戏公司已经着手研究了AI许久，甚至已经拿出了许多实验成果。

最近，趣加的一位总监级大佬，就在内部分享了他对AI技术的探索。

重研发的趣加，本也布局了AI领域许久。其CTO伍涛曾提到公司对该技术的态度，指出，AI对研发起到辅助与基建的作用，它对提升玩家体验有不少帮助……越早入局AI的公司，越能占据优势。

本次AI技术的分享人，是趣加音频总监张志伟。

张志伟涉猎音乐、游戏、娱乐、教育等多个领域，他现担任北京现代音乐学院的音乐科技学院声音设计专业教研室主任、中国传媒大学录音大师班讲师，是第一批在国内高校中推动建立游戏声音设计专业的教育者，同时也是Wwise引擎、CRIWare引擎的官方讲师。

作为趣加音频总监，他为游戏引入了影视、唱片领域的设计概念，并参与了包含端游、手游、主机在内40多部游戏项目。他为项目《State of Survival》所创作的《漫樱散华》《花海寻踪》《末日派对》获得了Apple Music、Spotify等全球音乐平台官方推荐；其原创的《阿瓦隆之王》获得了中国音数协颁发的中国游戏十强音乐大奖。

趣加的杜比全景声音乐棚

此外，作为独立乐团的创始人，张志伟还是上海国际艺术节委约艺术家，参与过多部舞台剧的创作，在融合了多种风格后，他创作出了《人生一串》、《二十四节气》。不仅如此，他还参与了多项跨国音频合作，这其中就包括他与日本知名作曲家岩垂德行共同创作的新曲目《繁花千里（Thousand Blooms）》。

在本次分享的数月前，他就开始研究AI在声音设计的应用：若游戏主城音乐太少，那能不能用AI做一个播放音乐的电台？若想让环境更有人气，用AI Voices做一些人声放背景如何……他尝试将AI技术带到游戏研发里去。

其实相比美术，游戏音乐接触AI的时间要更久。

早在1957年，电脑就能自己创造音乐。往后长达几十年的时间里，AI所被人畏惧的取代人类并没有发生，它反而成了声音设计的重要工具，甚至已经在协助不少游戏音频师们的创作——张志伟的演讲主题，也正是「AI of Game Audio」。

或许，通过这次演讲内容，我们可以从游戏音频的角度，看到AI技术对游戏研发具体能带来哪些好处？我们应当以怎样的方式，在日常工作中来应用这项技术？

以下为内容实录（为方便阅读，正文有删减调整）：

大家好，我是张志伟，今天分享的主题是「AI of Game Audio」，里面包含了我们最新的研究成果。

其实，AI技术很早就在游戏、音乐等领域中得到应用。不过在近两年发展迅猛的AIGC（生成式AI），仍让我们相当激动——它所拥有的神经网络、深度学习能力，能解读需求，并取代一些传统生产环节。

而且，AIGC的操作难度，也比专门学习一门专业要简单。以音乐来举例，音乐创作需要一个人通过多年的学习训练、实践才能驾驭。但如今的AIGC不需要这些过程，它可以直接将文字、语音等内容生成音乐。

光这么说可能有些不太直观。这里有一份我们利用AIGC技术，为一段游戏CG动画制作音频的案例——与过往完全由人工创作的效果对比，二者已经相差不大：

那么我们把问题带到实践中，在游戏音频领域，当下火热的AIGC能带来哪些改变和帮助呢？这个问题需要拆解来看。

按常规分类，游戏音频一般有4个模块，分别是：音乐（bgm\music）、语音（voices）、音效（sound sfx），以及声音引擎（sound engine）。从开发流程来看，游戏音频有设计、制作、引擎、QA几个环节。

在近期实践中，我们就上述模块与环节，尝试了最新的AI技术。从结果来说，AIGC可以在设计方案、制作生产过程，显著提升音频设计师的工作效率，并为游戏项目带来更多价值。

下面主要展示我们在AI音乐与AI语音上的实践结果。

01
AI音乐能为游戏研发
带来什么？

按音乐制作流程来看，无论是歌曲还是配乐，它们的基础环节包括了「创作、制作」两部分，当中又分「作曲、作词、编曲、配器、器乐录音、人声录音、混音、母带」等步骤。

不可避免地，每个环节都需要许多专业人员参与。一个项目若想把多个环节交由一个人处理，即便是数字音乐制作普及的今天，也需要此人具备多年的专业学习和项目经验。

原因在于，游戏音频的生产模式，离不开人的深度参与。

其实按传统，声音合成技术几十年前就已在应用，它的核心能力就是无中生有地创造出世界上从来没有的声音。但它的载体是合成器（乐器），便需要懂得专业知识的人来驾驭。

AI技术也是同理。回顾过去，AI生成音乐已经走过了很多阶段：

第一阶段，AI要输入大量的核心作曲信息。1990年，自动作曲软件Band-in-a-box就已诞生。我们也可以称其为「传统自动作曲」。在软件上，作曲家只要输入和声、曲风等设定，就可以获得一段音乐。

不过，「传统自动作曲」因为自身的特点与限制，逐渐被应用在音乐专业的学习教案，作为学生学习曲风的辅助工具。

第二阶段，AI需要模糊作曲信息。2016年，人工智能产品AIVA出现，它也被我们称为「AI自动作曲」。在作曲家设定好曲风、调式等参数后，软件就会生成完整的音乐工程文件。

接下来，作曲可以直接对作品编辑，也可以输出文件或音频分轨，导入音乐制作软件来做深度修改。这一时期的AI音乐技术，支持作曲者反复修改调整，也为音乐带来了更多可能性。

第三阶段，AI只需要文字或图片信息，就能完成作曲。

这也是如今AI技术的阶段，它不需要音乐理论，也不需要专业知识，只要输入文字、图片即可生成音乐……当然，音乐能否达到要求，还得看AI训练的具体情况，不过它已经可以带来许多超预期的价值了。

那么用如今的AI音乐，能为游戏音频做什么呢？我们可以结合实践结果来看这一问题。

首先，AI音乐能够作为辅助作曲的工具，为我们提供快捷的灵感与参考。

这一方向由难到易有三种模式：

第一种是ChatGPT+传统自动作曲。我们先在ChatGPT中提问，获得和声、调式、配器特点等信息，然后输入到传统自动作曲软件中。

在此过程中，我们也可以结合作曲软件的优势，来丰富这首音乐的更多设定。

第二种是AI自动作曲+专业编曲技能。基于前面的AI自动作曲软件，我们可以提前设定一些条件，比如曲风、调式等前提，并由此获得指定音乐。这之后，我们可以提供工程文件与音频分轨，让作曲家相对快速地创作。

第三种则完全用AIGC来做。这一方法让音乐创作变得相当方便。这里以AIGC软件MusicLM举例，它在识别文字、音频、图片后，就能直接生成AI理解出来的音乐：

MusicLM官方演示

以上方式虽不能100%获得直接应用的音乐，但是可以让许多概念、想法，快速转变出对应的音乐灵感和创作参考。

其次，AI音乐能够产出风格化、类型化的音乐。

目前主流的AI音乐软件，优势在于生成这两种内容：第一种是大众化且风格突出的音乐，例如摇滚、爵士、嘻哈、史诗交响；第二种是填充背景，定义氛围的音乐。

在研发过程中，这一优势可以被应用到场景制作、玩法测试、用户研究等多个环节。目前，我们已经可以利用AI音乐，快速生成可以填充的素材，在项目的前中期帮助用研等部门测试游戏版本的音乐。

这里我可以举例一个内部项目案例。

根据谷歌调研与App id全球数据，我们该项目的用户对Hip-hop嘻哈音乐非常感兴趣。所以，我们决定在这个中世纪背景的游戏中，放一些嘻哈曲风的背景音乐。

这对音乐创作而言，是比较有挑战的。

按照传统的音乐制作流程，我们创作多首融合元素的背景音乐，从立项到完成，至少要几周时间。但是，我们通过Text to Music的AI音乐技术，仅用2小时就生成了全部需要的音乐，并且快速投入了游戏中做测试。

02
AI语音已经在
逐步投入使用

在应用方面，AI语音软件的作用，主要是语音调试合成，以及语音克隆。

简单来说，语音调试合成，是对软件中已有素材，做参数调试，期间，我们可以按需对口音、语速、断句、句间、情绪——比如疑问、惊讶、生气——进行设置。而语音克隆，是用户自己投喂语音样本后，再做参数调试。

AI语音软件的操作比较简单。如果我们有已经训练好的声音角色，就可以快速为游戏广告、买量视频、旁白等完成语音生产。

而且，AI语音软件也可以完成不同语言的转化，还能保留原本录制人员的音色、口音、语气等要素。这里我们先录制不同口音的人诵读《红楼梦》的内容，然后将其在AI软件中转为英文：

不过，若想要做出符合游戏中剧情对话、角色气质的语音，AI语音软件所花费的人力、时间成本，可能要比传统的声音演员录制语音更多。

而且从普通人的听感来看，现在AI语音软件的效果，还是有些不自然、生硬等问题；从设计师的角度来看，它生成的音频文件，也有动态差异大、卡顿等问题，需要人工花不少时间去做后期修复。

下面是AudioGPT的演示。在获得文字后，AudioGPT会快速的生成语音；如果我们输入更多设定后，它甚至可以唱歌。

如果将这些功能放在游戏开发中，我们目前探索出了两种应用场景。

首先是游戏开发中版本的语音需求。

若项目在早期对语音要求不高，可以选择AI语音来快速生成填充素材。下面是一些主流的AI语音软件：

因为若想让AI语音应用到正式版本，我们需要针对AI音频投入大量人力去逐句调试，以及人工后期处理，才能使其达到能在游戏中播放语音的正常效果。

其次是一些特殊题材的需求，比如与机器人、科幻相关的内容。

在趣加的已上线项目和在研项目，我们已经在包括中世纪、魔幻、生存等多种题材中使用了AI语音技术。

有意思的是，我们刚才提到有关AI语音让人头疼的不自然、卡顿等问题，在科幻题材以及一些需要想象力的需求中，就有了比较大的优势。比如这个案例：

按传统方法，个性、科幻感机器人语音的制作，需要配音演员到位的表演，以及后期音频技术一起努力才能产出。

但在制作上面案例的时候，我们仅使用Text to Voices的AI语音技术，生成基础语音样本，再通过逐字逐句的调试，便能获得一套贴近游戏设定，且让人满意的语音文件。

所以最后总结一下目前的AI语音在游戏中应用的优势和不足：其优点是不需要录音，可反复修改；不足之处在于，AI语音很依赖人工调试，它的音色也不够丰富。

更多工具与未来发展

我们上面已经提到了许多AI工具，如大家耳熟能详的ChatGPT、AI自动作曲的AIVA、识别音频文字图片的MusicLM、输入文字就能转音乐或语音的Text to Music与Text to Voices，以及与之类似的AudioGPT。

但除此之外，我们还有很多AI工具，可以应用到游戏音频及游戏研发的各个方面。

在音频制作方面，我们就看到了不少产品，如混音、母带的AI工具：LANDR、OZONE等；

分离音乐中人声和器乐的AI技术：UVR5……。

而在声音引擎领域，AI技术是否也有介入如Wwise和CRI-ADX等引擎呢？尽管官方对我们的回复是「暂时未将AI应用在产品中」，但在翻阅官方博客时，我们也已经能看到了一些探索行为。

比如，CRI就曾使用AI来写Robot脚本。这一尝试可以在其博客中搜索文章题目《【ChatGPT x CRI Atom Craft】让AI来写Robot脚本！》来获取，感兴趣的朋友可以看看。

总的来说，AIGC技术以快速迭代发展的态势，正融入游戏行业中。

今年我们在趣加项目的AI落地过程中发现，随着使用经验的积累，AIGC也展现出比预想更强的能力。在相关工具的不断进化之下，相信AI对开发者、开发流程都会有比较深远的影响。

二十年多年前，音乐行业经历过由模拟到数字的改变，从而改变了整个音乐行业一直到今天，其激烈程度不亚于AI。作为这场变革的亲历者，我认为在当下学习AI、拥抱AI，适应其技术特性并使其转化为生产力是很有必要的。

如今的AI技术，虽然还做不到「一键生成很多剧情对话语音」，但作为创作和制作的助手，它是未来可期的。或许，随着技术快速更新，AI与游戏音频的结合还会有更大的想象空间。

我的分享就是这样，谢谢各位。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：游戏葡萄 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

游戏葡萄

关注对话

TA的最新馆藏

因为儿子一句话，我放弃了天美的高薪管理岗
网易这款头部产品经常「费力不讨好」？制作人解释了一切
报价2.59亿，朝夕光年又一团队将被腾讯系收购
光速拿下全球热销榜第一，这个25人小团队第五次火遍全球
腾讯不懂二次元？看来是我肤浅了
鹰角真亏了？

喜欢该文的人也喜欢更多

热门阅读换一换

【原】全球AI音频研究艺术家：趣加张志伟告诉你如何用AI创作音乐

01AI音乐能为游戏研发带来什么？

02AI语音已经在逐步投入使用

01
AI音乐能为游戏研发
带来什么？

02
AI语音已经在
逐步投入使用