分享

生成式人工智能与学术电子乐

 emusicbook 2025-04-13 发布于美国

陈吟

 

近两年在音乐领域出现了一批利用变换器架构深度神经网络的AI音乐项目。有代表性的包括美国谷歌的MusicLM2023年)和MetaMusicGen2023年),文本转音频。英国萨里大学和帝国理工学院的AudioLDM2023年),文本转音频。美国Suno AI2023年)自己开发了基于变换器架构名为“Bark”的模型,可以生成高度逼真的多语种语音以及其它音频 - 包括音乐、背景噪音和简单音效。该模型还可以生成非语言交流,例如笑声、叹息声和哭声。美国Udio2024年)与Suno AI一样是目前较流行的产品。在作品结构上有些模型开始利用推理,如中国Mureka O1的“思维链”(MusiCoT)先规划曲子结构,从而产生更好的连贯性。这些项目还处于发展阶段,有些生成的音频质量有待提高。

 

目前的一些AI音乐网站允许用户以多种方式输入。取决于模型软件的设计,输入可以是叙事文本、音乐描述、风格选择、风格和技术关键词、歌词、图像、短音频做风格和音色提示、以及几分钟长的音频做翻新模仿参考样本等。有些还允许设置其它一些参数进行控制。

 

我们感兴趣的是近期生成式人工智能新发展对学术电子乐有什么机遇和挑战?过去算法作曲已经有很多了,因此设置任何作曲规则的模型不在我们的考虑之内。人工智能原则上能够生成 MIDI 文件,即告诉计算机如何演奏乐器的数字指令。由于学术电子乐涉及到的声音材料极为丰富,我们只关注AI音频模型能够直接生成音频文件,把制作功能也实现了。

 

虽然技术途径和具体实施的方法可以不同,AI音频模型需要具备一些类似的基本功能。比如对于图像输入需要图像识别功能。为了理解叙事文本、音乐描述、歌词或即时生成歌词等,需要具备大语言模型功能或调用现成大语言模型。对音频输入则要能够识别其模式和结构,区分类别或风格。核心部份是作曲和编曲功能,要用到变换器架构深度神经网络。模拟人的语音用到某种形式的神经声码器。生成其它音频则可用声音合成和声音采样技术。此外还可以有混音、置换、编辑等功能。

 

过去几个月为一个AI音乐开发项目做测试。这个项目的目的是服务于大众而不是学术界。我们想试试这样的模型对大众实验电子乐和学术电子乐是否有用,由此产生了一些对学术电子乐AI音频模型的随想。

 

复杂结构与智能。为了仿生人脑,目前大语言模型的参数可以在几十亿到万亿数量级。随着数据中心硬件的不断提升,结构越做越大,以及效率的提高,大语言模型具有越来越智能,或者说“聪明”的潜力。如何判断智能?1950年英国博学家艾伦·图灵(Alan Mathison Turing1912-1954)提出了著名的“图灵测试”以评估机器智能是否与人类相当。最简单的测试形式是,人类裁判员分别同真人和机器进行基于文本的对话,但不知道哪个是哪个。如果裁判员不能准确地区分机器和人类,机器就算通过了测试。就在今年331日美国加州大学圣地亚哥分校发布的结果中,ChatGPT-4.5-PERSONA被判断为真人的机会高达73%LLAMA-3.1-PERSONA56%,均超过了要求的50%。尽管大语言模型内部究竟是怎样工作的还很大程度上是个迷,近日美国Anthropic公司通过对其大语言模型Claude 3.5 Haiku进行追踪观察发现了一些特点,比如:Claude有时会在不同语种之间共享的概念空间中思考,这表明它有一种通用的“思维语言”;Claude会提前计划好要生成的内容,如在诗歌领域,它会提前考虑可能的押韵词,证明了模型可能会在更长远的范围内思考;Claude有时会给出一个看似合理的论点,旨在同意用户的观点,而不是遵循逻辑步骤,甚至为迎合人类答案反向寻找推理过程;Claude并没有配备数学算法,但可以在其“头脑中”正确地进行加法运算。这些还仅仅是开始,人工智能技术还会不断发展,这就源源不断地为学术电子乐提供新的技术基础。

 

类别和风格鉴别能力。对那些需要掌握多种类别和风格的模型,通过学习同一类别或风格的大量数据(比如音频-描述对,或者图像-描述对)来分析音乐模式和结构,依据节奏、韵律、乐器和声音等识别这种类别。这个学习过程要重复对每一种需要掌握的类别或风格。训练过的模型对用户提供的音频就有了识别能力,能判断出属于哪种类别或风格。如果用户提出要求,就会在相应类别或风格中进行创作。由于大多数学术电子乐作品缺乏明确的旋律、和声和节奏,按照什么标准实行归类和鉴别需要作进一步的研究。

 

宽容的筛选和奖励机制。语言不仅要求严格遵循语法,表述方式也不能同习惯偏离太多。如果按同等标准训练音乐模型,生成的结果大家都差不多,听起来彼此相似,无法满足音乐作品独创性的要求。学术电子乐更是没有那么多条条框框,称得上是百花齐放,各种思路、技术、作曲技巧层出不穷。因此在音频模型的训练过程中要放宽限制,避免一些新奇但有艺术价值的作品被埋没。即使对于输入音频进行翻新,也要允许能调节相似度,以扩展创新的力度。

 

多听音乐学会作曲的随性。正如大语言模型没有设置任何语法规则和配备数学算法,我们考虑的音频模型也不配备乐理规则和其它作曲规则。训练数据为音乐素材,而不是理论和规则。这相当于一个人不靠课堂和书本,而是通过多听音乐学会别人的作曲习惯,然后自己进行创作。学习内容丰富广泛,没有严格规则的限制,宽容度高,模型显得比较随性,容易自由发挥创造。有些结果听起来有点“怪”,不像是通常人作的曲子,这其实为学术电子乐提供了一种创作技巧。

 

新类别新风格。市面上现有一些生成式AI音频模型不让创造新类别新风格,如果要想得到模型中没学习过的类别或风格,可以提交音频样本使其模仿。这和不设置规则和按归类训练有关。加入一定规则和逻辑的人工智能是可以通过分析大量现有音乐数据识别独特的特征和模式,并以新颖的方式将它们组合起来,创造出新的类别或风格的。

 

AI幻觉。大语言模型即使是只用被确认是真实内容的数据进行训练,仍然有小概率出现幻觉,即有时会捏造信息,将不正确或误导性的细节呈现为事实,一本正经地打胡乱说。对聊天工具来说这是致命伤。幻觉出现的原因仍在研究之中。音频模型有时也会出现这种情况,把违背作曲习惯的认为是正确的。对学术电子乐而言这不见得都是坏事,反而是电子乐创作的一种新的可能性。

 

数据污染。大语言模型需要从互联网等数据源不断吸取新的内容充实自己。如果这些数据源充斥假新闻和谎言等则会污染模型,使其生成的结果不靠谱。就学术电子乐而言不需要从互联网吸取新内容。如果允许把用户提交的音频用来持续学习则需要一定程度的防范措施。比如在模型中设置输入检验标准,对有恶意输入嫌疑的音频备份待审查而不让直接进入学习过程。更重要的是在一定时间段内保存模型多版本备份,若遇到严重污染使得模型不可用时能够恢复到从前。而采用新奇的音频输入本身就可以作为学术电子乐的一种创作技巧。

 

随机性。如果让模型自动赋予概率使用的种子,则每次生成的乐曲都不一样,即使所有输入信息不变。这提供了多种结果的选择。当然不能期望每个结果都能符合要求。优秀作品总是占少数,大多数都一般。

 

通过实验我们从测试的模型得到的初步结果如下。

 

大众实验电子乐。从该模型能到一些相当不错的大众实验电子乐作品了,对此感到满意。

 

文本输入要求生成学术电子乐。学术电子乐通常对传统的旋律、和声、节奏“三要素“持排斥态度,可以说同其它音乐习惯不兼容。该模型对这个类别的训练严重不足,因此要用这样的模型来直接创作学术电子乐其能力还比较弱。比如分别要求用序列主义、具体音乐、以及科隆学派作曲,大部分结果不符合要求。

 

音频样本输入要求生成学术电子乐。比如分别输入法国无线电工程师、音乐学家、声学家皮埃尔·舍费尔(Pierre Schaeffer,19101-1995)1948年的《铁路噪音研究》(Etudes de Bruits Chemins de Fer)德国音乐家卡尔海因茨·斯托克豪森(Karlheinz Stockhausen,1928-2007)1964年的《混合物》(Mixtur)、以及美国音乐家弗拉基米尔·乌萨切夫斯基(Vladimir Ussachevsky,1911-1990)1962年的《禁闭组曲》(Suite from No Exit)作为参照样本。模型分析音频样本后发现是非常规类型发出了提醒。如果要求按不同程度模仿这些风格,该模型能够生成一些比较有趣的学术电子乐结果。当逐渐提高对样本的偏离度,结果中出现了乐音。如果取消限制,让模型放飞自我,得到的却是具备旋律、和声、节奏“三要素“的作品,而不是学术电子乐。由此可见要把这类模型用于学术电子乐创作,必须在模型中建立学术电子乐类别,学习大量学术电子乐样本。考虑到学术电子乐的特殊性,也可以建立独立的学术电子乐模型,学习数据以学术电子乐和大众实验电子乐样本为主。

 

随性和幻觉。也得到一些随性、幻觉、甚至出错的结果。由于没有做程序运算的内部追踪,不好肯定属于哪一种。但总的来说,随性作品同预期还接近,对常规作曲习惯有少量偏离,听起来略显“奇怪”,其实有时会有意想不到的效果;幻觉作品就比较离谱了,把该和不该出现的组合在一起,破坏了凝聚力和连贯性;出错比如在结果中夹杂噪音或中断等,严重时无法构建和产生任何音频。

 

就目前该模型的能力,非学术电子乐产出中达到我们要求的接近完美作品的比例还不算高。即使这样,其高工作效率与人工作曲和制作已经不可同日而语,而且音频质量也令人满意。

 

总之我们看好这类AI音频模型对学术电子乐创作的前景。对变换器架构深度神经网络基础带来的弱点和缺陷不必太担心,可以预见由AI幻觉、污染、随性、甚至出错生成的作品有可能成就电子乐新类别或风格,比如“AI漏洞类别AI bug genre )。

 

生成式人工智能已经具备一定的创作能力,但目前的技术尚缺乏对物理世界的深度理解和复杂规划能力。预计几年后将出现能够学习物理世界规律并具备系统2”级别推理能力的模型。系统1级别是指快速的直觉反应和简单推理能力。系统2级别则需要复杂推理能力、更加谨慎和全面的思考模式。今后还会不会出现“超级智能”,远超人类的整体智慧,并具备情感?这些人工智能会怎样理解电子乐和创作电子乐现在我们还无法想象。

 

 

20254

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多