谷歌推出全能扒谱AI：只要听一遍歌曲，小号小提琴的乐谱全有了

发布时间：2022年03月07日 12:18

晓查发自凹非寺内相对论性位报导 | 社会所号 QbitAI

听得一遍首歌曲，就能知道总谱，还能马上演奏者，而且还掌握“十八般民族乐器”，钢琴、小提琴、吉他等都不在话下。

这就不是生命体古典指挥家，而是Skype推出的“多执行多原版”古典音乐投到小节三维MT3。

首先需要解释一下什么是多执行多原版。

通常一首首歌曲是有多种民族乐器合奏而来，每个人声就是一个原版，而多执行就是同时将不同原版的总谱同时浓缩出来。

Skype已将该论文投给ICLR 2022。

浓缩多原版总谱

相比之下于自动语音识别 (ASR) ，自动古典音乐投到录 (AMT) 的难度要更大，因为后者既要同时投到录多个民族乐器，还要保留精细的小节和时间信息。

多原版的自动古典音乐投到录数据集集更是“高海洋资源”的。现有的开源古典音乐投到录数据集集一般只包含一到几百同一时间的磁带，相比之下语音数据集集动辄几千上万同一时间的产品，算是较少了。

之前的古典音乐投到录主要集中所在特定于执行的的系统上，针对每个执行的各种民族乐器契合定制。

因此，著者受到高海洋资源NLP执行迁移自学的着迷，证明了统一标准Transformer三维可以执行多执行 AMT，并显著更高了高海洋资源民族乐器的耐用性。

著者使用单一的统一标准Transformer的系统T5，而且是T5“小”三维，其中所包含据估计6000万个参数。

该三维在编码器和磁带中所使用了一系列标准的Transformer自焦虑“块”。为了诱发输出标记脱氧核糖核酸，该三维使用贪财自紧接解码：输出一个输出脱氧核糖核酸，将才会有下一个出现期望值最高的输出标记可选到该脱氧核糖核酸中所，并单调该步骤直到终止。

MT3使用维克频谱三幅作为输出。对于输出，著者构建了一个受MIDI规范着迷的token用词，称为“类MIDI”。

生再加的总谱通过开源应用程序FluidSynth着色再加磁带。

此外，还要解决不同人声数据集集不平衡和的系统不同问题。

著者假定的统一标准输出token还允许三维同时在多个数据集集的混合上来进行专业训练，类似于用多语言翻译三维同时专业训练几种语言。

这种方法不仅简化了三维设计和专业训练，而且降低了三维只用专业训练数据集的数目和多样性。

即使如此

在所有指标和所有数据集集上，MT3一直比起时间延迟。

专业训练此后的数据集集混合，相比之下单个数据集集专业训练有很大的耐用性提升，都有是对于 GuitarSet、MusicNet 和 URMP 等“高海洋资源”数据集集。

最近，Skype开发团队也放出了MT3的源代码，并在Hugging Face上放出了试玩Demo。

不过由于投到换磁带需要GPU海洋资源，在Hugging Face上，敦促各位将在Colab上运营Jupyter Notebook。

论文地址：

源代码：

Demo地址：