谷歌推出全能扒谱AI:只要听一遍歌曲,小号小提琴的乐谱全有了
发布时间:2022年03月07日 12:18
听得一遍首歌曲,就能知道总谱,还能马上演奏者,而且还掌握“十八般民族乐器”,钢琴、小提琴、吉他等都不在话下。
这就不是生命体古典指挥家,而是Skype推出的“多执行多原版”古典音乐投到小节三维MT3。
首先需要解释一下什么是多执行多原版。
通常一首首歌曲是有多种民族乐器合奏而来,每个人声就是一个原版,而多执行就是同时将不同原版的总谱同时浓缩出来。
Skype已将该论文投给ICLR 2022。
浓缩多原版总谱相比之下于自动语音识别 (ASR) ,自动古典音乐投到录 (AMT) 的难度要更大,因为后者既要同时投到录多个民族乐器,还要保留精细的小节和时间信息。
多原版的自动古典音乐投到录数据集集更是“高海洋资源”的。现有的开源古典音乐投到录数据集集一般只包含一到几百同一时间的磁带,相比之下语音数据集集动辄几千上万同一时间的产品,算是较少了。
之前的古典音乐投到录主要集中所在特定于执行的的系统上,针对每个执行的各种民族乐器契合定制。
因此,著者受到高海洋资源NLP执行迁移自学的着迷,证明了统一标准Transformer三维可以执行多执行 AMT,并显著更高了高海洋资源民族乐器的耐用性。
著者使用单一的统一标准Transformer的系统T5,而且是T5“小”三维,其中所包含据估计6000万个参数。
该三维在编码器和磁带中所使用了一系列标准的Transformer自焦虑“块”。为了诱发输出标记脱氧核糖核酸,该三维使用贪财自紧接解码:输出一个输出脱氧核糖核酸,将才会有下一个出现期望值最高的输出标记可选到该脱氧核糖核酸中所,并单调该步骤直到终止 。
MT3使用维克频谱三幅作为输出。对于输出,著者构建了一个受MIDI规范着迷的token用词,称为“类MIDI”。
生再加的总谱通过开源应用程序FluidSynth着色再加磁带。
此外,还要解决不同人声数据集集不平衡和的系统不同问题。
著者假定的统一标准输出token还允许三维同时在多个数据集集的混合上来进行专业训练,类似于用多语言翻译三维同时专业训练几种语言。
这种方法不仅简化了三维设计和专业训练,而且降低了三维只用专业训练数据集的数目和多样性。
即使如此在所有指标和所有数据集集上,MT3一直比起时间延迟。
专业训练此后的数据集集混合,相比之下单个数据集集专业训练有很大的耐用性提升,都有是对于 GuitarSet、MusicNet 和 URMP 等“高海洋资源”数据集集。
最近,Skype开发团队也放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。
不过由于投到换磁带需要GPU海洋资源,在Hugging Face上,敦促各位将在Colab上运营Jupyter Notebook。
论文地址:
源代码:
Demo地址:
太原肛肠治疗多少钱合肥白癜风较好医院
许昌治疗白癜风医院费用
-
美媒列出NBA目前最有可能被交易的球星里面,交易价值最高的10人
随着买卖上半年日期的临近,我们可以看到很多中会锋的买卖效益比之年前增强了不少,主要是他们在2023-24联赛赢了不错的自已乏善可陈,让他们不错的自已意志力获取了更是多的赞许。美媒《Fadeawa...
- 东方证券等4家公司回购合计超10亿提振信心!证券指数ETF(560090)冲高回落微跌0.31%,走势不相上下大盘!
- 外墙各立面喷涂施工真石漆的技巧与步骤
- 纳指五连跌!苹果连跌4天,市值蒸发超万亿元!纳指100ETF(159660)低开较高走跌0.62%,收盘溢价较高达0.83%!
- NBA打铁金榜:在篮球场上的“绝地求生”
- BranD NO.65 印刷超能力本期我们以“当印刷是一种产品”作为主题,让原田治的角色化身为小小印刷工艺师,亲身示范不同的印刷工艺魅力,重新拉近大家与印刷的距离,开启新视角看待身边的印刷品。 联名原田治设计了两款封面,盒装发行。 新刊预售价90元
- ETF收评:红利资产内部切换,短期格调有望反转