然后分离模型学习将分成多个通道以最

ditihekhatun17 · Post by **ditihekhatun17** » Mon May 20, 2024 10:28 am

小化使用两个原始现实世界记录作为地面实况参考的损失函数。损失函数使用这些引用对分离的通道进行分组以便它们可以重新混合在一起以重新创建两个原始的真实世界录音。由于无法知道中的不同声音在原始录音中是如何组合在一起的因此分离模型别无选择只能将各个声音本身分开从而学会将每只歌唱的鸟放在不同的输出音频通道中也与风和其他背景噪音隔离。我们使用和麦考利图书馆的鸟鸣录音训练了新的分离模型。我们发现在分离鸟鸣方面这个新模型的性能优于在数据集中的大量一般音频上训练的分离模型。我们通过将两个录音混合在一起应用分离然后重新混合分离的音频通道以便它们重建原始的两个录音来测量分离的质量。

我们测量重新混合的音频相对于原始录音的信噪比。我们发现专门针对鸟类训练的模型比在上训练的模型获得了分贝更好的与。主观上我们还发现了许多系统运行得非常好的例子分离了现实世界 牙买加电话号码 数据中非常难以区分的呼叫。以下视频展示了两个不同地区卡普尔斯和高山脉的鸟鸣声的分离。这些视频显示了混合音频的梅尔频谱图显示音频随时间变化的频率内容的图像并突出显示了分成不同轨道的音频。高山脉卡普莱斯鸟类分类为了对捕获的现实世界音频中的鸟类进行分类我们首先将音频分成五秒的片段然后创建每个片段的梅尔频谱图。然后我们训练分类器从梅尔谱图图像中识别鸟类物种并使用和麦考利图书馆的音频进行训练。

我们训练了两个单独的分类器一个用于内华达山脉的物种另一个用于纽约州北部的物种。请注意这些分类器并未针对分离的音频进行训练这是未来需要改进的领域。我们还引入了一些新技术来改进分类器训练。分类训练要求分类器为物种分类的每个级别属科和目提供标签这使得模型能够在了解相似物种之间有时存在的细微差异之前先了解物种的分组。分类学训练还允许模型受益于有关不同物种之间分类学关系的专家信息。我们还发现随机低通滤波有助于在训练期间模拟远处的声音随着音频源距离越来越远高频部分会先于低频部分消失。这对于识别来自高山脉地区的物种特别有效那里的鸟鸣声可以覆盖很远的距离不受树木的阻碍。