我们测量重新混合的音频相对于原始录音的信噪比。我们发现专门针对鸟类训练的模型比在上训练的模型获得了分贝更好的与。主观上我们还发现了许多系统运行得非常好的例子分离了现实世界 牙买加 电话号码 数据中非常难以区分的呼叫。以下视频展示了两个不同地区卡普尔斯和高山脉的鸟鸣声的分离。这些视频显示了混合音频的梅尔频谱图显示音频随时间变化的频率内容的图像并突出显示了分成不同轨道的音频。高山脉卡普莱斯鸟类分类为了对捕获的现实世界音频中的鸟类进行分类我们首先将音频分成五秒的片段然后创建每个片段的梅尔频谱图。然后我们训练分类器从梅尔谱图图像中识别鸟类物种并使用和麦考利图书馆的音频进行训练。
![Image](https://zh-cn.b2bfaxlead.com/wp-content/uploads/2024/05/jamaica-phone.png)
我们训练了两个单独的分类器一个用于内华达山脉的物种另一个用于纽约州北部的物种。请注意这些分类器并未针对分离的音频进行训练这是未来需要改进的领域。我们还引入了一些新技术来改进分类器训练。分类训练要求分类器为物种分类的每个级别属科和目提供标签这使得模型能够在了解相似物种之间有时存在的细微差异之前先了解物种的分组。分类学训练还允许模型受益于有关不同物种之间分类学关系的专家信息。我们还发现随机低通滤波有助于在训练期间模拟远处的声音随着音频源距离越来越远高频部分会先于低频部分消失。这对于识别来自高山脉地区的物种特别有效那里的鸟鸣声可以覆盖很远的距离不受树木的阻碍。