快捷搜索:  汽车  科技

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)

语音分离的目标是从单个麦克风录音中提取多个语音源。最近,随着深度学习的发展和大型数据集的出现,语音分离被表述为一个监督学习问题。这些方法旨在使用监督学习算法(通常是深度神经网络)学习语音、扬声器和背景噪声的分辨模式。监督下的语音分离中一个长期存在的问题是为每个分离的语音信号找到正确的标签,这被称为标签互换模糊性。标签互换模糊性指的是确定被分离的信号源和可用的单发言人语音标签之间的输出标签分配的问题。找到最佳的输出标签分配是计算分离误差所必需的,而分离误差随后被用于更新模型的参数。最近,互换不变训练(PIT)已被证明是处理标签模糊性问题的一个有前途的解决方案。然而,PIT对输出标签分配的过度自信导致了一个次优的训练模型。在这项工作中,我们提出了一个概率优化框架来解决PIT在寻找最佳输出标签分配方面的低效率问题。我们提出的名为 "可训练的软最小值PIT "的方法被用于长短时记忆(LSTM)架构,该架构用于交换不变训练(PIT)语音分离方法。我们的实验结果表明,所提出的方法明显优于传统的PIT语音分离方法,在信号失真率(SDR)方面高出1分贝,在信号干扰率(SIR)方面高出1.5分贝。

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(1)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(2)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(3)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(4)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(5)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(6)

语音克隆开发教程(使用Soft-minimum互换不变量训练的单通道语音分离)(7)

猜您喜欢: