audio – 说话长度如何影响说话人识别中的神经网络?

我正在学习神经网络并试图用张量流创建说话人识别系统.我想知道话语长度如何影响神经网络.例如,我有1000种不同的录音,长度相同,1000种不同的录音,长度不同.那么理论上如何使用这些数据工作神经网络呢?具有相同长度记录的数据库的神经网络会做得更好还是更差?为什么?
最佳答案
我假设您的问题可以重新表述为神经网络如何处理不同长度的音频?

技巧是将任意大小的信号转换为固定大小的特征向量序列.请参阅我的答案herehere.

转载注明原文:audio – 说话长度如何影响说话人识别中的神经网络? - 代码日志