РАЗРАБОТКА МЕТОДА ШУМООЧИСТКИ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ УЛУЧШЕНИЯ КАЧЕСТВА БИОМЕТРИЧЕСКОЙ ГОЛОСОВОЙ ВЕРИФИКАЦИИ
Основное содержание статьи
Аннотация
Системы верификации дикторов в последнее время получилиширокое применение в большом спектре информационных систем. Этот способподтверждения личности является крайне удобным, поскольку для регистрацииречевых образцов необходим лишь микрофон, имеющийся по умолчанию вбольшинстве электронных устройств. Однако качество работы подобных системсущественно снижается, когда речевой образец был записан в зашумленныхусловиях. В данной работе предложена новая модель шумоочистки на основерекуррентных нейронных сетей, которая была апробирована для задачиверификации дикторов. Разработанный подход продемонстрировал на набореданных DNS Challenge 2020 лучшее качество очистки от шума в сравнении сальтернативными. Он позволил существенно уменьшить уровень ошибок модельнойсистемы верификации дикторов на тестовом наборе данных VoxCeleb1.
Скачивания
Детали статьи
Литература
Loizou P.C. Speech Enhancement: Theory and Practice. – М.: Boca Raton. FL. USA: CRC Press, 2007. – 716 c.
Николенко С.И., Кадурин А.А., Архангельская Е.О. Глубокое обучение. – М., СПб. : Питер, 2018 – 480 с.
Williamson D.S., Wang Y., Wang D. Complex ratio masking for monaural speech separation // IEEE/ACM Transactions on Audio, Speech, and Language Processing. – 2016. –No 3 (24). – P. 483-492.
Nasretdinov R.S., Ilyashenko I.D., Lependin A.A. Two-stage method of speech denoising by long short-term memory neural network // 11th International Conference on High-Performance Computing Systems and Technologies in Scientific Research, Automation of Control and Production, HPCST 2021, Barnaul 21-22 May 2021. CCIS, Vol. 1526. – Springer, 2022. – P. 86-97.
Reddy, C.K.A., Gopal, V., Cutler, R., Beyrami, E., Cheng, R., Dubey, H., Matusevych, S., Aichner, R., Aazami, A., Braun, S., Rana, P., Srinivasan, S., Gehrke, J. The INTERSPEECH 2020 Deep Noise Suppression Challenge: datasets, subjective testing framework, and challenge results // Proc. Interspeech 2020. – 2020. – P. 2492-2496.
Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large-scale speaker identification dataset // Proc. Interspeech 2017 – 2017. – pp. 2616-2620.
Rix A.W., Beerends J.G., Hollier M.P. Hekstra A.P. Perceptual evaluation of speech quality (PESQ) – a new method for speech quality assessment of telephone networks and codecs // 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. – 2001. – P. 749-752.
Taal C.H., Hendriks R.C., Heusdens R., Jensen J., A short-time objective intelligibility measure for time-frequency weighted noisy speech // 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. – 2010. – P. 4214- 4217.
Roux J.L., Wisdom S., Erdogan H., Hershey J.R. SDR – half-baked or well done? // ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2019. – P. 626-630.
Braun S., Tashev I. Data augmentation and loss normalization for deep noise suppression // 22nd International Conference on Speech and Computer (SPECOM). LNAI 12335. – Springer, 2020. – P. 79–86.
Hao X. FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement / X. Hao, X. Su, R. Horaud, X. Li // IEEE International Conference on Acoustics, Speech, and Signal Processing. - 2021. - P. 1-5.
Hu J., Shen L., Sun G. Squeeze-and-excitation networks // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2018. – P. 7132-7141.