ФОНЕТИЧЕСКИЕ АПОСТЕРИОГРАММЫ ДЛЯ ОЦЕНКИ РАЗБОРЧИВОСТИ РЕЧИ ПРИ АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ УДК 004.056.57 : 004.934
Основное содержание статьи
Аннотация
В работе предложен новыйподход к оценке искажений, вносимых в речевой сигнал. Он основан на применениипредварительно обученной нейросетевоймодели для вычисления фонетических апостериограмм и оценки их отклонения от образцовых с помощью дивергенции ЙенсенаШеннона. Для вычисления апостериограммприменялась обученная на наборе данныхCommon Voice 21 модель High-Fidelity NeuralPhonetic Posteriorgrams. На основе тестового подмножества набора данных VoxCeleb1были сформированы три множества речевых записей с фоновым шумом контролируемой мощности, нелинейными искажениями и реверберацией. Вычислена дивергенцияфонетических апостериограмм и проведенапараллельная оценка качества верификациидикторов нейросетевой моделью с временными задержками TDNN. Показано, что дивергенция Йенсена-Шеннона обладает высокой чувствительностью к рассматриваемымискажениям речевых сигналов, хорошо коррелирует с частотой эквивалентных ошибокречевой верификации. Она может быть эффективно применена как для оценки качества речевых записей при биометрической верификации пользователей, так и в качествефункции потерь при обучении новых нейросетевых методов обработки речи.
Скачивания
Детали статьи
Литература
2. Cameron C., Churchwell C., Morrison M., Pardo B. High-Fidelity Neural Phonetic Posteriorgrams // 2024 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW). Seoul. Korea. 2024. P. 823–827.
3. Handbook of the International Phonetic Association: a guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press, 1999. ix + 204 p.
4. Cover T., Thomas J.A. Elements of Information Theory. 2nd ed. Wiley. New Jersey, 2006. 748 p.
5. Binary Cross-Entropy Loss // PyTorch 2.9 documentation: сайт. URL: https://docs.pytorch.org/docs/stable/generated/torch.nn.BCELoss.html (дата обращения: 10.10.2025).
6. Ardila R., Branson M., Davis K., Kohler M., Meyer J., Henretty M., Morais R., Saunders L., Tyers F., Weber G. Common Voice: A MassivelyMultilingual Speech Corpus // Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille, France. European Language Resources Association, 2020. P. 4218–4222.
7. McAuliffe M., Socolof M., Mihuc S., Wagner M., Sonderegger M. Montreal Forced Aligner: Trainable Text-Speech Alignment Using Kaldi // Proc. Interspeech. 2017. P. 498–502.
8. Neuroth H., Lohmeier F., Smith K.M. TextGrid — Virtual Research Environment for the Humanities // The International Journal of Digital Curation. Issue 2, Volume 6.| 2011. P. 222–231.
9. Nagrani A., Chung J.S., Zisserman A. VoxCeleb: A Large-Scale Speaker Identification Dataset // Proc. Interspeech. 2017. P. 2616–2620.
10. Thiemann J., Ito N., Vincent E. The Diverse Environments Multi-Channel Acoustic Noise Database (DEMAND): A database of multichannel environmental noise recordings // The Journal of the Acoustical Society of America, 2013.
11. Schuck Jr. A., Bodmann B. Audio nonlinear modeling through hyperbolic tangent functionals // Proceedings of the 19th International Conference on Digital Audio Effects (DAFx-16). 2016. P. 103–108.
12. Scheibler R., Bezzam E., Dokmanic I. Pyroomacoustics: A Python package for audio room simulations // IEEE Signal Processing Letters, 2020 – vol. 27, P. 133–137.
13. Болл Р.М., Коннел Дж.Х., Панканти Ш., Ратха Н.К., Сеньор Э.У. Руководство по биометрии. М. : Техносфера, 2007. 368 с.
14. Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-Vectors: Robust DNN Embeddings for Speaker Recognition // IEEE International Conference on Acoustics, Speech and Signal Processing, 2018. P. 5329–5333.