ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ РАССЕЯНИЯ НА КОЭФФИЦИЕНТАХ ДИСКРЕТНОГО ВЕЙВЛЕТ-РАЗЛОЖЕНИЯ К ЗАДАЧЕ БИОМЕТРИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ

Основное содержание статьи

А.А. Лепендин Email: andrey.lependin@gmail.com
Д.А. Гапонов
Я.А. Филин
П.С. Ладыгин

Аннотация

В работе предложен новый подход к вычислению информативныхпризнаков речевого сигнала для задачи верификации диктора. К сигналуприменялось многоуровневое преобразование, вычисляющее коэффициентырассеяния на основе дискретного вейвлет-разложения. Полученные векторапризнаков использовались в качестве входных данных нейронной сети свременными задержками. На их основе нейронной сетью вычислялись вектораидентичности дикторов, которые непосредственно применялись для биометрическойверификации. Предложенный подход был апробирован на данных из наборовголосовых образцов VoxCeleb1 и VoxCeleb2. Была показана его эффективность всравнении с существующими методами верификации на основе глубоких нейронныхсетей.

Скачивания

Детали статьи

Как цитировать
1. Лепендин А., Гапонов Д., Филин Я., Ладыгин П. ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ РАССЕЯНИЯ НА КОЭФФИЦИЕНТАХ ДИСКРЕТНОГО ВЕЙВЛЕТ-РАЗЛОЖЕНИЯ К ЗАДАЧЕ БИОМЕТРИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ // ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ, 2020. № 8. С. 35-41. URL: http://journal.asu.ru/ptzi/article/view/13934.
Раздел
Проблемы технического обеспечения информационной безопасности

Литература

Rabiner L., Juang B.H. Fundamentals of speech recognition // N.-J. PrenticeHall, 1993. – 507 p.

ГОСТ Р 58624.1–2019. Информационные технологии. Биометрия. Обнаружение атаки на биометрическое предъявление. Стандарт по атакам представлением. Часть 1. Структура

Mallat S. Group Invariant Scattering [электронный ресурс] // режим доступа: http://arxiv.org/abs/1101.2286.

Anden J., Mallat S. Multiscale Scattering for Audio Classification // Proceedings of the 12th International Society for Music Information Retrieval Conference, ISMIR 2011, Miami, Florida, USA, October 24-28, 2011. pp. 657-662.

Verma P, Das PK. I-vectors in speech processing applications: a survey // International Journal of Speech Technolng. — 2015. — Vol. 18, No. 4. DOI: 10.1007/978-981-10-6626-9_18.

Snyder D., Garcia-Romero D., Sell G., Povey, D., Khudanpur S. X -Vectors: Robust DNN Embeddings for Speaker Recognition // ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). –pp. 5329-5333.

Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large scale speaker identification dataset [электронный ресурс] // режим доступа: https://arxiv.org/pdf/1706.08612

Chung J.S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition [электронный ресурс] // режим доступа: https://arxiv.org/pdf/1806.05622

Huang X., Acero A., Hon H.-W. Spoken Language Processing. A Guide to Theory Algorithm and System Development. N.-J. Prentice Hall. – 965 p.

Lee Fugal D. Conceptual Wavelets in Digital Signal Processing // San Diego: Space & Signals Technologies. 2009. 302 p.

Kingma D., Ba J. Adam: A Method for Stochastic Optimization // Proc. of International Conference on Learning Representations [электронный ресурс] // режим доступа:: https://arxiv.org/pdf/1412.6980

Pedamonti, D. Comparison of non-linear activation functions for deep neural networks on MNIST classification task [электронный ресурс] // режим доступа::https://arxiv.org/pdf/1804.02763