ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ РАССЕЯНИЯ НА КОЭФФИЦИЕНТАХ ДИСКРЕТНОГО ВЕЙВЛЕТ-РАЗЛОЖЕНИЯ К ЗАДАЧЕ БИОМЕТРИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ

Основное содержание статьи

А.А. Лепендин Email: andrey.lependin@gmail.com
Д.А. Гапонов
Я.А. Филин
П.С. Ладыгин

Аннотация

В работе предложен новый подход к вычислению информативныхпризнаков речевого сигнала для задачи верификации диктора. К сигналуприменялось многоуровневое преобразование, вычисляющее коэффициентырассеяния на основе дискретного вейвлет-разложения. Полученные векторапризнаков использовались в качестве входных данных нейронной сети свременными задержками. На их основе нейронной сетью вычислялись вектораидентичности дикторов, которые непосредственно применялись для биометрическойверификации. Предложенный подход был апробирован на данных из наборовголосовых образцов VoxCeleb1 и VoxCeleb2. Была показана его эффективность всравнении с существующими методами верификации на основе глубоких нейронныхсетей.

Скачивания

Данные скачивания пока недоступны.

Детали статьи

Как цитировать
1. Лепендин А., Гапонов Д., Филин Я., Ладыгин П. ПРИМЕНЕНИЕ ПРЕОБРАЗОВАНИЯ РАССЕЯНИЯ НА КОЭФФИЦИЕНТАХ ДИСКРЕТНОГО ВЕЙВЛЕТ-РАЗЛОЖЕНИЯ К ЗАДАЧЕ БИОМЕТРИЧЕСКОЙ ВЕРИФИКАЦИИ ДИКТОРОВ // ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ, 2020. № 8. С. 35-41. URL: http://journal.asu.ru/ptzi/article/view/13934.
Раздел
Проблемы технического обеспечения информационной безопасности

Литература

Rabiner L., Juang B.H. Fundamentals of speech recognition // N.-J. PrenticeHall, 1993. – 507 p.

ГОСТ Р 58624.1–2019. Информационные технологии. Биометрия. Обнаружение атаки на биометрическое предъявление. Стандарт по атакам представлением. Часть 1. Структура

Mallat S. Group Invariant Scattering [электронный ресурс] // режим доступа: http://arxiv.org/abs/1101.2286.

Anden J., Mallat S. Multiscale Scattering for Audio Classification // Proceedings of the 12th International Society for Music Information Retrieval Conference, ISMIR 2011, Miami, Florida, USA, October 24-28, 2011. pp. 657-662.

Verma P, Das PK. I-vectors in speech processing applications: a survey // International Journal of Speech Technolng. — 2015. — Vol. 18, No. 4. DOI: 10.1007/978-981-10-6626-9_18.

Snyder D., Garcia-Romero D., Sell G., Povey, D., Khudanpur S. X -Vectors: Robust DNN Embeddings for Speaker Recognition // ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). –pp. 5329-5333.

Nagrani A., Chung J.S., Zisserman A. VoxCeleb: a large scale speaker identification dataset [электронный ресурс] // режим доступа: https://arxiv.org/pdf/1706.08612

Chung J.S., Nagrani A., Zisserman A. VoxCeleb2: Deep Speaker Recognition [электронный ресурс] // режим доступа: https://arxiv.org/pdf/1806.05622

Huang X., Acero A., Hon H.-W. Spoken Language Processing. A Guide to Theory Algorithm and System Development. N.-J. Prentice Hall. – 965 p.

Lee Fugal D. Conceptual Wavelets in Digital Signal Processing // San Diego: Space & Signals Technologies. 2009. 302 p.

Kingma D., Ba J. Adam: A Method for Stochastic Optimization // Proc. of International Conference on Learning Representations [электронный ресурс] // режим доступа:: https://arxiv.org/pdf/1412.6980

Pedamonti, D. Comparison of non-linear activation functions for deep neural networks on MNIST classification task [электронный ресурс] // режим доступа::https://arxiv.org/pdf/1804.02763