ОБНАРУЖЕНИЕ ФИЗИЧЕСКИХ АТАК ПОВТОРНОГО ВОСПРОИЗВЕДЕНИЯ РЕЧИ С ПОМОЩЬЮ ЛЕГКОЙ СВЕРТОЧНОЙ СЕТИ С ГРАФОВЫМ ВНИМАНИЕМ УДК 004.934

Основное содержание статьи

Александр Сергеевич Белослюдов
Андрей Александрович Лепендин Email: andrey.lependin@gmail.com
Яков Александрович Филин

Аннотация

В статье предложена модель, основанная на модификации сверточной нейронной сети LCNN за счет применения слоев графового внимания, способная эффективно обнаруживать физические атаки на данные речи. Показана актуальность и значимость проблемы обнаружения речевых подделок в контексте повышенного интереса к голосовым технологиям и угрозе безопасности, связанной с возможностью подделки или изменения аудиоданных. Проведена реализация предложенного подхода на языке Python с использованием библиотеки PyTorch. Обучение и тестирование модели осуществлено на данных из набора ASVspoof 2019. Проведен выбор числа «голов» в слое графового внимания. Выбранная версия нейросетевой модели сопоставлена по метрикам точности и эквивалентной ошибки EER с базовой моделью, в качестве которой выступала LCNN-сеть. Продемонстрировано превосходство модифицированного подхода, предложенного в данной работе, как по качеству распознавания поддельных голосовых сообщений, так и по числу параметров модели.

Скачивания

Данные скачивания пока недоступны.

Детали статьи

Как цитировать
1. Белослюдов А. С., Лепендин А. А., Филин Я. А. ОБНАРУЖЕНИЕ ФИЗИЧЕСКИХ АТАК ПОВТОРНОГО ВОСПРОИЗВЕДЕНИЯ РЕЧИ С ПОМОЩЬЮ ЛЕГКОЙ СВЕРТОЧНОЙ СЕТИ С ГРАФОВЫМ ВНИМАНИЕМ // ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ, 2023. № 11. С. 8-15. URL: http://journal.asu.ru/ptzi/article/view/14174.
Раздел
Проблемы технического обеспечения информационной безопасности

Литература

Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and countermeasures for speaker verification: A survey. // Speech Communication. 2015. Т. 66. С. 130–153.

Nautsch A., Wang X., Evans N., Kinnunen T. H., Vestman V., Todisco M., Delgado H., Sahidullah Md., Yamagishi J., Lee K.A. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech // IEEE Transactions on Biometrics, Behavior, and Identity Science. 2021. № 3. С. 252–265.

Zhou J., Cui G., Zhang Z. Graph Neural Networks: A Review of Methods and Applications // AI Open. 2020. № 1(1). С. 57-81.

Lavrentyeva G., Novoselov S., Malykh E., Kozlov A., Kudashev O., Shchemelinin V. Audio replay attack detection with deep learning frameworks // Proc. Interspeech 2017, Stockholm, Sweden, 20-24 августа 2017. C. 82-86.

Petar V., Preixens G.C., Paga A. C., Romero A., Lio P., Bengio Y. Graph attention networks // ICLR 2018, Vancouver, Canada, 30 апреля-3 мая 2018. 12 c.

Todisco M., Delgado H., Enavs N. A New Feature for Automatic Speaker Verification AntiSpoofing: Constant Q Cepstral Coefficients // Proc. The Speaker and Language Recognition Workshop (Odyssey 2016), Bilbao, Spain, 21-24 июня 2016. С. 283–290.

Wu X., He R., Sun Z., Tan T. A Light CNN for Deep Face Representation with Noisy Labels // IEEE Transactions on Information Forensics and Security. 2018. № 11(13). С. 2884–2896.

LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE. 1998. № 11(86). С. 2278–2324.

Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // arxiv.org: сайт. URL: https://arxiv.org/abs/1502.03167/ (дата обращения: 15.10.2023).

Xu B., Wang N., Chen T., Li M. Empirical Evaluation of Rectified Activations in Convolutional Network // arxiv.org: сайт. URL: https://arxiv.org/abs/1505.00853/ (дата обращения: 15.10.2023).