ОБНАРУЖЕНИЕ ФИЗИЧЕСКИХ АТАК ПОВТОРНОГО ВОСПРОИЗВЕДЕНИЯ РЕЧИ С ПОМОЩЬЮ ЛЕГКОЙ СВЕРТОЧНОЙ СЕТИ С ГРАФОВЫМ ВНИМАНИЕМ УДК 004.934
Основное содержание статьи
Аннотация
В статье предложена модель, основанная на модификации сверточной нейронной сети LCNN за счет применения слоев графового внимания, способная эффективно обнаруживать физические атаки на данные речи. Показана актуальность и значимость проблемы обнаружения речевых подделок в контексте повышенного интереса к голосовым технологиям и угрозе безопасности, связанной с возможностью подделки или изменения аудиоданных. Проведена реализация предложенного подхода на языке Python с использованием библиотеки PyTorch. Обучение и тестирование модели осуществлено на данных из набора ASVspoof 2019. Проведен выбор числа «голов» в слое графового внимания. Выбранная версия нейросетевой модели сопоставлена по метрикам точности и эквивалентной ошибки EER с базовой моделью, в качестве которой выступала LCNN-сеть. Продемонстрировано превосходство модифицированного подхода, предложенного в данной работе, как по качеству распознавания поддельных голосовых сообщений, так и по числу параметров модели.
Скачивания
Детали статьи
Литература
Nautsch A., Wang X., Evans N., Kinnunen T. H., Vestman V., Todisco M., Delgado H., Sahidullah Md., Yamagishi J., Lee K.A. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech // IEEE Transactions on Biometrics, Behavior, and Identity Science. 2021. № 3. С. 252–265.
Zhou J., Cui G., Zhang Z. Graph Neural Networks: A Review of Methods and Applications // AI Open. 2020. № 1(1). С. 57-81.
Lavrentyeva G., Novoselov S., Malykh E., Kozlov A., Kudashev O., Shchemelinin V. Audio replay attack detection with deep learning frameworks // Proc. Interspeech 2017, Stockholm, Sweden, 20-24 августа 2017. C. 82-86.
Petar V., Preixens G.C., Paga A. C., Romero A., Lio P., Bengio Y. Graph attention networks // ICLR 2018, Vancouver, Canada, 30 апреля-3 мая 2018. 12 c.
Todisco M., Delgado H., Enavs N. A New Feature for Automatic Speaker Verification AntiSpoofing: Constant Q Cepstral Coefficients // Proc. The Speaker and Language Recognition Workshop (Odyssey 2016), Bilbao, Spain, 21-24 июня 2016. С. 283–290.
Wu X., He R., Sun Z., Tan T. A Light CNN for Deep Face Representation with Noisy Labels // IEEE Transactions on Information Forensics and Security. 2018. № 11(13). С. 2884–2896.
LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition // Proceedings of the IEEE. 1998. № 11(86). С. 2278–2324.
Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // arxiv.org: сайт. URL: https://arxiv.org/abs/1502.03167/ (дата обращения: 15.10.2023).
Xu B., Wang N., Chen T., Li M. Empirical Evaluation of Rectified Activations in Convolutional Network // arxiv.org: сайт. URL: https://arxiv.org/abs/1505.00853/ (дата обращения: 15.10.2023).