ПОДГОТОВКА НАБОРА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ, ИСПОЛЬЗУЕМОЙ В ЗАДАЧАХ СРАВНЕНИЯ АУДИОФАЙЛОВ

В.Н. Попов; П.С. Ладыгин; Я.И. Борцова; В.В. Карев

№ 9 (2021): ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ

PDF

Опубликован: сен 26, 2023

Ключевые слова:

Глубокая нейронная сеть, цифровые отпечатки аудиофайлов, вектор признаков аудиофайла

В.Н. Попов

Алтайский государственный университет

Email: oskage.work@gmail.com

П.С. Ладыгин

Altai State University

Я.И. Борцова

Алтайский государственный университет

В.В. Карев

Алтайский государственный университет

Аннотация

Современные компьютерные алгоритмы достаточно эффективноанализируют аудиальную информацию. Важной задачей для создания современныхэкспертных систем по проверке музыки на плагиат является построениекачественного вектора признаков аудиофайла. Одним из актуальных инструментовдля обработки данного вида информации стали глубокие нейронные сети. Для ихобучения необходимо иметь большой набор данных, который применим к задаче. Вданной работе определены критерии выбора набора данных для обучения нейроннойсети для извлечения цифровых отпечатков аудиофайлов. Проанализированысуществующие наборы данных в соответствии с определенными критериями.Собран набор данных и представлен в удобном виде для дальнейшегоиспользования.

Скачивания

Данные скачивания пока недоступны.

Как цитировать

1. Попов В., Ладыгин П., Борцова Я., Карев В. ПОДГОТОВКА НАБОРА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ, ИСПОЛЬЗУЕМОЙ В ЗАДАЧАХ СРАВНЕНИЯ АУДИОФАЙЛОВ // ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ, 2023. № 9. С. 22-27. URL: http://journal.asu.ru/ptzi/article/view/13609.

Выпуск

№ 9 (2021): ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ

Раздел

Проблемы технического обеспечения информационной безопасности

Литература

Van Nieuwenhuizen H.A The study and implementation of shazam’s audio fingerprinting algorithm for advertisement identification / H.A. Van Nieuwenhuizen, W.C. Venter, L.M. Grobler // In Proceedings of SATNAC – 2011. – С 4.

Cano P. A review of audio fingerprinting / P. Cano, E. Batlle, T. Kalker [и др.] // Journal of VLSI signal processing systems for signal, image and video technology. – 2005. – Т.41. – № 3. – С. 271–284.

Baluja S. Audio fingerprinting: Combining computer vision & data stream processing / S. Baluja, M. Cobell // IEEE International Conference on Acoustics, Speech and Signal Processing – ICASSP’07. – 2007. – Т. 2 – С. II-213 – II-216.

Kim J.W. CREPE: A Convolutional Representation for Pitch Estimation / J.W. Kim, J. Salamon, P. Li [и др.] // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) – 2018. – C. 161-165.

Böck S. Accurate Tempo Estimation Based on Recurrent Neural Networks and Resonating Comb Filters / S. Böck, F. Krebs, G. Widmer // ISMIR. – 2015. – С. 625 - 631

Dey S. Signet convolution Siamese network for writer independent offline signature verification / S. Dey, A. Dutta, J.I.Toledo, [и др.] // CoRR – 2017. – C. 1-7.

Schoff F. Facenet: A unified embedding for face recognition and clustering / F. Schoff, D. Kalenichenko, J. Philbin // In Proceedings of the IEEE conference on computer vision and pattern recognition – 2015. – C. 815 – 823.

Snyder D. X-Vectors: Robust DNN Embeddings for speaker Recognition Using Data Augmentation / D. Snyder, G. Garcia-Romero [и др.] // ICASSP 2018. – 2018. – С. 5329 – 5338.

Nagrani A. Voxceleb: a large-scale speaker identification dataset / A. Nagrani, J. S. Chung, A. Zisserman // Inerspeech 2017. – 2017. – С. 2616 – 2620.

Free Music Archive [Электронный ресурс]: Режим доступа: https://freemusicarchive.org/home.

Creative commons [Электронный ресурс]: Режим доступа: https://creativecommons.org/licenses/

Статья боковой панели

Основное содержание статьи

Аннотация

Скачивания

Детали статьи

Литература