МЕТОДИКА ОЦЕНКИ СТЕПЕНИ СХОЖЕСТИ АУДИОФАЙЛОВ С ПРИМЕНЕНИЕМ АМТ-МОДЕЛИ УДК 004.056.57
Основное содержание статьи
Аннотация
В статье рассматриваетсяразработка и экспериментальная оценка нового метода создания цифровых отпечатковаудиофайлов на основе автоматической музыкальной транскрипции (AMT) для повышения эффективности выявления пиратского контента. В качестве методологическойосновы предлагается алгоритм, преобразующий аудиосигнал в символьное представление (MIDI) с помощью специально обученной нейросетевой модели «Google Onsets andFrames». Данная модель, архитектура которой включает два U-Net блока и слои BiLSTM,была обучена на датасете фортепианных записей MAPS. Для оценки схожести исходного и предсказанного MIDI-представленияиспользовалось расстояние Левенштейна.Экспериментальные результаты выявили сильную зависимость точности модели от характера аудиоданных. Наивысшаяточность (89,36%) была достигнута на полифонических фортепианных композициях, соответствующих обучающим данным,тогда как на монофонических и гитарныхтреках результаты были значительно ниже(35–56 %). Для повышения надежности метода был предложен и успешно апробированалгоритм постобработки, отфильтровывающий ложные ноты по порогу длительности Эта процедура позволила достичь 100% схожести для большинства тестовых фортепианных записей, что доказывает эффективность подхода. Таким образом, исследованиедемонстрирует перспективность использования AMT для создания устойчивых цифровыхотпечатков и пути для дальнейшего улучшения модели, включая расширение обучающейвыборки данными различных инструментов.
Скачивания
Детали статьи
Литература
2. Борисова С.Н. Методы защиты аудиофайлов от несанкционированного копирования и распространения // Фундаментальные исследования. 2015. № 5 (часть 3). С. 481–487.
3. Гражданский кодекс Российской Федерации (часть четвертая) от 18.12.2006 N 230-ФЗ (ред. от 03.07.2016, с изм. от 13.12.2016) (с изм. и доп., вступ. в силу с 01.01.2017) // КонсультантПлюс: справочно-правовая система. URL: http://www.consultant.ru/document/cons_doc_ LAW_64629/ (дата обращения: 5.06.2025).
4. Google LLC: Как работает система Content ID : сайт. 2025. URL: https://support.google.com/youtube/answer/2797370?hl=ru (дата обращения: 24.04.2025).
5. Андрадэ А.И., Насуро Е.В. Средство музыкальной транскрипции при помощи методов машинного обучения // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник материалов V Международной научно-практической конференции, Минск, 13–14 марта 2019 г.: в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники; редкол. : В.А. Богуш [и др.]. Минск, 2019. С. 376–380.
6. Kin Wai Cheuk ReconVAT: A Semi Supervised Automatic Music Transcription Framework for Low-Resource Real-World Data / Kin Wai Cheuk, Dorien Herremans, Li Su // ACM International Conference on Multimedia (China, 24.10.2021), China, 2021. C. 1–9.
7. ADASP: MAPS Database: a Piano database for multipitch estimation and automatic transcription of music : сайт. 2025. URL: https:// adasp.telecom-paris.fr/resources/2010-07-08- maps-database/ (дата обращения: 13.02.2025).
8. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады АН СССР, 1965. Т. 163. № 4. С. 845–848.