A METHOD FOR ASSESSING AUDIO FILE SIMILARITY USING AN AMT MODEL УДК 004.056.57
Main Article Content
Abstract
The article discusses the development and experimental evaluation of a novelmethod for creating digital audio fingerprintsbased on Automatic Music Transcription (AMT)to enhance the efficiency of pirated contentdetection. The methodological foundationis an algorithm that converts an audio signalinto a symbolic representation (MIDI) usinga specially trained neural network model,"Google Onsets and Frames". This model,whose architecture includes two U-Net blocksand BiLSTM layers, was trained on the MAPSdataset of piano recordings. The Levenshteindistance was used to assess the similaritybetween the original and predicted MIDIrepresentations. Experimental results revealeda strong dependence of the model's accuracyon the nature of the audio data. The highestaccuracy (89.36%) was achieved on polyphonicpiano compositions that matched the trainingdata, while the results were significantly lower(35-56%) for monophonic and guitar tracks.To improve the method's reliability, a postprocessing algorithm filtering out false notesbased on a duration threshold was proposedand successfully tested. This procedureenabled achieving 100% similarity for mosttest piano recordings, proving the approach'seffectiveness. Thus, the study demonstrates the promise of using AMT for creating robustdigital fingerprints and outlines paths for furthermodel improvement, including expandingthe training dataset with data from variousinstruments.
Downloads
Article Details
References
2. Борисова С.Н. Методы защиты аудиофайлов от несанкционированного копирования и распространения // Фундаментальные исследования. 2015. № 5 (часть 3). С. 481–487.
3. Гражданский кодекс Российской Федерации (часть четвертая) от 18.12.2006 N 230-ФЗ (ред. от 03.07.2016, с изм. от 13.12.2016) (с изм. и доп., вступ. в силу с 01.01.2017) // КонсультантПлюс: справочно-правовая система. URL: http://www.consultant.ru/document/cons_doc_ LAW_64629/ (дата обращения: 5.06.2025).
4. Google LLC: Как работает система Content ID : сайт. 2025. URL: https://support.google.com/youtube/answer/2797370?hl=ru (дата обращения: 24.04.2025).
5. Андрадэ А.И., Насуро Е.В. Средство музыкальной транскрипции при помощи методов машинного обучения // BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник материалов V Международной научно-практической конференции, Минск, 13–14 марта 2019 г.: в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники; редкол. : В.А. Богуш [и др.]. Минск, 2019. С. 376–380.
6. Kin Wai Cheuk ReconVAT: A Semi Supervised Automatic Music Transcription Framework for Low-Resource Real-World Data / Kin Wai Cheuk, Dorien Herremans, Li Su // ACM International Conference on Multimedia (China, 24.10.2021), China, 2021. C. 1–9.
7. ADASP: MAPS Database: a Piano database for multipitch estimation and automatic transcription of music : сайт. 2025. URL: https:// adasp.telecom-paris.fr/resources/2010-07-08- maps-database/ (дата обращения: 13.02.2025).
8. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады АН СССР, 1965. Т. 163. № 4. С. 845–848.