Жанровете са една от ключовите характеристики, които категоризират музиката въз основа на специфични серии от модели. Въпреки това арабското музикално съдържание в мрежата е слабо дефинирано в своите жанрове, което прави автоматичната класификация на арабските аудио жанрове предизвикателство.

В тази публикация нашата цел е първо да изградим добре анотиран набор от данни за пет от най-известните арабски музикални жанрове, които са: източен тахт, рай, мувашшах, поема и маувал, и накрая да представим цялостно емпирично сравнение на архитектури на дълбоки конволюционни невронни мрежи (CNN) относно класификация на жанровете на арабската музика.

Големият корпус от набора от данни на арабския музикален жанр (AMG) е изграден чрез извличане на множество аудио клипове от YouTube. Наборът от данни се състои от петразлични известни жанрови класа. AMG се състои от 1266 аудио записи, всяко музикално парче с дължина 30 секунди, съхранено като 799 MB wav аудио файл.

Предварителна обработка на аудио данни

В първия аудио форматът трябва да бъде във формат WAV: Изпълнението на методологията започва с WAV файлове, за да ги конвертирате в спектрограми. WAV първоначално са разработени от Microsoft и IBM през 1991 г. Това е аудио файлов формат с форма на вълна и се използва за съхраняване на некомпресиран записан звук с висока точност.

Използваното от нас STFT означава кратковременна трансформация на Фурие, показва промените в честотното съдържание с течение на времето чрез прилагане на поредица от прозорци към сигнала с помощта на DFT алгоритъм.

След това приложете MFCCsсъкращение за Mel-Frequency Cepstral Coefficients, въведено през 1990 г. от Дейвис. Това е един от най-популярните съвременни методи за извличане на характеристики поради по-бързата си техника за извличане от други методи като Perceptual Linear Prediction (PLP) и Linear Prediction Coefficients (LPC).

Конволюционни невронни мрежи

CNN са вид дълбока невронна мрежа, която обикновено се използва в приложения за компютърно зрение. Освен това използването на CNN може да бъде разширено за всякакви приложения за аудио анализ поради архитектурата на 2D CNN.

Използвайки пет модела в CNN, ние класифицираме нашия подход, а именно:

  1. Lenet5
  2. AlexNet
  3. VGG
  4. ResNet-50
  5. LSTM-CNN

Полезна връзка:

Компютри, материали и континуум | Класификация на арабски музикални жанрове с помощта на дълбоки конволюционни невронни мрежи (CNN) (techscience.com)

Ar-MGC: Набор от данни за класификация на жанрове на арабска музика | Kaggle