В тази статия ще разгледам как да извлека всички функции във времевата област на аудио файл с помощта на Librosa, библиотека на Python за обработка на музика/аудио.

Аудио обработката има много приложения в областта на машинното обучение. С голямото нарастване на устройствата за гласова помощ като Alexa, Siri и Google Home можем да очакваме голям напредък в тази област.

Какво представляват аудио функциите?

Аудио функциите могат да бъдат разделени на две категории: времеви домейн и честотен домейн. В тази статия ще говорим за функциите във времевата област.

Амплитудна обвивка

Амплитудната обвивка на аудио сигнал се състои от максималната стойност на амплитудата от всеки кадър. Тази аудио функция е чувствителна към отклонения и дава обща представа за силата на звука на файла.

Средна квадратична енергия (rmse)

Както се обяснява в заглавието, в този раздел ще намерим и начертаем средната квадратична енергия на аудио проба. Енергията на аудио файл е свързана с силата на звука, следователно е функция във времева област.

Скорост на преминаване през нула (ZCR)

Степента на преминаване през нула измерва броя пъти, когато аудиосигнал преминава от положителен към отрицателен или от отрицателен към положителен. ZCR може да се използва за разграничаване между звучни и незвучни проби.

За повече информация вижте документацията на librosa.

В следващата статия ще разгледам как да извлека аудио характеристиките на честотния домейн.