Fusion модел за дълбоко обучение за аудио

Нашият основен фокус в тази статия е да сравним представянето на различни аудио функции в управлявана от CNN система за двоична класификация.

За този проект шумовете на тълпата бяха избрани като аудио, което ни интересува, и нашата цел беше да обучим модел на невронна мрежа, който може да открие дали дадена аудио проба съдържа или не този звук. Шумът от тълпата е звук, който всеки познава, съставен предимно от хора, които говорят помежду си. Те често се считат за компонент на фоновия шум, който човек изпитва, когато се опитва да се фокусира върху друг звук. Ако някой трябваше да изобрети система за премахване на шума от тълпата, за да се фокусира върху друг звук, детектор може би би могъл да бъде полезен като начин за автоматично активиране на процеса на премахване. Основната причина за избора на откриване на тълпа за фокуса на този проект е, че въпреки че не е толкова взискателно, колкото обучението на система за разпознаване на реч, стохастичните му характеристики го правят разнообразен и достатъчно сложен за нашата задача. Шумовете от тълпата също са изобилни в аудио базите данни, с които разполагаме, и могат да формират добра основа за тестване на различни модели за аудио класификация.

Ще има два комплекта модели, които ще бъдат приложени към данните, и двата под формата на конволюционна невронна мрежа. Най-съществената разлика в моделите е, че първият модел ще вземе необработени данни за формата на вълната, а вторият ще вземе MFCC представяне на същите данни. Има по-успешни документи за аудио класификация, базирани на последното (Hershey 2017), но има забележителен успех при използване на необработено аудио, както е открито в (Dai 2016). След обучение и анализиране на ефективността на всеки модел се изпълнява окончателен процес на късен синтез, за ​​да се наблюдава дали резултатите се подобряват чрез комбиниране на двата модела.

Като се има предвид избухването на Covid-19, проектът не можа да се възползва от GPU на моето училище.

Следователно обучението, проведено в този проект, беше извършено с по-малка от обичайната база данни, която можеше да се обработва чрез обикновен лаптоп. Изолираната база данни за градски звук, която съдържа ~3 часа звук от градски пейзаж, с ~20 минути аудио с етикет за тълпа, беше подходящ набор от звуци от градски пейзаж с етикет за този случай.

(Странична бележка: Наскоро разбрах, че GoogleCollab предлага безплатно използване на GPU, така че скоро може да актуализирам обучението и изследванията си!)

R a w M o d e l

Като стъпка на предварителна обработка, информацията за стерео канала беше намалена до моно, за да се намали броят на каналите за данни. Това е разумна стъпка, тъй като стерео информацията обикновено не е важен фактор в модела на аудио класификация. Данните също бяха понижени от 44,1 KHz до 8 KHz, за да се подобри изчислителната скорост и ефективност, което се превръща във важен фокус при проектирането на дълбока невронна мрежа, която сама по себе си е естествено интензивна за CPU.

Всички аудиоклипове са нарязани, за да се създаде поредица от незастъпващи се 4-секундни сегменти (32KHz) и в случай, че аудиоклиповете са по-къси от това, те са подплатени с 0, за да направят 4-секундни входове.

Моделът е базиран на Dai 2016 оптимизира производителността на аудио класификатор на CNN въз основа на сурови аудио данни като едномерен тензорен вход. CNN ще приемат като входни данни едномерен вектор с размер 32 000. Обикновено дълбоките CNN биха били неефективни за създаване на изводи на високо ниво с този векторен размер, но чрез използването на партидна нормализация и известно намаляване на дискретизацията в първоначалните слоеве, документът показва 34-слоен CNN с остатъчно обучение, който е впечатляващ и по-бърз от очакваното. Няколко варианта на архитектурите бяха взети от хартията, с различни и внедрени в нашия проект. Беше установено, че вариантът M5 (5 слоя) на архитектурата дава много положителни резултати за нашите тестови данни, давайки процент на точност от 97% (40/41 правилни прогнози). Освен това имаше по-малко слоеве от всеки модел, с изключение на вариацията M3, което доведе до значително по-бързо обучение, където 30 епохи биха отнели ~20 минути. За сравнение, вариацията от 11 слоя отне ~2 часа, за да достигне същото ниво.

M F C C M o d e l

Мел спектралните коефициенти са производна характеристика на представянето на мел-спектрограмата на аудио данни; той има значително по-ниска разделителна способност от аналога си, което може да е неефективно за максимизиране на информацията за данни, но това е предпочитанието на този проект, защото е по-малко интензивен на процесора и е по-ефективен при обучение. Твърди се, че за по-стабилни резултати в рамките на класификатор на високо ниво е за предпочитане Мел-спектрограма, но MFCC трябва да е достатъчна, тъй като задачата е да се създаде относително проста двоична класификационна система (Huzaifah 2017).

Преди популяризирането на невронните мрежи, за да се създадат системи за откриване на аудио събития, времево-честотните представяния често се комбинираха с традиционни класификатори за машинно обучение, базирани на GMM, HMM и SVM модели. Съвсем наскоро дълбоките невронни мрежи се превърнаха в новото ниво на техниката поради способността им да приемат големи количества данни, което е значително предимство пред предишните класификатори. Използването на времево-честотни представяния в DNN може би следва успеха на обработката на изображения в тази област.

Подобно на изображенията, MFCC данните са двуизмерни, което от своя страна изисква 2D конволюционни слоеве. Пет конволюционни слоя също бяха използвани за този модел, както и партидна нормализация. След първоначалното наблюдение на прекомерното приспособяване, както е посочено от изключително ниския изход на функцията за загуба, беше включен отпадащ слой след последния напълно свързан слой.

След допълнително експериментиране с няколко форми на архитектурата беше установено, че мрежа с 5 конволюционни слоя дава най-добър резултат, постигайки степен на точност от 62% (25/41), което е малко по-добро от случайността. Обучението се проведе значително по-бързо от необработената аудио форма на вълната, като 30 епохи отнемат ~15 минути.

F u s i o n

Подходът за късен синтез разглежда комбинирането на двата модела чрез създаване на мрежа от ансамбъл, която оптимизира резултатите от двата предварително обучени модела. Параметрите на обучените модели се съхраняват в отделни файлове и впоследствие се зареждат в модула на ансамбъла, който е дефиниран в отделен файл за синтез. При обучението на тази нова синтезирана мрежа, последният линеен слой на всеки предварително обучен модел се отстранява и се свързва един с друг, а полученият тензор преминава през краен линеен слой и нелинейна функция за активиране, като всички предварително обучени параметри остават незасегнати от нашето обучение .

Въпреки че нашите индивидуални резултати показват, че необработеният модел превъзхожда модела MFCC с известна разлика, може да се окаже, че последният модел е по-добър при класифицирането на някои конкретни звуци от първия, какъвто е случаят в документите за разделяне, напр. Salomon 2017. Нашият термоядрен модел беше сравнително бърз за обучение (30 епохи ~ 10 минути) и даде 97% процент на точност в набора за тестване.

Като се има предвид, че възможността за подобрение на първия модел е малка, резултатът от този резултат не би трябвало да е изненада. Ако резултатите и за двата модела бяха ниски, тогава би било по-интересно да се оцени производителността, тъй като има повече място за подобряване на модела на синтез и на двата модела. Задачата за класифициране с множество етикети може би може да е от полза за повече сливане, тъй като всяка отделна мрежова производителност може да бъде измерена в редица класове.

C o n c l u d i n g N o t e s

Въпреки че беше използван набор от тестове за сравняване на производителността на всеки модел, той беше съставен от сравнително малък набор от данни и затова трябва набързо да сравним нашите резултати и да внимаваме да създаваме силни заключения въз основа на тези констатации. Този документ обаче трябва да насърчи допълнително изследванията и да преосмисли как работи необработеният звук в дълбоките невронни мрежи. Използването на проста необработена форма на вълната в невронни мрежи може да позволи естественото извличане на характеристики, заедно с класификацията. Мрежата може да извлече някакво представяне на характеристики, като собствена версия на мелспектрограма, в своите слоеве и да коригира параметрите си (например брой честотни ленти) по контролиран начин, за да оптимизира класификацията. Позволявайки процеса на „инженеринг на функции“ да бъде решен от самата мрежа, има потенциал мрежата да оптимизира използването на цялата информация, съдържаща се в необработеното аудио.

R e f e r e n c e s

С. Йофе и К. Сегеди,

„Пакетна нормализация: Ускоряване на задълбочено мрежово обучение чрез намаляване на вътрешното ковариантно изместване“, arXiv

предпечат arXiv:1502.03167, 2015 г

Н. Шривастава, Г. Е. Хинтън, А. Крижевски, И. Суцкевер и Р. Салахутдинов,

„Отпадане: лесен начин за предотвратяване на прекомерното приспособяване на невронните мрежи“

Journal of Machine Learning Research, том. 15, бр. 1, с. 1929–1958, 2014.

Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, R.

Чанинг Мур

„Архитектури на Cnn за широкомащабна класификация“

https://arxiv.org/pdf/1609.09430.pdf, 2017 г.

Wei Dai*, Chia Dai*, Shuhui Qu, Juncheng Li, Samarjit Das

„Много дълбоки конволюционни невронни мрежи за необработена вълнова форма“

https://arxiv.org/pdf/1610.00087.pdf 2016 г.

Мохамед Хузайфа

„Сравнение на времево-честотни представяния за използване на класификация на звука в околната среда

Конволюционни невронни мрежи”

https://arxiv.org/pdf/1706.07156.pdf 2017 г.