Подход за машинно обучение към смеха

От Disa Sauter, Roza Kamiloğlu и Rui Sun

Помислете за последния път, когато се смяхте. Как беше? Какво ви разсмя? Как звучеше смехът ти? Повечето от нас се смеят десетки пъти всеки ден, но не всеки смях е еднакъв; някои са заразителен смях, други са дълбок смях на корема, а трети са надуто кикотене или учтив кикот.

В този проект искахме да разберем дали има различни видове смях: смеховете, които са предизвикани от различни видове събития (напр. гъделичкане, шеги) системно различни ли са в своята акустична структура? Има известно обсъждане на този въпрос в научната литература, тъй като смехът е еволюционно древно поведение, което се произвежда по време на игра при много видове нечовешки животни. В същото време смехът е социално сложно поведение, което се среща в много ситуации, които са специфични за хората, като словесни шеги. Вариации на едно и също нещо ли са тези смехи или всъщност са фундаментално различни видове поведение?

Предишни опити за създаване на таксономии на смеха се основаваха на интуицията на изследователите за това кои разграничения са значими. В този проект искахме да използваме нов подход за най-добро разбиране на смеха с подход отдолу нагоре. Благодарение на безвъзмездната помощ от поканата за малки инициативи на eScience Center, успяхме да използваме машинно обучение, за да отговорим на въпроса как да разбираме смеха. Изчислителните методи са сравнително нови в социалните науки и особено в изследванията на социални сигнали като лицеви и гласови изражения. Въпреки това смехът е идеална област за използване на машинно обучение. Този подход може да позволи откриването на систематичност в многоизмерни данни, като например стотици различни акустични характеристики, измерени от клипове със смях.

Първото ни предизвикателство беше създаването на достатъчно голям корпус от клипове за смях в реалния свят. Прегледахме хиляди видеоклипове в YouTube, за да съберем клипове със смях, които биха били достатъчно чисти, за да бъдат анализирани акустично. Видеоклиповете също трябваше да са достатъчно ясни, за да можем да преценим контекста: дали смеещият се човек гледаше забавно видео с котка, кикотеше ли се, виждайки как някой пада, или го гъделичкаха или чуваха шега? След анализ на повече от 800 видеоклипа, четири различни вида провокатори на смях могат да бъдат разграничени от ситуациите, в които хората се смеят: гъделичкане, словесни шеги, чуждо нещастие и гледане на нещо смешно. Но дали смехът в тези ситуации беше различен или всеки беше просто идиосинкратична версия на едно и също поведение? За да разберем, измерихме десетки акустични характеристики от всеки клип със смях.

Ние визуализирахме тези високомерни данни, използвайки статистически метод, известен като t-разпределено стохастично съседно вграждане (t-SNE), което присвоява двуизмерна и по този начин визуализируема позиция на всяка точка от данни. Този метод изглежда показва, че гъделичкащият смях е съвсем ясно различен от смеха, произведен в другите три типа ситуации: най-значимото разграничение е гъделичкащият смях спрямо останалите. След това използвахме контролирани методи за машинно обучение (като случайни анализи на гори), за да тестваме степента, в която акустичните модели биха били предсказващи поведенческите контексти, в които се е случил смехът. Всъщност използвахме няколко библиотеки за машинно обучение за оценка на прогнозни разпределения.

Нашите ментори в eScience Center (Patrick Bos, Florian Huber и Jisk Attema) ни предоставиха практически насоки за използването на такива библиотеки, което предостави безценна възможност за обучение. Например научихме как качеството на данните (т.е. размер на извадката, неравномерно разпределение на определени характеристики) може да повлияе на резултатите от машинното обучение, което доведе до отделяне на време за оценка и обхват на данните с щателна интеграция на данни и изследване на данни. Те също помогнаха на нашето концептуално разбиране: какво всъщност могат да ни кажат резултатите? Нашите резултати от машинното обучение потвърдиха количествено това, което t-SNE показа качествено: гъделичкащият смях беше акустично различен от другите три типа, докато смехът, произведен в реакция на вербални шеги, чуждо нещастие и гледане на нещо смешно, не се различаваха систематично един от друг . Експеримент с човешки участници също потвърди, че гъделичкащият смях е перцептивно различен от другите видове; слушателите можеха да разберат със забележителна точност дали е предизвикан смях от човек, който е бил гъделичкан или не. Нашите резултати имаха много смисъл: гъделичкането е поведение при игра, което е еволюционно древно и се споделя с други животни, докато всички други видове ситуации са много по-когнитивно изискващи и вероятно уникални за хората.

Извличането на важността на характеристиките ни каза кои акустични характеристики са най-различни, насочвайки ни към възможността, че гъделичкащият смях е по-малко контролиран от другите видове смях. За да разберем наистина какво отличава смеха, произведен в гъделичкащи контексти, от други ситуации, ние допълнихме изчислителните анализи с човешки перцептивни преценки. Проведохме нова задача за слушане, в която наивните участници (които не знаеха за контекста, в който се произвежда смехът) бяха помолени да преценят степента, в която смехът звучеше контролирано, енергично и т.н. Резултатите показват, че смехът, произведен по време на гъделичкане, се оценява като звучащ така, сякаш смеещият се човек не контролира действията си, в състояние на силна възбуда и в ситуация, включваща физически контакт с познат друг.

Междувременно анализирахме и визуалното съдържание на видеоклиповете, за да видим дали видовете ситуации, които сме заключили качествено, ще бъдат различими чрез количествен анализ на това, което всъщност е във видеоклиповете. Може би словесните шеги биха включвали повече разговори, а видеоклиповете, включващи някой, който се смее на нещастието на друг, биха включвали повече хора, които се подхлъзват? За да тестваме това, пуснахме видеоклиповете през API на Google Video Intelligence, който избира категории обекти и събития. Например, този анализ разкри, че видеоклиповете с гъделичкащ смях включват много части на тялото, докато хората, които се смеят, когато гледат нещо смешно, често включват екрани и животни. Анализите на машинното обучение показаха, че четирите типа ситуации могат да бъдат добре разграничени само от визуалната контекстуална информация във видеоклиповете, демонстрирайки, че разграниченията, които сме направили, наистина са смислени, въпреки че някои от разликите в контекста не се превръщат в акустично различни видове смях.

И ето го! Обзалагаме се, че след този блог и нашите анализи ще се замислите два пъти за смеха си. Какво те кара да се кикотиш? Какво кара корема ти да се смее? Вероятно също се чудите какво следва?

Следващата стъпка за този проект ще бъде обвързването на различните направления заедно в ръкопис, придружен от интерактивни онлайн илюстрации, които ще бъдат изпратени за публикуване в рецензирано списание. Консултацията с нашите отлични ментори в eScience Center предостави вдъхновяваща обстановка за обсъждане на нашите идеи в конструктивна и забавна атмосфера. Насоките, които получихме, ще бъдат полезни не само за този проект, но и за нашите бъдещи изследвания.

Д-р. Disa Sauter доцент в катедрата по психология на университета в Амстердам. Тя изучава емоциите, като се фокусира върху невербалните изрази с особен интерес към положителните емоции.

Роза Камилоглуе докторант по психология в Амстердамския университет. Нейните научни интереси включват невербални изрази, емоции и изчислително моделиране.

Д-р. Rui Sun е гост-изследовател в Департамента по психология на Амстердамския университет. Тя се интересува от положителни емоции, благополучие и изследвания в социалните медии.

Подход за машинно обучение към смеха

Подобни въпроси