Започвайки като идея на случайна среща на международни техници на покрива на кафене, първият от седмична поредица от безплатни образователни семинари, наречен Seoul Machine Learning Seminar, се проведе на 11 юни 2017 г. Семинарът ще бъде домакин на до 20 души в Bitcoin Center Korea, всяка неделя от 20:00 часа. Всички нива на експертиза са добре дошли да се присъединят. От членовете се иска само да проявят дължимата грижа при подготовката за събитие, като използват безплатните ресурси, към които има връзка в описанията на събитието. Потенциалните членове могат да се присъединят и да отговорят чрез групата за срещи.

На първо място, семинарът служи като форум за хора, които желаят да подобрят своите умения и разбиране на машинното обучение, чрез участие в кохорта от хора, които се срещат лице в лице и споделят общи цели, и чрез организиране или участие в проекти за машинно обучение. Имаме много разнообразна група, включително технологични предприемачи, интегриращи машинно обучение в бизнеса си, корпоративни софтуерни инженери, дигитални номади, базирани в Силиконовата долина, професори в Сеул, студенти и докторанти и технологични ентусиасти, които използват MOOC и отворен код, за да овладеят машинното обучение извън границите на физическите институции.

За да запазим усещането за приемственост и съгласуваност, докато напредваме от седмица на седмица, ние следваме серия от курсове Coursera's Machine Learning Specialization, като членовете се записват или одитират в курсовете индивидуално, за всеки случай и доброволно база. Всеки семинар започва с член, който представя резюме на седмичния материал на Coursera, включително прилагане на научените техники към данни извън стандартната курсова работа. След това останалата част от семинара се оставя на членовете да повдигнат въпроси и отговори, проблеми, нови проекти и нови идеи за текущи проекти. За седмица 1 външните данни, използвани за демонстриране на инструментите за изследване на данни, почистване и инженеринг на GraphLab, бяха получени от състезанието на Zillow на Kaggle. Запис на частта от презентацията можете да видите по-долу:

По същество направихме някои много основни почиствания на данни – промяна на типовете данни, както е подходящо, попълване на липсващи стойности, извличане на липсващи стойности от други функции, където е възможно, и проверка за очевидни корелации с помощта на GraphLab Canvas за бързо изграждане на точкови диаграми, лентови графики и кутия и -парцели с мустаци. В състезанието Zillow екипите трябва да предвидят грешката в регистрационния файл между ZEstimate, оценка на дома, предоставена от частния алгоритъм за машинно обучение на Zillow, и действителната продажна цена към датата на продажбата. Една хипотеза за прогнозиране на грешката в регистрационния файл е, че ако алгоритъмът на Zillow разполагаше с повече данни за дома, вероятно би могъл да предвиди стойността по-точно. И обратно, по-голямата величина на грешката ще бъде свързана с наличието на по-малко данни за дома (по-малко стойности на характеристиките). За да проверим тази хипотеза, създадохме две нови характеристики, едната е абсолютната стойност на грешката в регистрационния файл — за да изолираме големината — а другата е брой липсващи стойности в ключови характеристики, а именно характеристики, за които много домове имаха стойности, функции, които са имали различни стойности за 0 и липсват (т.е. 0 гаража спрямо липса на информация за гаражи), и неизлишни функции. Бележникът, който използвахме, може да бъде изтеглен тук и изисква данните от състезанието Kaggle на Zillow тук.

В допълнение към работата по проблема за прогнозиране на грешки на Zillow, ще има друг наличен проект за усъвършенстване на вашите умения за машинно обучение, представен в бъдещ семинар. Това ще бъде нов технологичен стартъп, задвижван от машинно обучение — предстоят допълнителни подробности. Елате, присъединете се към нас, независимо дали искате да се присъедините към съществуващ проект, да наемете персонал за вашия, да представите или просто да научите.