Свързани публикации 'feature-engineering'


Сливане на функции за непосветените
Помислете за типичен продукт за електронна търговия. Той ще има разнообразие от специфични за съдържанието функции, като заглавие на продукта, марка, миниизображение и т.н., и други функции, насочени към ангажираност, като брой кликвания, честота на кликване и т.н. Всеки модел на машинно обучение, поглъщащ функции на този продукт (напр. класиране на продукта, модел на препоръки и т.н. ) ще трябва да се справят с проблема за сливането на тези отделни характеристики. Най-общо казано..

Титаник — Почистване на данни и проектиране на функции
Наборът от данни на Титаник е един от най-добрите набори от данни за практикуване на почистване на данни и инженеринг на функции. Това е прост набор от данни с много богата история. Процесът на почистване на данни е много важен и един от най-трудоемките в анализа на данни. Този набор от данни първоначално е получен от състезанието Kaggle („Титаник — Машинно обучение от бедствие“). Тук ще демонстрирам някои техники за почистване на набора от данни на Титаник и ще извърша инженеринг на..

Кодиране на етикета| Машинно обучение | Инженеринг на характеристиките
Какво е кодиране на етикети? Кодирането на етикети се отнася до преобразуването на колоните в числови стойности. Имайки предвид, че в набор от данни има много повече колони, но за да разберем, ще се съсредоточим само върху една колона. Например: тук посочете в категорична колона, за да разберем алгоритъма за машинно обучение, ще направим кодиране на етикети, за да го преобразуваме в числова стойност. Така че за неговото прилагане всичко, което трябва да направим е:..

Мащабиране на вашите функции
Мащабирането е важен процес на инженеринг на функции. С помощта на мащабиране се опитваме да приведем данните си в същия диапазон. Някои видове методи за мащабиране са: · Минимално-максимална скала : (диапазон от 0 до 1) X = (X-min от X) / Диапазон · Стандартизация : (Диапазон -3 и 3) Z = (X-средно на X)/ (Стандартно отклонение на X) · Десетично мащабиране (диапазон от -1 до 1) X = X /(10^d) d = Брой цифри тоест за стойност да речем 4997, d= 4 следователно X/ (10⁴)..

Изследване на инженерните характеристики
Въведение Как да проектирате вашите данни по-добре — е една от основните грижи в инженерството на функциите. Освен обработката на данни като вписване на липсващата стойност, сливане и т.н., генерирането на нови колони и трансформирането на съществуващи колони в контролираното обучение е важно за разграничаване на етикетите с пълни картини на данните и намаляване на несъществения шум. Ако данните са объркани и напълно не могат да ви кажат какви са основните разлики между етикетите..

Обучаване на компютрите как да виждат
Badi, като водещ пазар за наемане на стаи, по своята същност е пълен с медийно съдържание. Ние наистина го мислим, потребителите са качили милиони снимки, откакто стартирахме преди три години. Ако имате свободна стая, ще качите много снимки на вашия страхотен апартамент, които го правят да се откроява. Освен това ще искате бъдещите ви съквартиранти да знаят как сте и в профила си ще включите добре изглеждащо селфи, но ако сте любител на домашни любимци, можете също да добавите снимка..

Kaggle Titanic Challenge: Създайте нови функции, като използвате извлечени данни
По-добри данни, по-добър модел! Преглед Здравейте, хора, В предишния раздел на EDA , разгледахме разпределението на различни функции. И връзката им с етикета за прогнози, Оцелели , както и помежду си. Забелязахме, че някои от функциите като Име съдържат допълнителна информация за заглавието на пътника, което може да бъде полезно за нашия модел. В този раздел, ще извлечем полезни подробности от различни функции и ще създадем нови функции. Да започваме! Можете да намерите..