Чували ли сте израза не бройте пилетата си преди да са се излюпили? Е, сега не е нужно с линейната регресия. С това въведение можете да научите повече за линейната регресия и как да я обясните просто на детето си или просто за собствено обучение.

Така че искате да знаете колко пилета, или по-скоро яйца, ще получите за определено време? Е, линейната регресия е тук, за да спаси положението!

За това упражнение ще използваме това, което се нарича проста линейна регресия. Не се притеснявайте много за простата част, тя се отнася само до наличието само на един определящ фактор, т.е. броя на пилетата, а не на повече от едно.

Какво общо имат пилетата с линейната регресия?

Всъщност не много, те всъщност предпочитат проучвателен анализ на данни (те кълват наоколо, докато намерят нещо интересно).

Шегата настрана, има много неща, които можете да направите с данни, получени от пилета, които могат да ви помогнат да научите за линейната регресия.

Основни моменти за пилетата:

  • Снасят яйца
  • Можем да броим яйца
  • Много породи кокошки снасят по едно яйце на ден
  • Наследствените породи може да не снасят целогодишно

Така че, както можете да видите, има някои неща за пилетата, които означават, че съотношението на яйца на ден за пиле не винаги ще бъде 1 към 1.

Пилето може да е петел (не може да снася яйца), може да преминава през линеене (не винаги снася яйца), може да спре да снася (напр. през зимата) или може да започне да мърти (бебетата може да са на път!) Всички тези фактори могат да намалят броя на яйцата, които едно стадо пилета ще произведе в даден ден, месец или година.

Какво е линейна регресия?

Кокошката и яйцето са само един пример за линейна връзка. Други включват:

  • Закупуване на плодове — Цената може да падне за единица, когато купувате на едро
  • Разход на гориво по време на шофиране (горивото намалява, докато шофирате)
  • Колко желирани зърна в буркан, като се има предвид теглото му

Да се ​​върнем към примера с пилето и яйцето. Следващото изображение показва измислена история за пиле и яйце, където, когато увеличаваме броя на пилетата, получаваме и повече яйца. Забелязвате, че не получаваме точно 100 яйца от 100 пилета? Това се връща към факторите, които споменахме в началото, където може да имаме петли или някои пилета може да не снасят поради различни причини.

„Със сигурност ще знаем колко пилета имаме и колко от тях са петли?“ Чувам те да питаш. Вярно е, но представете си бизнес, който има 100, 1000 или дори 10 000 пилета. Те може да искат да видят колко яйца получават на пиле и моментна снимка на производството, както се вижда по-горе, ще им помогне да направят това.

Друг полезен график би бил времеви ред, показващ снесени яйца за ден, седмица, месец или година.

В диаграмата по-горе можете да видите малко нагоре и надолу в количеството яйца, снасяни на ден дори за един месец. Червената линия, минаваща през средата, се нарича линия на регресия и е средната стойност на данните, които се показват. Всяка регресионна линия е представена математически с помощта на линейно уравнение под формата на:

y = mx + c

където y е предвидената стойност (яйца), m е наклонът на линията, x е детерминантата (дни) и c е y-пресечната точка (където регресионната линия пресича оста y).

От интерес, уравнението на линията за данните, които имаме, е:

daily egg  production = 6.87 x day + 9.24

Така че на ден 5 можем да очакваме приблизително 43–44 яйца от нашите 10 пилета, което не е лошо, тъй като 50 биха били максимумът, ако всички те снасяха по едно яйце на ден.

Така че имаме уравнение! Но надеждно ли е уравнението?

Не всеки набор от данни, който е там, ще бъде толкова „чист“ като този, който генерирах. Умишлено направих така, че стойностите да се покачват с всеки ден и да няма отклонения в данните, които биха могли да повлияят на нашия модел.

Един от начините да се види дали линията е подходяща за данните е нещо, наречено R-квадратна стойност или коефициент на определяне. Накратко, това ви казва колко добре стойността на y се предвижда от стойността на x и следователно е мярка за корелация.

Например стойността на R-квадрат за нашия модел на снасяне на яйца е 0,9996, което е много близо до 1! Това означава, че броят на произвежданите яйца се определя почти изцяло от броя на дните, които са настъпили.

Сега си представете, че за кратък период от време няма пилета, които снасят яйца и във фермата се случват някакви странни неща. Как би могло да изглежда това?

Сега отделете малко време да помислите какво може да се случи с пилетата в тази ферма. Има голяма вероятност в този случай да имаме проблем с воденето на записи и някой да измисля данните... може би това са пилетата. Подозирам кокоша игра!!

Направихме някои проверки и изглежда, че авторът може да е креативен с данните. Точно така, бях аз! И пак бих го направил в името на образованието!

И така, обратно към въпроса. Стойността на R-квадрат за изкривената графика е ниско 0,2905, което означава, че въпреки че броят на дните има известно влияние върху броя на снесените яйца, той далеч не е единственият фактор.

И така, какво означава това?

Това означава, че винаги трябва да проверявате дали данните пред вас действително са легитимни, но още повече, че е важно да разберете, че има много малко, ако има такива, данни от реалния свят, които са напълно без грешки.

Другият основен извод тук е, че линейната регресия може да се използва в различни области, за да даде представа как работят нещата и да направи полезни прогнози за бъдещето.

Ако искате някои невероятни примери за силно корелирани връзки, които нямат смисъл, вижте „Фалшиви корелации“! Това е чудесен ресурс за обяснение защо корелацията не винаги е = причинно-следствена връзка. Но това е тема за друг пост!

Надявам се, че сте придобили известна оценка за линейната регресия и как може да се използва. Определено се забавлявах да го напиша!

Тази публикация е написана, за да предостави въведение в линейната регресия за родители/болногледачи и учители, които търсят лесно за следване и разбиране съдържание. Надявам се, че с информацията, която предоставих, ще се почувствате уверени, предавайки това знание.

За повече ресурси относно обучението на вашите деца по компютърно програмиране и наука за данни, разгледайте някои от предишните ми публикации, изброени по-долу:







Ако ви е харесала тази статия, моля, свържете се с мен чрез LinkedIn или Twitter.