Вы слышали выражение «не считай цыплят, пока они не вылупились»? Что ж, теперь вам не нужно использовать линейную регрессию. Из этого введения вы узнаете больше о линейной регрессии и о том, как объяснить ее просто своему ребенку или просто для собственного обучения.

Итак, вы хотите знать, сколько цыплят или, вернее, яиц вы собираетесь получить за определенное время? Ну, линейная регрессия здесь, чтобы спасти положение!

В этом упражнении мы будем использовать так называемую простую линейную регрессию. Не беспокойтесь слишком о простой части, это относится только к одному определяющему фактору, то есть к количеству цыплят, а не к более чем одной.

Какое отношение куры имеют к линейной регрессии?

На самом деле не так уж много, они предпочитают исследовательский анализ данных (они ковыряются, пока не найдут что-то интересное).

Помимо шуток, вы можете многое сделать с данными, полученными от цыплят, которые могут помочь вам узнать о линейной регрессии.

Основные моменты о цыплятах:

  • Они откладывают яйца
  • Мы можем считать яйца
  • Многие породы кур несут по одному яйцу в день.
  • Традиционные породы не могут нестись круглый год.

Итак, как вы видите, есть некоторые особенности цыплят, которые означают, что соотношение количества яиц в день на одну курицу не всегда будет 1 к 1.

Курица может быть петухом (не может нести яйца), может линять (не всегда будет нести яйца), может перестать нестись (например, зимой) или может начать насиживаться (детеныши могут быть уже в пути!) Все эти факторы могут уменьшить количество яиц, которые несет стадо кур в данный день, месяц или год.

Что такое линейная регрессия?

Курица и яйцо — это всего лишь один пример линейной зависимости. Другие включают:

  • Покупка фруктов — Цена за единицу может снизиться при покупке оптом
  • Расход топлива во время движения (топливо снижается во время движения)
  • Сколько желейных бобов в банке, учитывая ее вес

Вернемся к примеру с курицей и яйцом. На следующем изображении показана выдуманная история о курице и яйце, в которой, когда мы увеличиваем количество цыплят, мы также получаем больше яиц. Заметили, что от 100 кур мы получаем не ровно 100 яиц? Это восходит к факторам, которые мы упоминали в начале, где у нас могут быть петухи, или некоторые куры могут не нестись по разным причинам.

«Конечно, мы бы знали, сколько у нас кур и сколько из них петухов?» Я слышу, как ты спрашиваешь. Верно, но представьте себе бизнес, в котором есть 100, 1000 или даже 10000 цыплят. Они могут захотеть увидеть, сколько яиц они получают от одной курицы, и моментальный снимок производства, как показано выше, поможет им в этом.

Еще одним полезным графиком может быть временной ряд, показывающий количество отложенных яиц за день, неделю, месяц или год.

На графике выше вы можете увидеть небольшое увеличение и уменьшение количества яиц, откладываемых в день, даже в течение месяца. Красная линия, проходящая через середину, называется линией регрессии и представляет собой среднее значение отображаемых данных. Каждая линия регрессии представлена ​​математически с помощью линейного уравнения в виде:

y = mx + c

где y — прогнозируемое значение (яйца), m — наклон линии, x — определитель (дни) и c — точка пересечения y (где линия регрессии пересекает ось y).

Из интереса уравнение линии для данных, которые у нас есть:

daily egg  production = 6.87 x day + 9.24

Таким образом, на 5-й день мы можем ожидать приблизительно 43–44 яйца от наших 10 цыплят, что не так уж и плохо, поскольку 50 были бы максимальными, если бы все они несли по одному яйцу в день.

Итак, у нас есть уравнение! Но надежно ли это уравнение?

Не каждый имеющийся набор данных будет таким же «аккуратным», как тот, который я сгенерировал. Я намеренно сделал так, чтобы значения росли с каждым днем ​​и в данных не было выбросов, которые могли бы повлиять на нашу модель.

Один из способов увидеть, подходит ли линия для данных, — это то, что называется значением R-квадрата или коэффициентом детерминации. Короче говоря, это говорит вам, насколько хорошо значение y предсказывается значением x, и, следовательно, является мерой корреляции.

Например, значение R-квадрата для нашей модели яйцекладки составляет 0,9996, что очень близко к 1! Это означает, что количество производимых яиц почти полностью определяется количеством прошедших дней.

А теперь представьте, что в течение короткого периода времени куры не несут яйца, а на ферме происходит что-то странное. Как это может выглядеть?

А теперь подумайте о том, что может происходить с цыплятами на этой ферме. Есть большая вероятность, что в этом случае у нас может быть проблема с ведением записей, и кто-то выдумывает данные… может быть, это куры. Я подозреваю охотничью игру!!

Мы провели некоторую проверку, и похоже, что автор может проявить творческий подход к данным. Правильно, это был я! И я бы сделал это снова во имя образования!

Итак, вернемся к делу. Значение R-квадрата для изворотливого участка составляет низкое значение 0,2905, что означает, что, хотя количество дней оказывает некоторое влияние на количество откладываемых яиц, это далеко не единственный фактор.

Итак, что это значит?

Это означает, что вы всегда должны проверять, действительно ли данные перед вами являются законными, но более того, важно понимать, что существует очень мало, если таковые вообще имеются, реальных наборов данных, которые полностью свободны от ошибок.

Другой важный вывод здесь заключается в том, что линейную регрессию можно использовать в различных областях, чтобы получить представление о том, как все работает, и сделать полезные прогнозы на будущее.

Если вам нужны удивительные примеры взаимосвязей с высокой степенью корреляции, которые не имеют смысла, посмотрите Ложные корреляции! Это отличный ресурс для объяснения того, почему корреляция не всегда = причинно-следственной связи. Но это тема для другого поста!

Надеюсь, вы получили некоторое представление о линейной регрессии и о том, как ее можно использовать. Я определенно получил удовольствие, написав это!

Этот пост был написан, чтобы дать представление о линейной регрессии родителям/опекунам и учителям, которым нужен простой для восприятия и понятный контент. Я надеюсь, что с информацией, которую я предоставил, вы будете чувствовать себя уверенно, передавая эти знания.

Для получения дополнительных ресурсов по обучению ваших детей компьютерному программированию и науке о данных, взгляните на некоторые из моих предыдущих сообщений, перечисленных ниже:







Если вам понравилась эта статья, свяжитесь со мной через LinkedIn или Twitter.