Итак, цель этой простой статьи — объяснить концепцию простого исчисления, чтобы понять, как работает градиентный спуск.

КОНЦЕПЦИЯ

Допустим, в моем офисе мне требуется 10 секунд (время), чтобы проехать 25 метров (расстояние) до этого симпатичного коллеги, и вот как понятие представлено в виде графика ниже:

Если мы хотим выразить описанную выше ситуацию в виде функции, то это будет:

расстояние = скорость * время

скорость которого составляет 1 метр в секунду.

Таким образом, в данном случае скорость – это первая производная от функции расстояния, описанной выше.

Поскольку скорость описывает скорость изменения расстояния за время. Когда люди говорят, взяв первую производную определенной функции. Это означает определение скорости изменения функции.

Продолжим пример, оказалось, что я не шел с постоянной скоростью навстречу своему коллеге, а ускорялся (моя скорость увеличивалась со временем):

Мне по-прежнему требовалось 10 секунд, чтобы добраться от своего места до места моего коллеги, но я шел все быстрее и быстрее:

скорость = ускорение * время

Таким образом, первая производная функции скорости — это ускорение:

Теперь вы понимаете, что функция скорости тесно связана с функцией расстояния, верно? На самом деле, вторая производная функции расстояния — это ускорение, которое обозначается следующим образом:

ПОЧЕМУ ЭТО ПОЛЕЗНО?

Особенно, почему это полезно для понимания машинного обучения?

Возьмем другой пример. Функция ниже обозначает затраты на единицу продукции функцию для производства iWatch:

Если вы посмотрите на приведенную выше функцию, вы увидите, что по мере того, как вы производите больше единиц, затраты на единицу продукции продолжают уменьшаться до точки, в которой они начинают расти.

Если я хочу оптимизировать себестоимость единицы продукции на ее минимальном уровне для оптимизации эффективности, мне потребуется найти скорость изменения при нуле. >тогда, когда затраты на единицу продукции начинают меняться от уменьшения к увеличению. Для этого мне нужно взять первую производную от функции затрат на единицу продукции, чтобы получить:

Итак, теперь, если вы используете для получения первой производной и делаете ее равной нулю и решаете уравнение, вы можете получить оптимальное количество/единицу для производить.

Итак, исчисление позволяет найти скорость изменений для оптимизации функции.

Хотя на этом примере это выглядит очень просто и даже человеческим глазом, вы можете видеть, что оптимальной единицей является около 45. Но в реальной жизни функция удельных затрат очень сложна и определяется не только количеством единиц, но и возможно, на нее также влияют цены на нефть, количество доступных рабочих и т. д. Это сделает функцию многомерной и чрезвычайно сложной, что в этих сценариях расчет будет ключом к оптимизации функции!

ВЕРНУТЬСЯ К МАШИННОМУ ОБУЧЕНИЮ

Во многих ситуациях в машинном обучении функция стоимости/функция потерь по отношению к параметрам модели также является многомерной, поэтому мы всегда обращаемся к исчислению для оптимизации параметров нашей модели.

Чтобы узнать больше о машинном обучении/глубоком обучении, вы также можете ознакомиться с моей последней статьей.