Така че целта на тази проста статия е да обясни концепциятана простото изчислениеза да разбере как работи градиентното спускане.

КОНЦЕПЦИЯ

Да кажем, че в моя офис са ми необходими 10 секунди (време), за да измина 25 метра (разстояние) до този сладък колега и така една концепция е представена като графиката По-долу:

Ако искаме да изразим горната ситуация като функция, тогава ще бъде:

разстояние = скорост * време

чиято скорост е 1 метър в секунда.

Така че за този случай скоросттае първата производна на функцията за разстояние по-горе.

Тъй като скоросттаописва степента на промяна на разстояниетос течение на времето. Когато хората казват вземане на първата производна на определена функция. Това означава намиране на скоростта на промянана функция.

Продължете с примера, оказа се, че не вървях с постоянна скорост към колегата си, но ускорих (скоростта ми се увеличи с времето):

Все пак ми отне 10 секунди да пътувам от мястото си до мястото на колегата, но вървях все по-бързо и по-бързо:

скорост = ускорение * време

Така че първата производна на функцията за скорост е ускорението:

Сега ще разберете, че функцията за скорост е тясно свързана с функцията за разстояние, нали? Всъщност втората производна на функцията за разстояние е ускорението, което се означава с:

ЗАЩО ТОВА Е ПОЛЕЗНО?

Особено защо това е полезно за разбирането на машинното обучение?

Нека използваме друг пример, функцията по-долу обозначава цената за единица функция за създаване на iWatch:

Ако погледнете функцията по-горе, ще видите, че докато произвеждате повече единици, разходите за единица продължават да намаляват до момент, в който започват да се увеличават.

Ако искам да оптимизирам производствените разходи за единица при техния минималенза да оптимизирам ефективността, това ще изисква от мен да намеря степента на промяна на нула >когато производствените разходи за единица започват да се променят от намаляващи към нарастващи. За това ще трябва да взема първата производна на функцията за цена на единица, за да получа:

Така че сега, ако използвате, за да получите първата производна и я направите равна на нулаи решите уравнението, можете да получите оптималното количество/единица за произвеждат.

В заключение, Calculus ви позволява да намерите скоростта на промените, за да оптимизирате дадена функция.

Въпреки че изглежда много просто с този пример и дори с човешкото око, можете да видите, че оптималната единица е около 45. Но в реалния живот функцията за цена на единица е много сложна и не се определя само от това колко единици, но може би се влияе и от цените на петрола, броя на наличните работници и т.н. Това ще направи функцията многоизмерна и изключително сложна, което в тези сценарии изчислението ще бъде ключът към оптимизирането функции!

НАЗАД КЪМ МАШИННОТО ОБУЧЕНИЕ

В много ситуации в машинното обучение функцията на разходите/функцията на загубата по отношение на параметрите на модела също са многоизмерни, поради което винаги се обръщаме към смятане, за да оптимизираме параметрите на нашия модел.

За да научите повече за Machine Learning/Deep Learning, можете също да погледнете последната ми статия.