Логарифмическая функция правдоподобия для GDA (гауссовский дискриминационный анализ)

У меня возникли проблемы с пониманием функции правдоподобия для GDA, приведенной в примечаниях Эндрю Нг CS229.

l(φ,µ0,µ1,Σ) = log (произведение i на m) {p(x(i)|y(i);µ0,µ1,Σ)p(y(i);φ)}

Ссылка: http://cs229.stanford.edu/notes/cs229-notes2.pdf Страница 5.

Для линейной регрессии функция была произведением от i до m p(y(i)|x(i);theta), что имело для меня смысл. Почему здесь есть изменение, говорящее, что оно определяется как p(x(i)|y(i) и умножается на p(y(i);phi)? Заранее спасибо


person Sridhar Thiagarajan    schedule 06.09.2015    source источник


Ответы (1)


Исходная формула на странице 5:

l(φ,µ0,µ1,Σ) = log <product from i to m> p(x_i, y_i;µ0,µ1,Σ,φ)

опустив пока параметры φ,µ0,µ1,Σ, которые можно упростить до

l = log <product> p(x_i, y_i)

используя цепное правило, вы можете преобразовать это либо в

l = log <product> p(x_i|y_i)p(y_i)

or

l = log <product> p(y_i|x_i)p(x_i).

В формуле на странице 5 φ перемещается в p(y_i), потому что от него зависит только p(y).

Вероятность начинается с совместного распределения вероятностей p(x,y) вместо условного распределения вероятностей p(y|x), поэтому GDA называется генеративной моделью (модели от x до y и от y до x), а логистическая регрессия считается дискриминационной моделью (модели от от х до у, в одну сторону). Оба имеют свои преимущества и недостатки. Там, кажется, есть глава об этом ниже.

person aleju    schedule 06.09.2015
comment
Привет... учитывая набор для обучения со значениями x (вектор может быть) и y (0 или 1).. что означает p (x_i, y_i), то есть совместная функция плотности вероятности, указывает... то есть ее значение. В дискриминационной модели я понял что для того, чтобы максимизировать вероятность тета.. мы максимизировали произведение от i до m p(y_i,x_i).. в этом случае вероятность для параметров mu, phi и sigma. Что здесь показывает совместная PDF.. - person Sridhar Thiagarajan; 07.09.2015
comment
совместное распределение вероятностей моделирует совместное распределение по двум (или более) случайным переменным. Например. если вы знаете P(X,Y), вы можете оценить p(X=1, Y=0), p(X=15, Y=1), p(X=‹любое значение›, Y=1) = p( Y=1), p(X=1, Y=‹любое значение›), ... а в условном распределении P(Y|X) вы ничего не знаете о распределении X. Как будто кто-то передает вы случайные значения X, и все, что вы можете сделать, это указать значение Y для них, то есть вы не можете вернуться от y к x. - person aleju; 07.09.2015