Wine Review PT6— EDA

Въведение

Приложихме NLP към сомелиерското описание за всяко вино в част 5.

Сега можем да разберем честотата на думите за вино, за грозде и във всички описания. Тук ще визуализираме честотата на думите.

Набор от данни

Kaggle

Ще използваме winemag-data-130k-v2.csvнабор от данни за машинно обучение.

Програмен код

Код в google colab

Задача

Честота на думите за вино
Честота на думите за грозде
Честота на думите

wordcloud

Модулът wordcloud ни позволява да визуализираме честотата на думите и тежестта на думите. Тук импортираме модула.

import wordcloud as wc

Честота на думите за вино

Тук създаваме функция, която използва wordcloud, за да генерира честота на думите като изображение и след това да покаже изображението. Също така избираме вино на случаен принцип, за да видим честотата на думите.

Съответното описание.

tart snappy lime flesh rind dominate green pineapple pokes crisp acidity underscoring stainless steel fermented

Честота на думите за грозде

Подобно на горното, но първо трябва да групираме по сорт (грозде).

Групирайте по сорт и след това свързваме всички описания за сорта. Накрая създаваме нова DataFrame.

След това го визуализираме.

Съответното описание.

comprised rare variety given time ferment age french oak half new ashy red fruit meets mild structure considerable tannic grip tiny amount made abouriou grape found almost exclusively southwest france produces balances acidity juicy red fruits herbal edge light layer tannin structured aftertaste despite proximity bordeaux marmandais managed retain abouriou grape variety part conservatory obscure grape varieties producer made fine fruity smoky attractive tannins swathes juicy black fruits fine

Честота на думите

За да разберем честотата на думите във всички описания, можем да свържем всички описания и след това да използваме wordcloud, за да ги визуализираме.

Заключение

С wordcloud можем лесно да визуализираме честотата на думите. Освен това можем да използваме този метод с НЛП, за да разберем дали една дума се появява често, а не ключовата дума, използвана за описване на вино и сорт.

Ако има думи, които изглеждат като стоп думи и се появяват често, тогава можем да ги добавим към стоп думи в НЛП, така че думата да бъде филтрирана, докато НЛП анализира описанията.

Най-накрая завършихме проучвателния анализ на данните.

След това ще подготвим и предварително обработим данни за обучение на нашия модел.

Част 7

Wine Review PT6— EDA — ML