Въведение
Приложихме NLP към сомелиерското описание за всяко вино в част 5.
Сега можем да разберем честотата на думите за вино, за грозде и във всички описания. Тук ще визуализираме честотата на думите.
Набор от данни
Ще използваме winemag-data-130k-v2.csvнабор от данни за машинно обучение.
Програмен код
Задача
- Честота на думите за вино
- Честота на думите за грозде
- Честота на думите
wordcloud
Модулът wordcloud ни позволява да визуализираме честотата на думите и тежестта на думите. Тук импортираме модула.
import wordcloud as wc
Честота на думите за вино
Тук създаваме функция, която използва wordcloud, за да генерира честота на думите като изображение и след това да покаже изображението. Също така избираме вино на случаен принцип, за да видим честотата на думите.
Съответното описание.
tart snappy lime flesh rind dominate green pineapple pokes crisp acidity underscoring stainless steel fermented
Честота на думите за грозде
Подобно на горното, но първо трябва да групираме по сорт (грозде).
Групирайте по сорт и след това свързваме всички описания за сорта. Накрая създаваме нова DataFrame.
След това го визуализираме.
Съответното описание.
comprised rare variety given time ferment age french oak half new ashy red fruit meets mild structure considerable tannic grip tiny amount made abouriou grape found almost exclusively southwest france produces balances acidity juicy red fruits herbal edge light layer tannin structured aftertaste despite proximity bordeaux marmandais managed retain abouriou grape variety part conservatory obscure grape varieties producer made fine fruity smoky attractive tannins swathes juicy black fruits fine
Честота на думите
За да разберем честотата на думите във всички описания, можем да свържем всички описания и след това да използваме wordcloud, за да ги визуализираме.
Заключение
С wordcloud можем лесно да визуализираме честотата на думите. Освен това можем да използваме този метод с НЛП, за да разберем дали една дума се появява често, а не ключовата дума, използвана за описване на вино и сорт.
Ако има думи, които изглеждат като стоп думи и се появяват често, тогава можем да ги добавим към стоп думи в НЛП, така че думата да бъде филтрирана, докато НЛП анализира описанията.
Най-накрая завършихме проучвателния анализ на данните.
След това ще подготвим и предварително обработим данни за обучение на нашия модел.