Wine Review PT6 — EDA

Введение

Мы применили НЛП к описанию сомелье каждого вина в 5 части.

Теперь мы можем узнать частотность слов для вина, для винограда и во всех описаниях. Здесь мы собираемся визуализировать частоту слов.

Набор данных

Kaggle

Мы будем использовать набор данных winemag-data-130k-v2.csv для машинного обучения.

Исходный код

Код в Google Colab

Задача

Частота слов для вина
Частота слов для винограда
Частота слов

облако слов

Модуль wordcloud позволяет визуализировать частоту слов и вес слов. Здесь мы импортируем модуль.

import wordcloud as wc

Частота слов для вина

Здесь мы создаем функцию, которая использует wordcloud для генерации частоты слов в виде изображения, а затем показывает изображение. Мы также случайным образом выбираем вино, чтобы увидеть частоту слов.

Соответствует описанию.

tart snappy lime flesh rind dominate green pineapple pokes crisp acidity underscoring stainless steel fermented

Частота слов для винограда

Аналогично предыдущему, за исключением того, что нам нужно сначала сгруппировать по сорту (винограду).

Сгруппируйте по разновидности, а затем мы объединим все описания для разновидности. Наконец, мы создаем новый DataFrame.

Затем мы визуализируем это.

Соответствует описанию.

comprised rare variety given time ferment age french oak half new ashy red fruit meets mild structure considerable tannic grip tiny amount made abouriou grape found almost exclusively southwest france produces balances acidity juicy red fruits herbal edge light layer tannin structured aftertaste despite proximity bordeaux marmandais managed retain abouriou grape variety part conservatory obscure grape varieties producer made fine fruity smoky attractive tannins swathes juicy black fruits fine

Частота слов

Чтобы узнать частоту слов во всех описаниях, мы можем объединить все описания, а затем использовать облако слов для их визуализации.

Вывод

С помощью wordcloud мы можем легко визуализировать частоту слов. Кроме того, мы можем использовать этот метод с НЛП, чтобы узнать, часто ли встречается слово, а не ключевое слово, которое использовалось для описания вина и сорта.

Если какие-либо слова, которые кажутся стоп-словами и появляются часто, мы можем добавить их к стоп-словам в НЛП, чтобы это слово было отфильтровано, пока НЛП анализирует описания.

Наконец, мы закончили исследовательский анализ данных.

Далее мы собираемся подготовить и предварительно обработать данные для обучения нашей модели.

Часть 7

Wine Review PT6 — EDA — ML