Введение
Мы применили НЛП к описанию сомелье каждого вина в 5 части.
Теперь мы можем узнать частотность слов для вина, для винограда и во всех описаниях. Здесь мы собираемся визуализировать частоту слов.
Набор данных
Мы будем использовать набор данных winemag-data-130k-v2.csv для машинного обучения.
Исходный код
Задача
- Частота слов для вина
- Частота слов для винограда
- Частота слов
облако слов
Модуль wordcloud позволяет визуализировать частоту слов и вес слов. Здесь мы импортируем модуль.
import wordcloud as wc
Частота слов для вина
Здесь мы создаем функцию, которая использует wordcloud для генерации частоты слов в виде изображения, а затем показывает изображение. Мы также случайным образом выбираем вино, чтобы увидеть частоту слов.
Соответствует описанию.
tart snappy lime flesh rind dominate green pineapple pokes crisp acidity underscoring stainless steel fermented
Частота слов для винограда
Аналогично предыдущему, за исключением того, что нам нужно сначала сгруппировать по сорту (винограду).
Сгруппируйте по разновидности, а затем мы объединим все описания для разновидности. Наконец, мы создаем новый DataFrame.
Затем мы визуализируем это.
Соответствует описанию.
comprised rare variety given time ferment age french oak half new ashy red fruit meets mild structure considerable tannic grip tiny amount made abouriou grape found almost exclusively southwest france produces balances acidity juicy red fruits herbal edge light layer tannin structured aftertaste despite proximity bordeaux marmandais managed retain abouriou grape variety part conservatory obscure grape varieties producer made fine fruity smoky attractive tannins swathes juicy black fruits fine
Частота слов
Чтобы узнать частоту слов во всех описаниях, мы можем объединить все описания, а затем использовать облако слов для их визуализации.
Вывод
С помощью wordcloud мы можем легко визуализировать частоту слов. Кроме того, мы можем использовать этот метод с НЛП, чтобы узнать, часто ли встречается слово, а не ключевое слово, которое использовалось для описания вина и сорта.
Если какие-либо слова, которые кажутся стоп-словами и появляются часто, мы можем добавить их к стоп-словам в НЛП, чтобы это слово было отфильтровано, пока НЛП анализирует описания.
Наконец, мы закончили исследовательский анализ данных.
Далее мы собираемся подготовить и предварительно обработать данные для обучения нашей модели.