TF-IDF (частота термина, обратная частоте документа) — это числовое представление, используемое при обработке естественного языка. Это метод поиска информации, позволяющий оценить важность слова в документе в коллекции документов. Он подчеркивает слова, которые часто встречаются в документе, учитывая их уникальность или редкость во всей коллекции. TF-IDF часто используется для таких задач, как классификация текста, поиск информации и рекомендации по контенту.

Коллекция документов:

  • Соберите коллекцию документов, которые вы хотите проанализировать или обработать.

Предварительная обработка текста:

  • Очистите и предварительно обработайте текст, удалив знаки препинания, специальные символы и ненужную информацию.
  • Токенизировать текст, чтобы разбить его на отдельные слова (токены).
  • Преобразуйте весь текст в нижний регистр, чтобы обеспечить обработку без учета регистра.

Мешок слов:

  • Составьте список уникальных слов из всех документов. Этот словарь будет использоваться для создания размерностей векторов TF-IDF.

Расчет частоты терминов (TF):

  • Для каждого документа в коллекции рассчитайте частоту терминов для каждого слова. Частота термина — это отношение количества раз, когда слово появляется в документе, к общему количеству слов в этом документе.

Расчет обратной частоты документов (IDF):

  • Для каждого слова в словаре рассчитайте обратную частоту документов. IDF измеряет, насколько редко или распространено слово во всей коллекции.

Расчет показателей TF-IDF:

  • Умножьте частоту термина (TF) каждого слова в документе на соответствующую ему обратную частоту документа (IDF), чтобы получить оценку TF-IDF.
  • ТФ-IDF = ТФ * IDF

Создание векторов TF-IDF:

  • Для каждого документа создайте вектор TF-IDF, где каждое измерение представляет слово из словаря, а значение в каждом измерении — это рассчитанный показатель TF-IDF для этого слова в документе.

Анализ и приложения:

  • Полученные векторы TF-IDF можно использовать для различных задач обработки естественного языка, таких как классификация текста, поиск информации, кластеризация, системы рекомендаций и многое другое.

Интеграция машинного обучения:

  • Используйте векторы TF-IDF в качестве входных функций для алгоритмов машинного обучения для построения моделей для таких задач, как классификация текста или кластеризация.

Горячее кодирование — это метод, используемый для представления категориальных данных, таких как слова в тексте, в виде двоичных векторов. В векторе с горячим кодированием каждое измерение соответствует уникальной категории (в данном случае слову), и только одно измерение является «горячим» (установлено в 1), тогда как все остальные являются «холодными» (установлены в 0), что указывает на наличие или отсутствие этой категории.

Давайте учиться на примере:

D1 → Эндрю — высокий мальчик.

D2 → Шаджи — умный мальчик. Зубия тоже умный.

Здесь D1(Документ 1) и D2(Документ 2) — наши два документа. Теперь мы их горячо закодируем.

Теперь создаем гистограмму. Гистограмма — это сумма всех горячих представлений всех слов. Изображение ниже относится к D1.

Аналогично мы делаем это и для D2.

Представленная выше таблица иллюстрирует распределение значений TF-IDF, показывая, что некоторые слова имеют нулевое значение, а другие имеют ненулевые значения. Это несоответствие возникает из-за их появления внутри документа, а также во всех документах.

Однако важно отметить, что TF-IDF не используется для определения контекстуальной значимости слов, поскольку он опирается исключительно на вычисления, основанные на частоте.