TF-IDF (частота термина, обратная частоте документа) — это числовое представление, используемое при обработке естественного языка. Это метод поиска информации, позволяющий оценить важность слова в документе в коллекции документов. Он подчеркивает слова, которые часто встречаются в документе, учитывая их уникальность или редкость во всей коллекции. TF-IDF часто используется для таких задач, как классификация текста, поиск информации и рекомендации по контенту.
Коллекция документов:
- Соберите коллекцию документов, которые вы хотите проанализировать или обработать.
Предварительная обработка текста:
- Очистите и предварительно обработайте текст, удалив знаки препинания, специальные символы и ненужную информацию.
- Токенизировать текст, чтобы разбить его на отдельные слова (токены).
- Преобразуйте весь текст в нижний регистр, чтобы обеспечить обработку без учета регистра.
Мешок слов:
- Составьте список уникальных слов из всех документов. Этот словарь будет использоваться для создания размерностей векторов TF-IDF.
Расчет частоты терминов (TF):
- Для каждого документа в коллекции рассчитайте частоту терминов для каждого слова. Частота термина — это отношение количества раз, когда слово появляется в документе, к общему количеству слов в этом документе.
Расчет обратной частоты документов (IDF):
- Для каждого слова в словаре рассчитайте обратную частоту документов. IDF измеряет, насколько редко или распространено слово во всей коллекции.
Расчет показателей TF-IDF:
- Умножьте частоту термина (TF) каждого слова в документе на соответствующую ему обратную частоту документа (IDF), чтобы получить оценку TF-IDF.
- ТФ-IDF = ТФ * IDF
Создание векторов TF-IDF:
- Для каждого документа создайте вектор TF-IDF, где каждое измерение представляет слово из словаря, а значение в каждом измерении — это рассчитанный показатель TF-IDF для этого слова в документе.
Анализ и приложения:
- Полученные векторы TF-IDF можно использовать для различных задач обработки естественного языка, таких как классификация текста, поиск информации, кластеризация, системы рекомендаций и многое другое.
Интеграция машинного обучения:
- Используйте векторы TF-IDF в качестве входных функций для алгоритмов машинного обучения для построения моделей для таких задач, как классификация текста или кластеризация.
Горячее кодирование — это метод, используемый для представления категориальных данных, таких как слова в тексте, в виде двоичных векторов. В векторе с горячим кодированием каждое измерение соответствует уникальной категории (в данном случае слову), и только одно измерение является «горячим» (установлено в 1), тогда как все остальные являются «холодными» (установлены в 0), что указывает на наличие или отсутствие этой категории.
Давайте учиться на примере:
D1 → Эндрю — высокий мальчик.
D2 → Шаджи — умный мальчик. Зубия тоже умный.
Здесь D1(Документ 1) и D2(Документ 2) — наши два документа. Теперь мы их горячо закодируем.
Теперь создаем гистограмму. Гистограмма — это сумма всех горячих представлений всех слов. Изображение ниже относится к D1.
Аналогично мы делаем это и для D2.
Представленная выше таблица иллюстрирует распределение значений TF-IDF, показывая, что некоторые слова имеют нулевое значение, а другие имеют ненулевые значения. Это несоответствие возникает из-за их появления внутри документа, а также во всех документах.
Однако важно отметить, что TF-IDF не используется для определения контекстуальной значимости слов, поскольку он опирается исключительно на вычисления, основанные на частоте.