в чем разница между классификацией текста и выделением признаков

можем ли мы выбрать функции без классификации, и если у меня есть текст, как я могу узнать, какие функции выбрать? Мне нужен пример относительно текста, а не реального примера объекта слова. если кто-нибудь может объяснить, пожалуйста?


person irfan    schedule 09.05.2020    source источник


Ответы (1)


Классификация текста — это классификация текста на основе его признаков. Например, вы можете классифицировать предложение как имеющее положительное («Я так счастлив») или отрицательное («Мне так грустно») настроение.

Выбор функции текста эффективно решает, как вы хотите кодировать текст, чтобы вы могли запустить его через классификатор. Есть много способов сделать это. Например, вы можете использовать набор слов, где каждый столбец представляет слово из вашего словаря, а каждая ячейка показывает, сколько раз это слово встречается в документе.

Если бы у вас было два предложения: «Я так счастлив, очень счастлив» и «Мне так грустно», ваша кодировка предложений могла бы быть

| я || утра | так | счастливый | очень | грустный |

            1. 0.
            1. 1.
person Mike    schedule 09.05.2020
comment
Спасибо за ответ, как я могу узнать, что форма определенного текста, какие функции я должен выбрать? то есть какая особенность в этом предложении я так счастлива, так очень счастлива - person irfan; 09.05.2020
comment
@irfan Функции, которые вы определяете, зависят от вас. В приведенном выше примере с мешком слов функции — это количество раз, которое каждое слово появляется в предложении. Например, слово «счастливый» появляется дважды в первом предложении, поэтому для этого обучающего примера оно будет иметь значение 2. Во втором примере оно появляется только один раз, поэтому у вас будет значение 1. - person Mike; 10.05.2020
comment
да, это полезно, но в реальном мире у нас есть гораздо больше данных, с которыми нужно иметь дело, так как я могу получить от них функции, как я узнаю, что они на самом деле являются функциями? - person irfan; 10.05.2020
comment
@irfan, когда у вас много данных (в большинстве случаев), вы можете автоматически генерировать эти функции с помощью инструмента из библиотеки, такой как TfidfVectorizer от scikit-learn. - person Mike; 10.05.2020
comment
так что мне не нужно ничего делать в выборе функции? - person irfan; 10.05.2020
comment
Нет, вам все равно придется создавать эти функции с помощью кода, но не вручную. - person Mike; 10.05.2020
comment
Давайте продолжим обсуждение в чате. - person irfan; 10.05.2020