Интеллектуальный анализ текста в R — пакеты openNLP и tm

Я пытался извлечь «слова, которые лидеры используют, чтобы описать себя», используя Linked In Summaries в качестве набора данных.

1) Я очистил данные с помощью пакета «tm» в R

2) Я извлек прилагательные, используя «Теги POS» в пакете «openNLP».

Моя первая проблема в том, что:

Он извлекает все прилагательные, мне нужны только прилагательные, такие как лояльный, инновационный, страстный (прилагательные качества)

Моя вторая проблема:

Есть ли способ заставить программу понять, что она читает. Например: слово «мобильный» помечается как прилагательное, тогда как это существительное, обычно связанное с «мобильным приложением» и т. д.

Я кодирую с помощью R. Пожалуйста, помогите!

r text-mining pos-tagger tm opennlp

thushara tom 14.04.2016 источник

comment

Вы можете частотность прилагательных в любом случае. Маловероятно, что интриги, властные, раздражительные или беспринципные слишком часто появляются в Linked In. Я не слишком много играл с НЛП, поэтому не знаю, можете ли вы указать объединение по парам, что могло бы помочь с составными существительными. Вы также можете изучить, как вы можете импортировать другой тег POS. ссылка или ссылка и ссылка на журнальную статью. Хм, журнальная статья - составное существительное... - Chris 14.04.2016

comment

Что вы подразумеваете под частотой прилагательных.?. Я беру частоту слов. Но иногда появляются такие слова, как «третий» или имя человека. - thushara tom 14.04.2016

comment

Частота по существу не зависит от значения, и теги обычно могут сказать, «какое» слово относится к частям речи (POS). Читатели-люди обычно могут просмотреть список и сказать, какое слово не относится к контексту. Это остается некоторой трудностью для машинного обучения. Возможно, вы могли бы сравнить частотность слов Linked In с Корпусом американского английского [ссылка] (corpus.byu.edu/coca ). Я предполагаю, что первые 10 000 слов по частоте будут соответствовать, что предполагает уровень словарного запаса второкурсника в университете в Linked In. - Chris 14.04.2016

comment

Есть ли пример, где это используется, корпус американского английского? - thushara tom 14.04.2016

comment

Погуглил часто используемые лидерские слова в самоописании openNLP крана R, который, к счастью, возвращает 8 элементов, пятый парень, который есть в Linked In, дает довольно хороший обзор своего процесса в R ссылка. Второй элемент содержит эту интересную фразу. Список тональных слов из R-пакета tm.plugin.tags. Извините, я не практик НЛП как таковой, я использую корпусные вещи, чтобы предсказать, какой словарный запас потенциально могут иметь носители английского второго языка. поиск по полному названию корпуса и крана r, 2040 списков. ХТН - Chris 14.04.2016

comment

stackoverflow.com/questions/ 4600612/ - Chris 14.04.2016

comment

Большое спасибо, Крис. - thushara tom 14.04.2016

Интеллектуальный анализ текста в R — пакеты openNLP и tm

Похожие вопросы