Интеллектуальный анализ текста в R — пакеты openNLP и tm

Я пытался извлечь «слова, которые лидеры используют, чтобы описать себя», используя Linked In Summaries в качестве набора данных.

1) Я очистил данные с помощью пакета «tm» в R

2) Я извлек прилагательные, используя «Теги POS» в пакете «openNLP».

Моя первая проблема в том, что:

Он извлекает все прилагательные, мне нужны только прилагательные, такие как лояльный, инновационный, страстный (прилагательные качества)

Моя вторая проблема:

Есть ли способ заставить программу понять, что она читает. Например: слово «мобильный» помечается как прилагательное, тогда как это существительное, обычно связанное с «мобильным приложением» и т. д.

Я кодирую с помощью R. Пожалуйста, помогите!


person thushara tom    schedule 14.04.2016    source источник
comment
Вы можете частотность прилагательных в любом случае. Маловероятно, что интриги, властные, раздражительные или беспринципные слишком часто появляются в Linked In. Я не слишком много играл с НЛП, поэтому не знаю, можете ли вы указать объединение по парам, что могло бы помочь с составными существительными. Вы также можете изучить, как вы можете импортировать другой тег POS. ссылка или ссылка и ссылка на журнальную статью. Хм, журнальная статья - составное существительное...   -  person Chris    schedule 14.04.2016
comment
Что вы подразумеваете под частотой прилагательных.?. Я беру частоту слов. Но иногда появляются такие слова, как «третий» или имя человека.   -  person thushara tom    schedule 14.04.2016
comment
Частота по существу не зависит от значения, и теги обычно могут сказать, «какое» слово относится к частям речи (POS). Читатели-люди обычно могут просмотреть список и сказать, какое слово не относится к контексту. Это остается некоторой трудностью для машинного обучения. Возможно, вы могли бы сравнить частотность слов Linked In с Корпусом американского английского [ссылка] (corpus.byu.edu/coca ). Я предполагаю, что первые 10 000 слов по частоте будут соответствовать, что предполагает уровень словарного запаса второкурсника в университете в Linked In.   -  person Chris    schedule 14.04.2016
comment
Есть ли пример, где это используется, корпус американского английского?   -  person thushara tom    schedule 14.04.2016
comment
Погуглил часто используемые лидерские слова в самоописании openNLP крана R, который, к счастью, возвращает 8 элементов, пятый парень, который есть в Linked In, дает довольно хороший обзор своего процесса в R ссылка. Второй элемент содержит эту интересную фразу. Список тональных слов из R-пакета tm.plugin.tags. Извините, я не практик НЛП как таковой, я использую корпусные вещи, чтобы предсказать, какой словарный запас потенциально могут иметь носители английского второго языка. поиск по полному названию корпуса и крана r, 2040 списков. ХТН   -  person Chris    schedule 14.04.2016
comment
stackoverflow.com/questions/ 4600612/   -  person Chris    schedule 14.04.2016
comment
Большое спасибо, Крис.   -  person thushara tom    schedule 14.04.2016