Вопросы по теме 'information-extraction'

С чего начать извлечение информации?
Не могли бы вы порекомендовать путь обучения, чтобы начать и стать очень хорошим в извлечении информации. Я начал читать об этом, чтобы сделать один из моих хобби-проектов, и вскоре понял, что мне нужно хорошо разбираться в математике (алгебра,...
3398 просмотров

извлекать одну строку из HTML с помощью Ruby / Mechanize (и Nokogiri)
Я извлекаю данные с форума. Мой сценарий на основе работает нормально. Теперь мне нужно извлечь дату и время (21 декабря 2009 г., 20:39) из одного сообщения. Я не могу заставить его работать. Я использовал FireXPath для определения xpath....
18691 просмотров

Perl, генерирующий новые данные (новый хэш) с использованием двух разных хеш-таблиц
Я столкнулся с очень сложной проблемой (с моей точки зрения как новичок) и не знаю, как ее решить. Я могу думать о рабочем процессе, но не о сценарии. У меня есть файл A, который выглядит следующим образом: Учитель (вкладка) Студент1 (пробел)...
585 просмотров
schedule 13.04.2024

Использовать географический справочник в качестве словаря в правиле JAPE в GATE
У меня есть этот сценарий: У меня есть список пар ключ-значение в виде (например) 000.000.0001.000 VALUE1 000.000.0002.000 VALUE2 ... 000.010.0001.000 VALUE254 Документы представляют информацию с помощью таблицы следующим образом:...
118 просмотров
schedule 07.03.2024

Установка пути в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?
Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию об анализе зависимостей на более поздних этапах (после временной маркировки), но,...
285 просмотров

Поиск шаблонов в дампе Википедии
Я пытаюсь сделать некоторое извлечение отношений на дампе Википедии. Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML/JSON (15 ГБ в сжатом виде, 50 ГБ в несжатом). Как лучше всего это сделать? Обычные алгоритмы сопоставления строк?...
89 просмотров