Я хочу извлечь несколько текстов с веб-страницы. Я искал StackOverFlow (а также другие сайты), чтобы найти правильный метод. Я использовал HTML2TEXT, BEAUTIFULSOUP, NLTK и некоторые другие ручные методы для извлечения, и у меня не получилось, например:
- HTML2TEXT работает в автономном режиме (= сохраненные страницы), и мне нужно сделать это онлайн.
- BS4 не будет работать должным образом с Unicode (моя страница в персидской кодировке UTF8) и не будет извлекать текст. Он также возвращает HTML-теги\коды. Мне нужен только визуализированный текст.
- NLTK не будет работать с моим персидским текстом. Даже при попытке открыть мою страницу с помощью urllib.request.urlopen я сталкиваюсь с некоторыми ошибками. Итак, как вы видите, я так сильно застрял, попробовав несколько методов.
Вот мой целевой URL: http://vynylyn.yolasite.com/page2.php Я хочу извлекать только персидские абзацы без тегов\кодов.
(Примечание: я использую Eclipse Kepler с Python 34, также я хочу извлечь текст, а затем выполнить тегирование POS, токенизацию Word\Sentence и т. д.)
Каковы мои варианты, чтобы заставить это работать?