Поэтому я пытаюсь создать веб-краулер, который я могу включить на любом сайте отзывов и заставить его довольно надежно извлекать отзывы пользователей из текста. То есть вместо того, чтобы создавать парсер, скажем, для Amazon и Overstocked, я просто хочу один парсер, который может собирать отзывы о продукте с обоих из них, даже если придется пожертвовать точностью. Я кратко поговорил с одним из моих профессоров, и он упомянул, что я мог бы просто реализовать некоторые эвристики и собрать из них данные (в качестве базового примера просто возьмите весь текст внутри тегов p). На данный момент я действительно просто ищу совета, в каком направлении двигаться.
(Если это имеет значение, на данный момент я использую chanize и lxml (Python) для сканирования отдельных сайтов.)
Спасибо!