Вопросы по теме 'screen-scraping'

Загрузить файл изображения из источника HTML-страницы с помощью python?
Я пишу парсер, который загружает все файлы изображений с HTML-страницы и сохраняет их в определенную папку. все изображения являются частью HTML-страницы.
94275 просмотров
schedule 14.01.2024

Существует ли Scala-версия Python Mechanize?
Я с большим успехом использовал механизировать в Python. Тем не менее, я пытаюсь изучить Scala. У меня есть IRC-бот, к которому я хотел бы добавить некоторые функции, в основном связанные с просмотром веб-страниц из нашей корпоративной интрасети....
1456 просмотров
schedule 05.12.2022

Показать фильтр С#
Немного сложно объяснить, что мне нужно, но я попробую: Мне нужно написать приложение (winform), которое будет своего рода фильтром для изображения/других форм позади него. За одним исключением - вся задняя форма должна выглядеть как есть кроме...
620 просмотров

Существуют ли какие-либо веб-сайты, предоставляющие бесплатные API новостей, погоды, фотографий для коммерческого использования этих данных?
Я хочу создать службу, которая должна получать эти данные из какого-либо источника для дальнейшего анализа. Предоставляет ли Google, Yahoo или кто-то другой бесплатный доступ к этим данным для использования на других веб-сайтах с использованием...
296 просмотров

Как извлечь данные из графиков Web 2.0 с помощью парсера
Недавно я наткнулся на веб-страницу, содержащую объект графика, который отображает значения (x, y) объекта при наведении на него мыши. Есть ли способ автоматизировать извлечение этих данных?
505 просмотров
schedule 23.02.2024

BeautifulSoup: Как извлечь все li из списка ul, содержащего несколько вложенных ul?
Мой исходный код выглядит так: <h3>Header3 (Start here)</h3> <ul> <li>List items</li> <li>Etc...</li> </ul> <h3>Header 3</h3> <ul> <li>List items</li>...
61611 просмотров
schedule 15.11.2023

Разработка механизма OCR с открытым исходным кодом специально для визуализированного текста (скриншоты)
Итак, мой текущий личный проект заключается в том, чтобы иметь возможность автоматически захватывать скриншоты из игры, распознавать текст и подсчитывать количество вхождений заданных слов. Проведя весь вечер в поисках различных OCR-решений, я...
2381 просмотров
schedule 24.01.2024

пакет xpath и htmlagility
Я понял! Я оставлю это сообщение на тот случай, если у кого-то из новичков, таких как я, возникнет тот же вопрос. Ответ: **("./td[2]/span[@class='smallfont']")** * Я новичок в гибкости xpath и html. Я так близко, но так далеко. ЦЕЛЬ:...
391 просмотров

Избегайте конкатенации без пробелов с помощью JSoup
Предположим, у меня есть div как таковой: <div> This is a paragraph written by someone on the internet. </div> Проблема в том, что когда JSoup анализирует это, он помещает все это в одну строку, поэтому, когда я вызываю text(), он...
3232 просмотров
schedule 02.11.2023

Какие бесплатные/платные поисковые API позволяют выполнять программные запросы и кэшировать/хранить полученные данные?
Если вы провели какое-либо серьезное исследование поисковых API, вы знаете, что большинство из них имеют огромное количество ограничений TOS/TOU, которые делают их почти невозможными для использования в каких-либо приложениях, кроме самых...
3532 просмотров
schedule 04.01.2024

Доступен ли другой камень, кроме нокогири / абрикоса? для очистки экрана
Я попробовал Nokogiri и hpricot, чтобы найти значение xpath. Но это не работает так, как я ожидал (я описал свою проблему в Очистка экрана через nokogiri или hpricot ). Кто-нибудь знает другие жемчужины для очистки экрана.
103 просмотров
schedule 25.05.2024

nginx выдает ошибку 504, когда PHP требуется некоторое время для обработки
Я делаю валютную систему (не большую, а простую), где пользователи смогут конвертировать валюты в другую, это не большой проект, а небольшой проект с несколькими людьми. Тем не менее, я использую PHP для очистки калькулятора валют Google, который...
893 просмотров
schedule 13.05.2024

Scrapy отслеживает и очищает неразрешенные ссылки
У меня есть CrawlSpider, настроенный на переход по определенным ссылкам и сбор новостного журнала, где ссылки на каждый выпуск следуют следующей схеме URL: http://example.com/YYYY/DDDD/index.htm , где YYYY – год, а DDDD – трех- или четырехзначный...
3735 просмотров

Парсинг простой страницы javascript
Я хотел бы очистить данные этого веб-сайта ( http://www.oddsportal.com/matches/soccer ), чтобы получить простой текстовый файл с информацией о матче и информацией о шансах следующим образом: 00:30 Criciuma - Atletico-PR 1:2...
2216 просмотров

Как очистить данные со страницы, которая загружает определенные данные после загрузки главной страницы?
Я использовал Ruby и Nokogiri для извлечения данных с URL-адреса, похожего на этот, с веб-сайта hollister:...
2494 просмотров

Как заблокировать действия Watir ruby ​​gem на сайте?
Я веб-мастер, и я пробую рубиновый драгоценный камень Watir, который управляет действиями браузера. Я знаю, что многие разработчики используют Watir для тестирования, но я также вижу использование Watir для сбора контента с веб-сайтов. Интересно,...
403 просмотров
schedule 14.10.2022

Ghost.py не находит PySide?
Я пытаюсь начать работу с Ghost.py безголовый браузер на Mac. Я установил Ghost.py и его зависимости, используя эти ссылки/команды: Qt 5.0.1 для Mac имеет установщик с графическим интерфейсом PySide 1.1.0 , для которого требуется Qt...
3483 просмотров

Время ожидания операции php cURL истекло через 120308 миллисекунд с полученным X из -1 байтов
Я иногда сталкиваюсь с этой ошибкой (см. Заголовок) в своем скрипте очистки. X — целое число байтов > 0, реальное количество байтов, отправленных веб-сервером в ответ. Я отладил эту проблему с прокси-сервером Charles, и вот что я вижу Как...
14573 просмотров
schedule 12.03.2024

Scrapy отображает текст xpath с помощью lxml
Как я могу заставить свою страницу parse_page отображать текст и числовое значение для названия моего элемента? Я могу отображать только href. def parse_page(self, response): self.log("\n\n\n Page for one device \n\n\n") self.log('Hi,...
987 просмотров

TypeError: неподдерживаемый тип(ы) операнда для +: 'Tag' и 'str'
In my following code I am trying to append to every start and end of the value so that I can perform SQL insert operation directly after running my python script. Following is code print today,","+ (a['href'] if a else '`NULL`')+",",...
2046 просмотров
schedule 10.01.2024