Публикации по теме 'beautifulsoup'


Используйте Python для автоматизации поиска работы
Код для этого проекта можно найти в репозитории Github https://github.com/klameer/jobscrape.git вместе с инструкциями о том, как быстро приступить к работе. Как ИТ-подрядчик и фрилансер, я провожу много времени, следя за досками объявлений о вакансиях на случай, если появится подходящая возможность. А бирж с вакансиями очень много. Я составил список из 10 мест, которые мне нужно посещать хотя бы раз в неделю. Это в основном ручной процесс. Вы можете ускорить его с помощью ниндзюцу..

Вопросы по теме 'beautifulsoup'

Поиск и замена в HTML с помощью BeautifulSoup
Я хочу использовать BeautfulSoup для поиска и замены <\a> на <\a><br> . Я знаю, как открывать с помощью urllib2 , а затем анализировать, чтобы извлечь все теги <a> . Что я хочу сделать, так это найти и заменить...
30142 просмотров
schedule 03.12.2023

BeautifulSoup: Как извлечь все li из списка ul, содержащего несколько вложенных ul?
Мой исходный код выглядит так: <h3>Header3 (Start here)</h3> <ul> <li>List items</li> <li>Etc...</li> </ul> <h3>Header 3</h3> <ul> <li>List items</li>...
61611 просмотров
schedule 15.11.2023

Добавить содержимое внутри тега html body
Я создал скрипт Python с помощью BeautifulSoup и могу получить некоторый контент с веб-сайта. Теперь я хочу с помощью этого скрипта разместить код внутри тега body html-файла. Как я это сделаю? спасибо
1423 просмотров
schedule 09.10.2022

BeautifulSoup находит все с атрибутом класса - ошибка кодирования юникода
Я использую BeautifulSoup для извлечения новостей (только заголовки) из Hacker News , и до сих пор у меня есть это: import urllib2 from BeautifulSoup import BeautifulSoup HN_url = "http://news.ycombinator.com" def get_page(): page_html =...
18322 просмотров
schedule 10.05.2024

Как найти тег комментария ‹!----› с BeautifulSoup?
Я попробовал суп.найти('!--') но, похоже, это не работает. Заранее спасибо. Редактировать: Спасибо за совет о том, как найти все комментарии. У меня вопрос вдогонку. Как конкретно найти комментарий? Например, у меня есть следующий тег...
11667 просмотров
schedule 27.01.2024

Проблема с Python CSV, помещающим каждую букву в новое поле
Я пытаюсь поместить список URL-адресов в CSV-файл, который я очищаю с веб-страницы, используя urllib2 и BeautifulSoup. Я пробовал писать ссылки на CSV-файл как Unicode, а также конвертировать в utf-8. В обоих случаях каждая буква вставляется в новое...
2438 просмотров
schedule 05.01.2024

Проблема с парсером Beautifulsoup
Я использую BeautifulSoup и механизацию, чтобы найти контент с веб-страницы. Дело в том, что ИНОГДА искомая строка не найдена. не знаю в чем может быть проблема Он работал нормально в течение многих месяцев для многих веб-страниц, но внезапно...
602 просмотров

Проблема с кодировкой Python: знак градуса и другие
Я использую BeautifulSoup для очистки данных с веб-страницы. Я хочу сравнить данные веб-сайта с текстом в документе .txt. Однако, похоже, у меня проблемы с кодировкой. На веб-сайте есть текст «нагреть духовку до 400 °». Этот текст также...
3186 просмотров
schedule 04.10.2022

Использование Beautiful Soup для преобразования атрибутов CSS в отдельные атрибуты HTML?
Я пытаюсь написать программу, которая возьмет файл HTML и сделает его более удобным для электронной почты. На данный момент все преобразования выполняются вручную, потому что ни один из онлайн-конвертеров не делает именно то, что нам нужно. Это...
3821 просмотров
schedule 07.01.2024

Python BeautifulSoup — получение внутренних ссылок со страницы
У меня есть базовый цикл для поиска ссылок на странице, которую я получил с помощью urllib2.urlopen, однако я пытаюсь следовать только внутренним ссылкам на странице. Любые идеи, как заставить мой нижний цикл получать только ссылки, которые...
2101 просмотров
schedule 14.10.2022

Beautifulsoup4 с lxml против Beautifulsoup3
Я переношу некоторые синтаксические анализаторы с BeautifulSoup3 на BeautifulSoup4 и подумал, что было бы неплохо профилировать, насколько быстрее это будет происходить, учитывая, что lxml очень быстрый, и это парсер, который я использую с BS4, вот...
1720 просмотров

BeautifulSoup не читает теги должным образом
Я пытаюсь проанализировать xml с помощью BeautifulSOup, но это приводит к неправильному выводу. файл.xml: <?xml version="1.0" ?> <opening name="value1" > <element name="value1.1"/> <element name="value1.2">...
111 просмотров
schedule 30.10.2022

Красивый суп на хироку?
Я пытался развернуть приложение с помощью Beautiful soap на героку и запустить команду типа «python manage.py». Моя команда использует библиотеку «Красивый суп». Хотя команда отлично работает на моей локальной машине, но она не смогла найти красивый...
3238 просмотров

BeautifulSoup извлекает данные из div
Я просматривал предыдущие вопросы в течение часа и пробовал различные решения, но не могу заставить это работать. Я извлек нужные результаты с веб-сайта, теперь мне просто нужно найти в этих разделах нужную мне информацию. Результаты изолированы...
5355 просмотров
schedule 22.03.2024

Невозможно сохранить изображение из Интернета с помощью urllib2
Я хочу сохранить некоторые изображения с веб-сайта с помощью python urllib2 , но когда я запускаю код, он сохраняет что-то еще. Это мой код: user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent }...
6936 просмотров
schedule 13.02.2024

Разбор потока байтов XML RSS-канала для тега ‹item›
Я пытаюсь проанализировать RSS-канал на предмет первого экземпляра элемента "". def pageReader(url): try: readPage = urllib2.urlopen(url) except urllib2.URLError, e: # print 'We failed to reach a server.' # print 'Reason: ', e.reason...
298 просмотров
schedule 20.10.2022

Python BeautifulSoup Извлечение определенных URL-адресов
Можно ли получить только определенные URL-адреса? Нравиться: <a href="http://www.iwashere.com/washere.html">next</a> <span class="class">...</span> <a href="http://www.heelo.com/hello.html">next</a> <span...
9393 просмотров

Извлечение ссылок в классе с веб-страницы
Я пытаюсь извлечь ссылки из блога, используя этот код Python: #!/usr/bin/env python """ Extract all links from a web page ================================= Author: Laszlo Szathmary, 2011 ([email protected]) Website:...
1149 просмотров
schedule 30.05.2024

Python 3, красивый суп, получите следующий тег
У меня есть следующая html-часть, которая повторяется несколько раз с другими ссылками href: <div class="product-list-item margin-bottom"> <a title="titleexample" href="http://www.urlexample.com/example_1" data-style-id="sp_2866">...
12540 просмотров
schedule 21.11.2022

Аргументы ключевых слов в Python
Итак, я пытаюсь прочитать данные со страницы Википедии, используя urllib2/BeautifulSoup. Я скопировал этот код в терминал: import urllib2 hdrs = { 'User-Agent': "Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11" } req =...
523 просмотров