Я пытаюсь поместить список URL-адресов в CSV-файл, который я очищаю с веб-страницы, используя urllib2 и BeautifulSoup. Я пробовал писать ссылки на CSV-файл как Unicode, а также конвертировать в utf-8. В обоих случаях каждая буква вставляется в новое поле.
Вот мой код (я пробовал по крайней мере двумя способами):
f = open('filename','wb')
w = csv.writer(f,delimiter=',')
for link in links:
w.writerow(link['href'])
А также:
f = open('filename','wb')
w = csv.writer(f,delimiter=',')
for link in links:
w.writerow(link['href'].encode('utf-8'))
links
— это список, который выглядит так:
[<a href="#Flyout1" accesskey="2" class="quicklinks" tabindex="1" title="Skip to content">Quick Links: Skip to main page content</a>, <a href="#search" class="quicklinks" tabindex="1" title="Skip to search">Skip to Search</a>, <a href="#News" class="quicklinks" tabindex="1" title="Skip to Section table of contents">Skip to Section Content Menu</a>, <a href="#footer" class="quicklinks" tabindex="1" title="Skip to site options">Skip to Common Links</a>, <a href="http://www.hhs.gov"><img src="/ucm/groups/fdagov-public/@system/documents/system/img_fdagov_hhs_gov.png" alt="www.hhs.gov link" style="width:112px; height:18px;" border="0" /></a>]
Не все ссылки имеют ключ 'href'
, но я проверяю его в коде, который здесь не показан. В обоих случаях в csv-файл записываются правильные строки, но каждая буква находится в новом поле.
Какие-нибудь мысли?