Scraperwiki字符编码异常

import lxml.html import scraperwiki from unidecode import unidecode html = scraperwiki.scrape("http://www.timeshighereducation.co.uk/world-university-rankings/2012-13/world-ranking/range/001-200") root = lxml.html.fromstring(html) for tr in root.cssselect("table.ranking tr"): if len(tr.cssselect("td.rank")) > 0 and len(tr.cssselect("td.uni")) > 0: university = unidecode(tr.cssselect("td.uni")[0].text_content()).strip().title() if 'cole' in university: print university

1条回答

网友

1楼 · 发布于 2024-06-23 19:38:23

基于上面soulseekah的有用注释，以及lxmldocs here和here，以下解决方案有效：

import lxml.html
import scraperwiki
from unidecode import unidecode
from BeautifulSoup import UnicodeDammit

def decode_html(html_string):
    converted = UnicodeDammit(html_string, isHTML=True)
    if not converted.unicode:
        raise UnicodeDecodeError(
            "Failed to detect encoding, tried [%s]",
            ', '.join(converted.triedEncodings))
    return converted.unicode

html = scraperwiki.scrape("http://www.timeshighereducation.co.uk/world-university-rankings/2012-13/world-ranking/range/001-200")
root = lxml.html.fromstring(decode_html(html))
for tr in root.cssselect("table.ranking tr"):
    if len(tr.cssselect("td.rank")) > 0 and len(tr.cssselect("td.uni")) > 0:
        university = unidecode(tr.cssselect("td.uni")[0].text_content()).strip().title()
        if 'cole' in university:
            print university

相关问题更多 >

编程相关推荐

热门问题

热门文章