Python用不正确的html结构废弃数据

*** REST OF CODE OMITTED *** try: fullURL = blitzurl + movie opener.open(blitzurl) urllib2.install_opener(opener) request = urllib2.Request(fullURL) requestData = urllib2.urlopen(request) htmlText = BeautifulSoup(requestData.read()) #panel = htmlText.find(match_class(["panelbox"])) #table = htmlText.find("table", {"id" : "scheduletbl"}) print htmlText blah.... except Exception, e: print str(e) print "ERROR: ERROR OCCURED IN MAIN"

3条回答

网友

1楼 · 编辑于 2024-09-30 16:41:06

如果您想检查哪个工具/库最适合您执行此任务，可以尝试使用https://scraperwiki.com/-。在

有一个选项可以使用html5lib、pyquery、bs4等（测试简单）

你可以试试beautifulsoup：

BeautifulSoup(html).prettify()

其中html是您的内容

BS应该擅长处理糟糕的html。。。在

网友

2楼 · 编辑于 2024-09-30 16:41:06

re.search(r'id="scheduletbl".+?</table>', page, re.DOTALL)

如果涉及换行符，则执行dotall。这是丑陋而非美丽的方式

网友

3楼 · 编辑于 2024-09-30 16:41:06

如果使用python默认附带的解析器，不正确的结束标记可能会产生问题。正如Beautiful soup文档中所说的那样：不是非常宽大（在Python2.7.3或3.2.2之前）。在

因此，如果您使用之前的版本，您可以安装lxml的HTML解析器，它更为宽松

$ pip install lxml

或者，如果您想要与浏览器相同的html解析，您可以安装html5lib解析器

^{pr2}$

它们可能会更好地解析HTML，并对错误的标记关闭有弹性。Beautiful soup会自动选择您安装的最佳解析器。在

相关问题更多 >

编程相关推荐

热门问题

热门文章