正如标题所说,div[@class="posts-cont"]
包含很多句子,但是text_content()
似乎只得到第一个被<br>...
分割的句子
>>>import requests
>>>from lxml import html
>>>url = 'http://club.kdnet.net/dispbbs.asp?boardid=1&id=9964430'
>>>r = requests.get(url)
>>>h = html.document_fromstring(r.content)
>>>h.cssselect('.posts-cont')[0].text_content()
u'\r\n\t\t\t\t\t\xa0\xa0\xa0\xa0\u6587/\u65b0\u6d6a\u8d22\u7ecf\u4e13\u680f\u4f5c\u5bb6\xa0\xa0\u4e01\u9053\u9f50\xa0\xa0\xa0\xa0\u4ea4\u6d41\u7279\u9ad8\u538b\u8f93\u7535\u5efa\u8bbe\u6210\u672c\u6700\u9ad8\u4e14'
街区:
^{pr2}$
看起来这可能只是lxml中的一个bug。也许可以尝试使用BeautifulSoup?它非常擅长处理不稳定的html文件。在
相关问题 更多 >
编程相关推荐