lxml文本内容不能得到完整的tex

2024-10-01 11:19:53 发布

您现在位置:Python中文网/ 问答频道 /正文

正如标题所说,div[@class="posts-cont"]包含很多句子,但是text_content()似乎只得到第一个被<br>...分割的句子

>>>import requests
>>>from lxml import html
>>>url = 'http://club.kdnet.net/dispbbs.asp?boardid=1&id=9964430'
>>>r = requests.get(url)
>>>h = html.document_fromstring(r.content)
>>>h.cssselect('.posts-cont')[0].text_content()

   u'\r\n\t\t\t\t\t\xa0\xa0\xa0\xa0\u6587/\u65b0\u6d6a\u8d22\u7ecf\u4e13\u680f\u4f5c\u5bb6\xa0\xa0\u4e01\u9053\u9f50\xa0\xa0\xa0\xa0\u4ea4\u6d41\u7279\u9ad8\u538b\u8f93\u7535\u5efa\u8bbe\u6210\u672c\u6700\u9ad8\u4e14'

街区:

^{pr2}$

Tags: textbrimportdivurl标题htmlcontent