lxml文本内容不能得到完整的tex

2024-10-01 11:19:53 发布

男 | 程序猿一只，喜欢编程写python代码。

正如标题所说，div[@class="posts-cont"]包含很多句子，但是text_content()似乎只得到第一个被<br>...分割的句子

>>>import requests
>>>from lxml import html
>>>url = 'http://club.kdnet.net/dispbbs.asp?boardid=1&id=9964430'
>>>r = requests.get(url)
>>>h = html.document_fromstring(r.content)
>>>h.cssselect('.posts-cont')[0].text_content()

   u'\r\n\t\t\t\t\t\xa0\xa0\xa0\xa0\u6587/\u65b0\u6d6a\u8d22\u7ecf\u4e13\u680f\u4f5c\u5bb6\xa0\xa0\u4e01\u9053\u9f50\xa0\xa0\xa0\xa0\u4ea4\u6d41\u7279\u9ad8\u538b\u8f93\u7535\u5efa\u8bbe\u6210\u672c\u6700\u9ad8\u4e14'

街区：

^{pr2}$

Tags： text br import div url 标题 html content

1条回答

网友

1楼 · 发布于 2024-10-01 11:19:53

看起来这可能只是lxml中的一个bug。也许可以尝试使用BeautifulSoup？它非常擅长处理不稳定的html文件。在

lxml文本内容不能得到完整的tex

相关问题更多 >

编程相关推荐

热门问题

热门文章

lxml文本内容不能得到完整的tex

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >