2024-10-04 09:32:01 发布
网友
我知道这个问题被问了很多次,但没有一个答案对我来说做得很好。我尝试了text2html、beautifulsoup、import re等解决方案。我尝试了所有的示例代码,但没有一个解决方案真正奏效。有些根本不起作用,有些则忘记忽略“\n”和javascript代码。。。你知道吗
有人能发布一个只提取网站纯文本的python程序的工作代码示例吗?你知道吗
谢谢!你知道吗
您可以使用BeautifulSoup遍历DOM,并使用^{}方法编译全文内容。您可以轻松地使用Python functions去除\n字符:
\n
markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>' soup = BeautifulSoup(markup) soup.get_text() u'\nI linked to example.com\n' soup.i.get_text() u'example.com'
还有一个去除空白的选项(即\n):
# soup.get_text("|", strip=True) u'I linked to|example.com'
您可以使用BeautifulSoup遍历DOM,并使用^{} 方法编译全文内容。您可以轻松地使用Python functions去除
\n
字符:还有一个去除空白的选项(即
\n
):相关问题 更多 >
编程相关推荐