如何用python提取网站的纯文本?

2024-10-04 09:32:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我知道这个问题被问了很多次,但没有一个答案对我来说做得很好。我尝试了text2html、beautifulsoup、import re等解决方案。我尝试了所有的示例代码,但没有一个解决方案真正奏效。有些根本不起作用,有些则忘记忽略“\n”和javascript代码。。。你知道吗

有人能发布一个只提取网站纯文本的python程序的工作代码示例吗?你知道吗

谢谢!你知道吗


Tags: 答案代码文本import程序re示例网站
1条回答
网友
1楼 · 发布于 2024-10-04 09:32:01

您可以使用BeautifulSoup遍历DOM,并使用^{}方法编译全文内容。您可以轻松地使用Python functions去除\n字符:

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'

soup = BeautifulSoup(markup)

soup.get_text()
u'\nI linked to example.com\n'

soup.i.get_text()
u'example.com'

还有一个去除空白的选项(即\n):

# soup.get_text("|", strip=True)
u'I linked to|example.com'

相关问题 更多 >