如何用python提取网站的纯文本？ - 问答 - Python中文网

如何用python提取网站的纯文本？

2024-10-04 09:32:01 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我知道这个问题被问了很多次，但没有一个答案对我来说做得很好。我尝试了text2html、beautifulsoup、import re等解决方案。我尝试了所有的示例代码，但没有一个解决方案真正奏效。有些根本不起作用，有些则忘记忽略“\n”和javascript代码。。。你知道吗

有人能发布一个只提取网站纯文本的python程序的工作代码示例吗？你知道吗

谢谢！你知道吗

Tags：答案代码文本 import 程序 re 示例网站

1条回答

网友

1楼 · 发布于 2024-10-04 09:32:01

您可以使用BeautifulSoup遍历DOM，并使用^{}方法编译全文内容。您可以轻松地使用Python functions去除\n字符：

markup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'

soup = BeautifulSoup(markup)

soup.get_text()
u'\nI linked to example.com\n'

soup.i.get_text()
u'example.com'

还有一个去除空白的选项（即\n）：

# soup.get_text("|", strip=True)
u'I linked to|example.com'

相关问题更多 >

编程相关推荐

热门问题

热门文章