选择什么样的HTML解析器？为什么BeautifulGroup不工作？

2024-09-29 19:17:05 发布

您现在位置：Python中文网/ 问答频道 /正文

1286

网友

男 | 程序猿一只，喜欢编程写python代码。

我需要解析一个带有windows-1251字符集的HTML页面（它是俄语的）。在

问题是它是web应用程序，我必须使用python2.4，而没有机会在服务器上安装模块。我只想让管理员安装lxml模块，但它在2.4上的构建方式不正确，并试图导入lxml.html失败。在

现在，我试图在BeautifulGroup和html5lib模块之间进行选择，但我没有找到任何使用html5lib的简单示例（我只需要从某个div元素中提取一些文本，同时去掉其中的所有其他标记）。反过来，beauthulsoup返回一个错误“起始标记中的垃圾字符：u'\u041f\u0440\u043e\u0434\u0430\u0436\u0430>；'，任何试图将源页从CP1251解码到unicode或任何其他字符集都无法做到。在

我做错什么了？或者我应该使用什么解析器？在

Tags：模块标记 web 应用程序 windows 管理员 html 方式

1条回答

网友

1楼 · 发布于 2024-09-29 19:17:05

这个问题很好地回答了如何转换成UTF-8：

Python: how to convert from Windows 1251 to Unicode?

我喜欢BeautifulSoup库，但我不熟悉奇怪的字符集。如果我写这篇文章，我可能会尝试清理输入，让我进入unicode领域，在那里大多数库都可以很好地运行。在

选择什么样的HTML解析器？为什么BeautifulGroup不工作？

相关问题更多 >

编程相关推荐

热门问题

热门文章

选择什么样的HTML解析器？为什么BeautifulGroup不工作？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >