选择什么样的HTML解析器?为什么BeautifulGroup不工作?

2024-09-29 19:17:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要解析一个带有windows-1251字符集的HTML页面(它是俄语的)。在

问题是它是web应用程序,我必须使用python2.4,而没有机会在服务器上安装模块。我只想让管理员安装lxml模块,但它在2.4上的构建方式不正确,并试图导入lxml.html失败。在

现在,我试图在BeautifulGrouphtml5lib模块之间进行选择,但我没有找到任何使用html5lib的简单示例(我只需要从某个div元素中提取一些文本,同时去掉其中的所有其他标记)。反过来,beauthulsoup返回一个错误“起始标记中的垃圾字符:u'\u041f\u0440\u043e\u0434\u0430\u0436\u0430>;',任何试图将源页从CP1251解码到unicode或任何其他字符集都无法做到。在

我做错什么了?或者我应该使用什么解析器?在


Tags: 模块标记web应用程序windows管理员html方式
1条回答
网友
1楼 · 发布于 2024-09-29 19:17:05

这个问题很好地回答了如何转换成UTF-8:

Python: how to convert from Windows 1251 to Unicode?

我喜欢BeautifulSoup库,但我不熟悉奇怪的字符集。如果我写这篇文章,我可能会尝试清理输入,让我进入unicode领域,在那里大多数库都可以很好地运行。在

相关问题 更多 >

    热门问题