GAE的HTML解析器

2024-09-28 21:41:06 发布

您现在位置:Python中文网/ 问答频道 /正文

通常我使用lxml来满足我的HTML解析需求,但是googleappengine上没有这个功能。明显的替代方法是BeautifulSoup,但我发现它太容易被格式错误的HTML阻塞。目前我正在测试libxml2dom,并且得到了更好的结果。在

您发现哪个纯Python HTML解析器性能最好?我的首要任务是处理糟糕的HTML而不是速度。在


Tags: 方法功能解析器html格式错误性能lxml
2条回答

BeautifulSoup documentation

Version 3.1.0 of Beautiful Soup does significantly worse on real-world HTML than version 3.0.8 does

所以,它可能会帮助您使用这个早期版本。这正是作者本人的建议。在

You can pretend that Beautiful Soup version 3.1.0 was never released. Version 3.0.8 still works fine on Python 2.3 through 2.6.

相关问题 更多 >