2024-09-28 21:41:06 发布
网友
通常我使用lxml来满足我的HTML解析需求,但是googleappengine上没有这个功能。明显的替代方法是BeautifulSoup,但我发现它太容易被格式错误的HTML阻塞。目前我正在测试libxml2dom,并且得到了更好的结果。在
您发现哪个纯Python HTML解析器性能最好?我的首要任务是处理糟糕的HTML而不是速度。在
不再是问题-支持lxml: https://developers.google.com/appengine/docs/python/tools/libraries27
从BeautifulSoup documentation:
Version 3.1.0 of Beautiful Soup does significantly worse on real-world HTML than version 3.0.8 does
所以,它可能会帮助您使用这个早期版本。这正是作者本人的建议。在
You can pretend that Beautiful Soup version 3.1.0 was never released. Version 3.0.8 still works fine on Python 2.3 through 2.6.
不再是问题-支持lxml: https://developers.google.com/appengine/docs/python/tools/libraries27
从BeautifulSoup documentation:
所以,它可能会帮助您使用这个早期版本。这正是作者本人的建议。在
相关问题 更多 >
编程相关推荐