在BeautifulGroup中解析MS特定的html标记

from bs4 import BeautifulSoup textToParse = """ <html> <head> <title>Something to parse</title> </head> <body> <p><o:p>This should go</o:p>Paragraph</p> </body> </html> """ soup = BeautifulSoup(textToParse, "html5lib") body = soup.find('body') for otag in body.find_all('o'): print(otag) for otag in body.find_all('o:p'): print(otag)

1条回答

网友

1楼 · 发布于 2024-09-28 21:05:40

这是一个命名空间问题。显然，当使用"html5lib"解析时，beauthoulsoup并不认为自定义命名空间有效。在

你可以用正则表达式来解决这个问题，奇怪的是，可以正确地工作！在

print (soup.find_all(re.compile('o:p')))
>>> [<o:p>This should go</o:p>]

但是“正确的”解决方案是将解析器改为"lxml-xml"，并引入{}作为有效的名称空间。在

^{pr2}$

编程相关推荐

http POST请求Java CouchDB
java删除带有大量尾随0的浮点字符串上的科学符号
JavaEE5和Hibernate
java如何在Spring Social中获得比特定id更早的tweet
java是框架。revalidate（）在事件后获取输出是否重要？
java为什么不能返回通用映射？
java如何理解和优化工厂方法的高自时间
java Eclipse 202006错误由于项目的生成路径不完整，因此未生成该项目
多线程是java。util。向量序列化线程安全？
在Eclipse和java中使用不同的构建配置。属性文件

相关问题更多 >

编程相关推荐

热门问题

热门文章