我要检索的3个字符串的特征是有两个词:section
和front
。我不喜欢正则表达式
contentFrame wsj-sectionfront economy_sf
contentFrame wsj-sectionfront business_sf
section-front markets
如何使用一个正则表达式匹配这两个单词?这将用于匹配由BeautifulSoup解析的html页面的内容
更新:
我想提取一个带有div
标记的网页(https://www.wsj.com/news/business)的主体:Main Content Housing。出于某些原因,BeautifulSoup无法使用以下命令识别突出显示的类属性:
wsj_soup.find('div', attrs = {'class':'contentFrame wsj-sectionfront business_sf')
# Returns []
我正在尽可能多地留在BeautifulSoup,但如果正则表达式是一种方式,我会用它。从那里我将更有可能搜索使用contents
属性来搜索相关的关键字,但如果有人有更好的方法,请分享
处理这个问题的一种方法是使用两个单独的lookahead来检查每个单词:
Demo
相关问题 更多 >
编程相关推荐