2024-10-06 08:15:33 发布
网友
我需要一些关于改进正则表达式的指导。我有一个网页的来源,并想提取的href的网页。表没有任何ID或类。我已经决定使用正则表达式,但是我的表达式似乎比我想要的匹配更多。 我尝试了以下方法:
http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/
我的开始是http://结束是responseType=xml“>/lnc/我需要中间的位来包含单词showuri
我正在使用python3
我使用的方法如下:
doc = html.fromstring(text) tr_elements = doc.xpath('//a/@href') df = pd.DataFrame(tr_elements) df.columns=['URL']
从这一点开始,我将删除不包含“showuri”的行
我使用的方法如下:
从这一点开始,我将删除不包含“showuri”的行
相关问题 更多 >
编程相关推荐