Python正则表达式匹配开始字符串和结束字符串,并且必须包含特定的单词

2024-10-06 08:15:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要一些关于改进正则表达式的指导。我有一个网页的来源,并想提取的href的网页。表没有任何ID或类。我已经决定使用正则表达式,但是我的表达式似乎比我想要的匹配更多。 我尝试了以下方法:

http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/

我的开始是http://结束是responseType=xml“>/lnc/我需要中间的位来包含单词showuri

我正在使用python3


Tags: 方法gtidhttp网页表达式来源xml
1条回答
网友
1楼 · 发布于 2024-10-06 08:15:33

我使用的方法如下:

doc = html.fromstring(text)
tr_elements = doc.xpath('//a/@href')
df = pd.DataFrame(tr_elements)
df.columns=['URL']

从这一点开始,我将删除不包含“showuri”的行

相关问题 更多 >