Python正则表达式匹配开始字符串和结束字符串，并且必须包含特定的单词

2024-10-06 08:15:33 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要一些关于改进正则表达式的指导。我有一个网页的来源，并想提取的href的网页。表没有任何ID或类。我已经决定使用正则表达式，但是我的表达式似乎比我想要的匹配更多。我尝试了以下方法：

http:\/\/(.*?)(?=.*showuri)(.*?)responseType=xml\">\/lnc\/

我的开始是http://结束是responseType=xml“>/lnc/我需要中间的位来包含单词showuri

我正在使用python3

Tags：方法 gt id http 网页表达式来源 xml

1条回答

网友

1楼 · 发布于 2024-10-06 08:15:33

我使用的方法如下：

doc = html.fromstring(text)
tr_elements = doc.xpath('//a/@href')
df = pd.DataFrame(tr_elements)
df.columns=['URL']

从这一点开始，我将删除不包含“showuri”的行