使用正则表达式查找url的子字符串

2024-06-30 07:56:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从一系列URL中提取一个子字符串的建议。我正在编写的代码应该从我们的web跟踪器的传入事件中的URL中提取这段信息(URL的实际id)

以这些URL为例(包含我要查找的子字符串的URL采用前三种格式)

https://www.rbnett.no/sport/i/LA8gxP/_
https://www.itromso.no/sport/sprek/i/GGobq6/derfor-vraker-tromsoes-beste-loeper-sesongens-eneste-konkurranse-det-er-for-risikabelt-aa-delta
https://www.adressa.no/sport/fotball/i/9vyQGW/brann-treneren-ferdig-avsluttet-pressekonferansen-med-aa-sitere-max-manus
https://www.rbnett.no/dakapo/banner/
https://www.adressa.no/search/

我想分别从前三个URL中提取子字符串“LA8gxP”、“GGobq6”和“9vyQGW”,而不从后两个URL中点击“dakapo”、“banner”或“search”

我在征求关于regexp的建议,以提取这段信息。据我所知,子字符串只包含a-z、a-z和0-9。子字符串似乎只有6个字符长,但这可能会随着时间的推移而改变

到目前为止,我找到的最佳解决方案(使用Python)是:

match = re.search(r"/i/([a-zA-Z0-9]+)/", url)
substring = match.group(1)

它很管用,但我觉得不太优雅

此外,它还依赖于将/i/-模式作为前缀。尽管它看起来像一个一致的模式,但我不能100%确定它是否是


Tags: no字符串https信息urlsearchwww建议