使用regex从URL中提取子字符串

网友

1楼 · 编辑于 2024-05-21 16:02:25

可以使用tuple/list赋值语法来实现：

try:
    var1, var2 = re.search(r"detail\/([a-z0-9\-]+)\/([a-z]+)", my_url).groups()
except AttributeError:
    var1 = var2 = ""

unicode字符串只在网站的答案中显示，而在原始python中，返回值将是普通字符串。所以，你不用担心。

网友

2楼 · 编辑于 2024-05-21 16:02:25

我个人认为仅仅从findall（）数组的第一个索引中设置变量是没有问题的。但是，如果您确信您的regex总是与url字符串完全匹配，那么您可以尝试一下重新匹配公司名称：
在[22]：正则表达式=重新编译（'a（bc）（cd）'）
在[23]：正则表达式匹配（'abccd'）。组（）
输出[23]：（'bc'，'cd'）
unicode有什么问题？你为什么不想留着呢？我知道regex无论如何只返回ascii，所以这不是问题。不管怎样，如果让它们成为常规字符串非常重要，只需将其转换为字符串即可。在
str（u'abc'）=='abc'

网友

3楼 · 编辑于 2024-05-21 16:02:25

您可以使用下面的正则表达式来实现相同的效果。如果你确定了网址的格式，你可以试试下面的方法。请注意，最后一个捕获th groupsbase的正则表达式是非贪婪的，而捕获组主题的正则表达式是非贪婪的。在

>>> var = 'https://chrome.google.com/webstore/detail/vt-hokie-stone-theme/enmbbbhbkojhbkbolmfgbmlcgpkjjlja?hl=en-U'

>>> match = re.match(r"(?P<base>.*/webstore/.*?/)(?P<theme>.*?)/(?P<tail>.*)",var);
>>> if match:
       ...    print match.group('base')
       ...    print match.group('theme')
       ...    print match.group('tail')

https://chrome.google.com/webstore/detail/
vt-hokie-stone-theme
enmbbbhbkojhbkbolmfgbmlcgpkjjlja?hl=en-U

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用regex从URL中提取子字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >