使用regex查找并显示指向指定URL的链接

2条回答

网友

1楼 · 编辑于 2024-09-29 01:24:27

您可以简单地使用：

print '<a href="'+''.join(title)+'>'+title[1]+'</a>'

匹配元素由一个元组组成，其中每个元素都是一个匹配组。因此，您将它们连接在一起形成URL，第二个元素将是您用来命名链接的组。你知道吗

网友

2楼 · 编辑于 2024-09-29 01:24:27

你的模式看起来不错。问题在于内部的捕获组。用?:使它们都不被捕获，这样就只能同时捕获整个表达式。你知道吗

p = re.compile('<a href="((?:http:\/\/www\.|https:\/\/www\.|http:\/\/|https:\/\/)'\
                         '(?:youtu|www.youtube|youtube|vimeo|dailymotion|)'\
                         '\.(?:.+?))"',re.DOTALL)
match = p.findall(html)
for title in match:
    print '<a href="' + title + '>' + title + '</a>'

要保留链接和域名，还需要另一个小小的更改—捕获整个表达式，并将网站名称作为两个单独的组（前者也捕获后者）：

p = re.compile('<a href="((?:http:\/\/www\.|https:\/\/www\.|http:\/\/|https:\/\/)'\
                         '(youtu|www.youtube|youtube|vimeo|dailymotion|)'\
                         '\.(?:.+?))"',re.DOTALL)

match = p.findall(html)
for title in match:
    print '<a href="' + title[0] + '>' + title[1] + '</a>'

通过title[i]访问组。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用regex查找并显示指向指定URL的链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >