从URL python中删除HTTP和WWW

2024-09-18 16:44:57 发布

您现在位置:Python中文网/ 问答频道 /正文

url1='www.google.com'
url2='http://www.google.com'
url3='http://google.com'
url4='www.google'
url5='http://www.google.com/images'
url6='https://www.youtube.com/watch?v=6RB89BOxaYY

如何在Python中从url中剥离http(s)www


Tags: httpscomhttpurlyoutubewwwgooglewatch
2条回答

可以使用regex,这取决于数据的严格程度。http和www会一直存在吗?你想过https或w3网站吗?

import re
new_url = re.sub('.*w\.', '', url, 1)

1不伤害以w结尾的网站

澄清后编辑

我要做两个步骤:

if url.startswith('http'):
    url = re.sub(r'https?:\\', '', url)
if url.startswith('www.'):
    url = re.sub(r'www.', '', url)

您可以使用regex

url = 'http://www.google.com/images'
url = url.replace("http://www.","")
print url

或者您可以使用regular expressions

import re
url = re.compile(r"https?://(www\.)?")
url.sub('', 'http://www.google.com/images').strip().strip('/')

相关问题 更多 >