在python中使用模式匹配提取url的一部分

网友

1楼 · 编辑于 2024-09-30 18:26:01

建议您使用适当的库解析url，例如urlparse。在

例如

import urlparse

samples = [
  "http://www.fairobserver.com/about/",
  "http://www.fairobserver.com/about/interview/",
]

def about_filter(urls):
  for url in urls:
    parsed = urlparse.urlparse(url)
    if parsed.path.endswith('/about/'):
      yield url

屈服：

^{pr2}$

或者

def about_filter(urls):
  for url in urls:
    parsed = urlparse.urlparse(url)
    if parsed.path.startswith('/about'):
      yield url

屈服

>>> print list(about_filter(samples))
['http://www.fairobserver.com/about/', 'http://www.fairobserver.com/about/interview/']

网友

2楼 · 编辑于 2024-09-30 18:26:01

如果您只希望链接以以下两种方式结束，请使用html解析器和str.endwith公司名称：

import requests

from bs4 import BeautifulSoup

r = requests.get("http://www.fairobserver.com/about/")
print(list(filter(lambda x: x.endswith(("/about", '/about/')),
                  (a["href"] for a in BeautifulSoup(r.content).find_all("a", href=True)))))

也可以将regex与beauthulsoup一起使用：

^{pr2}$

网友

3楼 · 编辑于 2024-09-30 18:26:01

根据您的评论说明，完全匹配/about/或{}的路径。下面是在python2/3中使用urlparse。在

try:
    # https://docs.python.org/3.5/library/urllib.parse.html?highlight=urlparse#urllib.parse.urlparse
    # python 3
    from urllib.parse import urlparse
except ImportError:
    # https://docs.python.org/2/library/urlparse.html#urlparse.urlparse
    # python 2
    from urlparse import urlparse

urls = (
    'http://www.fairobserver.com/about/',
    'http://www.fairobserver.com/about/interview/',
    'http://www.fairobserver.com/interview/about/',
)

for url in urls:
    print("{}: path is /about? {}".format(url,
          urlparse(url.rstrip('/')).path == '/about'))

输出如下：

^{pr2}$

重要的部分是urlparse(url.rstrip('/')).path == '/about'，通过在解析之前去掉尾随的{}来规范化url，这样我们就不必使用regex了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中使用模式匹配提取url的一部分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >