如何过滤URL的嵌套列表？

网友

1楼 · 编辑于 2024-09-25 10:18:20

您应该使用标志来执行此操作：

p = ['www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',
      'www.temp.de/thema/xxx',
      'www.temp.de/thema/xxx',
     'www.sample.de/fl/autoor/xxx',
     'www.temp.de/theema/xxx',
    ]

filters = ['/autor/', '/thema/' ]

fil = []
for sbl in p:
    flag = False
    for i in filters:
        if i in sbl:
            flag = True
    if not flag:
        fil.append(sbl)
fil
#['www.sample.de/fl/autoor/xxx', 'www.temp.de/theema/xxx']

网友

2楼 · 编辑于 2024-09-25 10:18:20

如果在列表理解中找到任何筛选器，则可以通过删除url在其中使用any()：

from itertools import chain

p = [['www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',],
      ['www.temp.de/thema/xxx',
      'www.temp.de/thema/xxx',]
    ]

filters = ['/autor/', '/thema/' ]  
p = [x for x in chain.from_iterable(p) if not any(f in x for f in filters)]

# []

网友

3楼 · 编辑于 2024-09-25 10:18:20

使用正则表达式。在

例如：

import re


p = ['www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',
      'www.sample.de/fl/autor/xxx',
      'www.temp.de/thema/xxx',
      'www.temp.de/thema/xxx',
    ]

filters = ['/autor/', '/thema/' ]
pattern = re.compile(r"(\b" + "|".join(filters) + r"\b)")
print([i for i in p if not pattern.search(i)])

按注释编辑

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何过滤URL的嵌套列表？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >