Matched模式返回字符串的元组，而不是作为Wh的匹配

1条回答

网友

1楼 · 发布于 2024-09-24 22:18:16

我假设你在某个地方从网页上获取图像。你知道吗

下面是使用lxml.html获取所有图像src链接的快速方法：

from lxml.html import parse
import re

doc = parse('http://www.androidpolice.com').getroot()
links = []
img_list = []

for img in doc.cssselect('img'):
    links.append(img.get('src'))

for link in links:
    match = re.search(".*androidpolice\.com.*",link)
    if match:
        img_list.append(match.group(0))

for img in img_list:
    print(img)

给出输出：

http://www.androidpolice.com/wp-content/themes/ap2/ap_resize/ap_resize.php?src=http%3A%2F%2Fwww.androidpolice.com%2Fwp-content%2Fuploads%2F2015%2F05%2Fnexus2cee_gamethumb_thumb1.png&h=128&zc=3
http://www.androidpolice.com/wp-content/themes/ap2/ap_resize/ap_resize.php?src=http%3A%2F%2Fwww.androidpolice.com%2Fwp-content%2Fuploads%2F2015%2F05%2Fnexus2cee_gamethumb_thumb1.png&w=150&h=75&f=8|8|8|8|8|8|8|8|8|8|8|8|8
http://www.androidpolice.com/wp-content/themes/ap2/ap_resize/ap_resize.php?src=http%3A%2F%2Fwww.androidpolice.com%2Fwp-content%2Fuploads%2F2014%2F06%2Fnexusae0_Google-Photos-icon-logo-150x150.png&h=128&zc=3

-[输出截断]-

然后您可以执行(?:%2F)([\w-]+\.(?:png|jpg))来获取所有的图像名称（当然只是一个示例）。即nexus2cee_gamethumb_thumb1.png

更新代码

更改为只搜索每个链接中的androidpolice.com。您可以在6.2. re — Regular expression operations找到有关使用re模块的更多信息。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

Matched模式返回字符串的元组，而不是作为Wh的匹配

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >