使用BeautifulSoup4从HTML中提取img src

2024-09-28 21:26:27 发布

您现在位置:Python中文网/ 问答频道 /正文

<div id="thumbnailsImagePreview">
     <img src="getImage.do?imageSize=Small&amp;imageId=730645&amp;r=150521020" imageindex="0" hspace="0" vspace="0" loaded="false" class="selected">
     <img src="getImage.do?imageSize=Small&amp;imageId=7589956&amp;r=150521020" imageindex="1" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=7590018&amp;r=150521020" imageindex="2" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=2803850&amp;r=150521020" imageindex="3" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=2973197&amp;r=150521020" imageindex="4" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=7589888&amp;r=150521020" imageindex="5" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=7877267&amp;r=150521020" imageindex="6" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=7877375&amp;r=150521020" imageindex="7" hspace="0" vspace="0" loaded="false">
     <img src="getImage.do?imageSize=Small&amp;imageId=6812892&amp;r=150521020" imageindex="8" hspace="0" vspace="0" loaded="false">

</div>

我试图在这个HTML中提取到img src的链接(对于具有关联imageIndex的链接),但是由于它们都保存在div id“thumbnailsImagePreview”中,当我使用下面的代码行时,我得到了一大块文本,因此我无法为每个img src链接解析它。在

^{pr2}$

如何获取链接数组?在

当我打印图像时,我得到的是:

^{3}$

Tags: divsrcfalseimg链接dosmallamp
1条回答
网友
1楼 · 发布于 2024-09-28 21:26:27

您需要找到内部img元素,并通过将每个元素视为字典来获得src属性值:

image_srcs = [img['src'] for img in soup.select('#thumbnailsImagePreview img[src]')]

#thumbnailsImagePreview img[src]这里是一个CSS selector,它将找到位于具有id="thumbnailsImagePreview"元素下具有{}属性的所有{}元素。在

相关问题 更多 >