我试图提取链接和标题,这些链接在一个动漫网站,然而,我只能提取整个标签,我只想要的href和标题。你知道吗
以下是我使用的代码:
import requests
from bs4 import BeautifulSoup
r = requests.get('http://animeonline.vip/info/phi-brain-kami-puzzle-3')
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.find_all('div', class_='list_episode'):
href = link.get('href')
print(href)
以下是网站html:
<a href="http://animeonline.vip/phi-brain-kami-puzzle-3-episode-25" title="Phi Brain: Kami no Puzzle 3 episode 25">
Phi Brain: Kami no Puzzle 3 episode 25 <span> 26-03-2014</span>
</a>
这是输出:
C:\Python34\python.exe C:/Users/M.Murad/PycharmProjects/untitled/Webcrawler.py
None
Process finished with exit code 0
所有我想要的是所有的链接和标题在该类(插曲和他们的链接)
谢谢。你知道吗
所以现在的情况是,link元素在anchor
<div>
和class=“last\u epoince”中包含了所有的信息,但是其中有很多锚,在“href”中包含链接,在“title”中包含标题。你知道吗只要修改一下代码,你就会得到你想要的。你知道吗
输出形式为[(href,title),(href,title),………(href,title)]
编辑(说明):
所以当你这么做的时候
它用“div”和class“last\u epoince”提供了所有细节(在html页面中),但是现在这个锚点包含了大量锚点,这些锚点具有不同的“href”和标题细节,因此我们使用for循环(可以有多个锚点(
<a>
))和“.get()”。你知道吗我希望这次更清楚。你知道吗
整个页面只有一个类为“list\u”的元素,因此您可以过滤掉“a”标记,然后获取属性“href”的值:
相关问题 更多 >
编程相关推荐