python3,beautifulsoup4,刮取并打印特定部分的文本

2024-10-01 09:20:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我在这里到处找了找,还没有找到一个能帮助我完成任务的帖子。你知道吗

网址:http://www.animefansftw.com/

我只想从一个固定的日期得到所有帖子的标题!。我能够得到的实际职位为设定日期,但陷入了如何获得职位的标题。你知道吗

import time
import requests
import re
from bs4 import BeautifulSoup

Aniday = time.strftime("%B %d")
r = requests.get("http://www.animefansftw.com")  
r.content
soup = BeautifulSoup(r.content, "html.parser")
print("Today's Animu Crack:\n")

for div in soup.find_all("div", {"class": "date"}):
    get_date = div.text
    clean_date = " ".join(get_date.split())
    if clean_date == Aniday:
        print(clean_date)

现在为了避免混淆,我可以得到h1标题名称的职位只是罚款,但我不希望他们所有的只是那些包含日期我设置。你知道吗

for item in soup.find_all("h1"):
    info = item.text
    clean_info = " ".join(info.split())
    print(clean_info) 

Tags: importdivinfocleancomhttp标题get
1条回答
网友
1楼 · 发布于 2024-10-01 09:20:01

看一下源代码,h1标记似乎包含在父级的父级中。你知道吗

尝试:

import time
import requests
import re
from bs4 import BeautifulSoup

Aniday = time.strftime("%B %d")
r = requests.get("http://www.animefansftw.com")  
r.content
soup = BeautifulSoup(r.content, "html.parser")
print("Today's Animu Crack:\n")

for div in soup.find_all("div", {"class": "date"}):
    get_date = div.text
    clean_date = " ".join(get_date.split())
    if clean_date == Aniday:
        post_div = div.parent.parent
        title = post_div.h1.text.encode('ascii','ignore')
        print("{title}\n{date}\n".format(title=title,date=clean_date))

相关问题 更多 >