我是新手。我只是一个人练Python。你知道吗
我的问题是:
我的网页抓取这个ramdom网站,我想得到文件名和文件日期,并打印在一起。但多余的html标签仍然存在,我不能摆脱他们,即使我使用的get\ U文本和美化。抱歉,没有问题。只是需要帮助。提前谢谢。你知道吗
这是我的密码:
from bs4 import BeautifulSoup
import requests
source = requests.get('https://1337x.to/popular-tv').text
soup = BeautifulSoup(source, 'lxml')
tvhead = soup.find('tbody')
for tv in tvhead.find_all('tr'):
filename = tv.find_all('td' , class_='coll-1 name')
filedate = tv.find_all('td', class_='coll-date')
print(filename)
print(filedate)
print()
输出如下:
[<td class="coll-1 name"><a class="icon" href="/sub/41/0/"><i class="flaticon-hd"></i></a><a href="/torrent/3225547/Castle-Rock-S01E10-Romans-720p-HULU-WEB-DL-AAC2-0-H-264-NTb-eztv/">Castle.Rock.S01E10.Romans.720p.HULU.WEB-DL.AAC2.0.H.264-NTb[eztv]</a></td>]
[<td class="coll-date">7am Sep. 12th</td>]
[<td class="coll-1 name"><a class="icon" href="/sub/6/0/"><i class="flaticon-divx"></i></a><a href="/torrent/3225539/Castle-Rock-S01E10-Romans-480p-HULU-WEB-DL-AAC2-0-H-264-BTW-ettv/">Castle.Rock.S01E10.Romans.480p.HULU.WEB-DL.AAC2.0.H.264-BTW[ettv]</a></td>]
[<td class="coll-date">7am Sep. 12th</td>]
[<td class="coll-1 name"><a class="icon" href="/sub/6/0/"><i class="flaticon-divx"></i></a><a href="/torrent/3225653/The-Outpost-S01E08-WEB-h264-TBS-ettv/">The.Outpost.S01E08.WEB.h264-TBS[ettv]</a></td>]
[<td class="coll-date">9am Sep. 12th</td>]
预期输出应该是标题和日期,如:
TV Series title
Date
尝试:
相关问题 更多 >
编程相关推荐